世界包含的多得難以想象的數字化資訊變得更多更快……從商業到科學,從政府到藝術,這種影響無處不在。科學家和計算機工程師們給這種現象創造了一個新名詞:“大資料”。大資料時代什麼意思?大資料概念什麼意思?大資料分析什麼意思?所謂大資料,那到底什麼是大資料,他的來源在哪裡,定義究竟是什麼呢?
方法/步驟
一:大資料的定義。
1、大資料,又稱巨量資料,指的是所涉及的資料資料量規模巨大到無法通過人腦甚至主流軟體工具,在合理時間內達到擷取、管理、處理、並整理成為幫助企業經營決策更積極目的的資訊。2、大資料技術,是指從各種各樣型別的大資料中,快速獲得有價值資訊的技術的能力,包括資料採集、儲存、管理、分析挖掘、視覺化等技術及其整合。適用於大數的技術,包括大規模並行處理(MPP)資料庫,資料探勘電網,分散式檔案系統,分散式資料庫,雲端計算平臺,網際網路,和可擴充套件的儲存系統。
3、大資料應用,是 指對特定的大資料集合,整合應用大資料技術,獲得有價值資訊的行為。對於不同領域、不同企業的不同業務,甚至同一領域不同企業的相同業務來說,由於其業務需求、資料集合和分析挖掘目標存在差異,所運用的大資料技術和大資料資訊系統也可能有著相當大的不同。惟有堅持“物件、技術、應用”三位一體同步發展,才能充分實現大資料的價值。當你的技術達到極限時,也就是資料的極限”。大資料不是關於如何定義,最重要的是如何使用。最大的挑戰在於哪些技術能更好的使用資料以及大資料的應用情況如何。這與傳統的資料庫相比,開源的大資料分析工具的如Hadoop的崛起,這些非結構化的資料服務的價值在哪裡。
二:大資料的型別和價值挖掘方法
1、大資料的型別大致可分為三類:1)傳統企業資料(Traditionalenterprisedata):包括 CRM systems的消費者資料,傳統的ERP資料,庫存資料以及賬目資料等。2)機器和感測器資料(Machine-generated/sensor data):包括呼叫記(CallDetailRecords),智慧儀表,工業裝置感測器,裝置日誌(通常是Digital exhaust),交易資料等。3)社交資料(Socialdata):包括使用者行為記錄,反饋資料等。如Twitter,Facebook這樣的社交媒體平臺。2、大資料探勘商業價值的方法主要分為四種:1)客戶群體細分,然後為每個群體量定製特別的服務。2)模擬現實環境,發掘新的需求同時提高投資的回報率。3)加強部門聯絡,提高整條管理鏈條和產業鏈條的效率。4)降低服務成本,發現隱藏線索進行產品和服務的創新。
三:大資料的特點
業界通常用4個V(即Volume、Variety、Value、Velocity)來概括大資料的特徵。具體來說,大資料具有4個基本特徵:1、是資料體量巨大資料體量(volumes)大,指代大型資料集,一般在10TB規模左右,但在實際應用中,很多企業使用者把多個數據集放在一起,已經形成了PB級的資料量;百度資料表明,其新首頁導航每天需要提供的資料超過1.5PB(1PB=1024TB),這些資料如果打印出來將超過5千億張A4紙。有資料證實,到目前為止,人類生產的所有印刷材料的資料量僅為200PB。2、是資料類別大和型別多樣資料類別(variety)大,資料來自多種資料來源,資料種類和格式日漸豐富,已衝破了以前所限定的結構化 資料範疇,囊括了半結構化和非結構化資料。現在的資料型別不僅是文字形式,更多的是圖片、視訊、音訊、地理位置資訊等多型別的資料,個性化資料佔絕對多數。3、是處理速度快在資料量非常龐大的情況下,也能夠做到資料的實時處理。資料處理遵循“1秒定律”,可從各種型別的資料中快速獲得高價值的資訊。4、是價值真實性高和密度低資料真實性(Veracity)高,隨著社交資料、企業內容、交易與應用資料等新資料來源的興趣,傳統資料來源的侷限被打破,企業愈發需要有效的資訊之力以確保其真實性及安全性。以視訊為例,一小時的視訊,在不間斷的監控過程中,可能有用的資料僅僅只有一兩秒。
四:大資料的作用
1、對大資料的處理分析正成為新一代資訊科技融合應用的結點移動網際網路、物聯網、社交網路、數字家庭、電子商務等是新一代資訊科技的應用形態,這些應用不斷產生大資料。雲端計算為這些海量、多樣化的大資料提供儲存和運算平臺。通過對不同來源資料的管理、處理、分析與優化,將結果反饋到上述應用中,將創造出巨大的經濟和社會價值。大資料具有催生社會變革的能量。但釋放這種能量,需要嚴謹的資料治理、富有洞見的資料分析和激發管理創新的環境(Ramayya Krishnan,卡內基·梅隆大學海因茲學院院長)。2、大資料是資訊產業持續高速增長的新引擎面向大資料市場的新技術、新產品、新服務、新業態會不斷湧現。在硬體與整合裝置領域,大資料將對晶片、儲存產業產生重要影響,還將催生一體化資料儲存處理伺服器、記憶體計算等市場。在軟體與服務領域,大資料將引發資料快速處理分析、資料探勘技術和軟體產品的發展。3、大資料利用將成為提高核心競爭力的關鍵因素各行各業的決策正在從“業務驅動” 轉變“資料驅動”。對大資料的分析可以使零售商實時掌握市場動態並迅速做出應對;可以為商家制定更加精準有效的營銷策略提供決策支援;可以幫助企業為消費者提供更加及時和個性化的服務;在醫療領域,可提高診斷準確性和藥物有效性;在公共事業領域,大資料也開始發揮促進經濟發展、維護社會穩定等方面的重要作用。4、大資料時代科學研究的方法手段將發生重大改變
例如,抽樣調查是社會科學的基本研究方法。在大資料時代,可通過實時監測、跟蹤研究物件在網際網路上產生的海量行為資料,進行挖掘分析,揭示出規律性的東西,提出研究結論和對策。
五:大資料的商業價值
1、對顧客群體細分“大資料”可以對顧客群體細分,然後對每個群體量體裁衣般的採取獨特的行動。瞄準特定的顧客群體來進行營銷和服務是商家一直以來的追求。雲端儲存的海量資料和“大資料”的分析技術使得對消費者的實時和極端的細分有了成本效率極高的可能。2、模擬實境運用“大資料”模擬實境,發掘新的需求和提高投入的回報率。現在越來越多的產品中都裝有感測器,汽車和智慧手機的普及使得可收集資料呈現爆炸性增長。Blog、Twitter、Facebook和微博等社交網路也在產生著海量的資料。雲端計算和“大資料”分析技術使得商家可以在成本效率較高的情況下,實時地把這些資料連同交易行為的資料進行儲存和分析。交易過程、產品使用和人類行為都可以資料化。“大資料”技術可以把這些資料整合起來進行資料探勘,從而在某些情況下通過模型模擬來判斷不同變數(比如不同地區不同促銷方案)的情況下何種方案投入回報最高。3、提高投入回報率提高“大資料”成果在各相關部門的分享程度,提高整個管理鏈條和產業鏈條的投入回報率。“大資料”能力強的部門可以通過雲端計算、網際網路和內部搜尋引擎把”大資料”成果和“大資料”能力比較薄弱的部門分享,幫助他們利用“大資料”創造商業價值。4、資料儲存空間出租企業和個人有著海量資訊儲存的需求,只有將資料妥善儲存,才有可能進一步挖掘其潛在價值。具體而言,這塊業務模式又可以細分為針對個人檔案儲存和針對企業使用者兩大類。主要是通過易於使用的API,使用者可以方便地將各種資料物件放在雲端,然後再像使用水、電一樣按用量收費。目前已有多個公司推出相應服務,如亞馬遜、網易、諾基亞等。運營商也推出了相應的服務,如中國移動的彩雲業務。5、管理客戶關係客戶管理應用的目的是根據客戶的屬性(包括自然屬性和行為屬性),從不同角度深層次分析客戶、瞭解客戶,以此增加新的客戶、提高客戶的忠誠度、降低客戶流失率、提高客戶消費等。對中小客戶來說,專門的CRM顯然大而貴。不少中小商家將飛信作為初級CRM來使用。比如把老客戶加到飛信群裡,在群朋友圈裡釋出新產品預告、特價銷售通知,完成售前售後服務等。6、個性化精準推薦在運營商內部,根據使用者喜好推薦各類業務或應用是常見的,比如應用商店軟體推薦、IPTV視訊節目推薦等,而通過關聯演算法、文字摘要抽取、情感分析等智慧分析演算法後,可以將之延伸到商用化服務,利用資料探勘技術幫助客戶進行精準營銷,今後盈利可以來自於客戶增值部分的分成。以日常的“垃圾簡訊”為例,資訊並不都是“垃圾”,因為收到的人並不需要而被視為垃圾。通過使用者行為資料進行分析後,可以給需要的人傳送需要的資訊,這樣“垃圾簡訊”就成了有價值的資訊。在日本的麥當勞,使用者在手機上下載優惠券,再去餐廳用運營商DoCoMo的手機錢包優惠支付。運營商和麥當勞蒐集相關消費資訊,例如經常買什麼漢堡,去哪個店消費,消費頻次多少,然後精準推送優惠券給使用者。7、資料搜尋資料搜尋是一個並不新鮮的應用,隨著“大資料”時代的到來,實時性、全範圍搜尋的需求也就變得越來越強烈。我們需要能搜尋各種社交網路、使用者行為等資料。其商業應用價值是將實時的資料處理與分析和廣告聯絡起來,即實時廣告業務和應用內移動廣告的社交服務。運營商掌握的使用者網上行為資訊,使得所獲取的資料“具備更全面維度”,更具商業價值。典型應用如中國移動的“盤古搜尋”。
六:大資料對經濟社會的重要影響
1、能夠推動實現巨大經濟效益比如對中國零售業淨利潤增長的貢獻,降低製造業產品開發、組裝成本等。預計2013年全球大資料直接和間接拉動資訊科技支出將達1200億美元。2、能夠推動增強社會管理水平大資料在公共服務領域的應用,可有效推動相關工作開展,提高相關部門的決策水平、服務效率和社會管理水平,產生巨大社會價值。歐洲多個城市通過分析實時採集的交通流量資料,指導駕車出行者選擇最佳路徑,從而改善城市交通狀況。3、如果沒有高效能的分析工具,大資料的價值就得不到釋放對大資料應用必須保持清醒認識,既不能迷信其分析結果,也不能因為其不完全準確而否定其重要作用。1)由於各種原因,所分析處理的資料物件中不可避免地會包括各種錯誤資料、無用資料,加之作為大資料技術核心的資料分析、人工智慧等技術尚未完全成熟,所以對計算機完成的大資料分析處理的結果,無法要求其完全準確。例如,谷歌通過分析億萬使用者搜尋內容能夠比專業機構更快地預測流感暴發,但由於微博上無用資訊的干擾,這種預測也曾多次出現不準確的情況。2)必須清楚定位的是,大資料作用與價值的重點在於能夠引導和啟發大資料應用者的創新思維,輔助決策。簡單而言,若是處理一個問題,通常人能夠想到一種方法,而大資料能夠提供十種參考方法,哪怕其中只有三種可行,也將解決問題的思路拓展了三倍。所以,客觀認識和發揮大資料的作用,不誇大、不縮小,是準確認知和應用大資料的前提。
七:最後給您總結一下
不管大資料的核心價值是不是預測,但是基於大資料形成決策的模式已經為不少的企業帶來了盈利和聲譽。1、從大資料的價值鏈條來分析,存在三種模式:1)手握大資料,但是沒有利用好;比較典型的是金融機構,電信行業,政府機構等。2)沒有資料,但是知道如何幫助有資料的人利用它;比較典型的是IT諮詢和服務企業,比如,開運聯合,IBM,Oracle等。3)既有資料,又有大資料思維;比較典型的是Google,Amazon,Mastercard等。2、未來在大資料領域最具有價值的是兩種事物:1)擁有大資料思維的人,這種人可以將大資料的潛在價值轉化為實際利益;2)還未有被大資料觸及過的業務領域。這些是還未被挖掘的油井,金礦,是所謂的藍海。大資料是資訊科技與專業技術、資訊科技產業與各行業領域緊密融合的典型領域,有著旺盛的應用需求、廣闊的應用前景。為把握這一新興領域帶來的新機遇,需要不斷跟蹤研究大資料,不斷提升對大資料的認知和理解,堅持技術創新與應用創新的協同共進,加快經濟社會各領域的大資料開發與利用,推動國家、行業、企業對於資料的應用需求和應用水平進入新的階段。