大資料時代攻略:如何找資料/交易資料?

資料被譽為新時代的石油,隨著大資料市場的發展,資料開始流通,越來越多人也開始挖掘資料的價值。本文儘可能全面地介紹國內的資料來源、搜尋資料的方法以及資料交易的平臺,幫助資料工作者們快速全面地找資料。文中涉及的資料交易方式包括API資料介面、資料包下載、資料定製等,涵蓋免費的公開源資料以及付費資料。

大資料時代攻略:如何找資料/交易資料

工具/原料

1.機器:文中談論的資料均為“大資料”範疇,供機器處理的格式,非人眼讀取

2.介面:API資料需要自備接口才能使用,通常按呼叫量收費

3.處理:想榨取資料的價值,需要大資料技術和工具,文中提到的部分平臺提供大資料技術的交易,或者需要大資料工具的時候直接搜尋一下

一、統計資料

國家統計局/國家資料

最正統、最官方的資料,資料範圍涵蓋各行各業,時間跨度也較大,可下載為各種常見格式

政府各部門

政府網站通常有統計資料,但不同部門資料量有多有少,目前為止資料並不算深入,但隨著資料開放政策的深入,相信政府網站會成為很好的資料來源

部門列表可以在中國政府網找,下文中的各行業資料都可以在相關的部門網站找到資料,就不一一列舉了

行業協會

資料需要申請或購買,公開的並不多,但不失為一個選擇

諮詢公司

諮詢、金融、市場調研公司,尤其是業內頂尖的,通常有自己的資料,但同樣並不免費公開,部分資料可購買

年鑑

大部分主要行業都有自己的年鑑,資料比較寶貴,只是給機器用之前還需要處理;價值高的年鑑通常需要付費獲取;這裡推薦一下人大經濟論壇,氛圍較好

大資料時代攻略:如何找資料/交易資料

二、資料交易平臺

政府牽頭

1.地區性資料交易平臺:貴州、上海、北京、江蘇、武漢、哈爾濱、海南等

2.模式:部分採用會員制,提供交易的場所以及必要的技術支援,收取交易費;部分僅提供線上交易平臺

3.特點:享有龐大的政府資料資源,並且聯合各行業的龍頭企業

(此處參考“北京秋”的文章“走馬觀花:國內各路大資料交易平臺現狀”)

API平臺

1.列表:apistore、京東永珍、聚合、阿凡達、showapi、haoservice、極速資料、apix、通聯資料商城

2.模式:按呼叫量收費

3.特點:即時性很好,質量相對有保障,並且可以更大程度保護資料所有者的權益

淘寶模式

1.列表:數糧、資料寶(、淘寶)

2.模式:資料商入駐,創造良好的交易環境、鼓勵交易

3.特點:資料範圍較廣、態度開放,比起到處蒐羅資料方便很多,有潛力進一步發展

資料包定製/下載

1.列表:數多多、大海洋、發源地

2.模式:以資料下載和定製為主

3.特點:有一定的固定使用者不斷提供新鮮資料,可以定製採集

其他

1.列表:資料堂、優易資料、資料淘

2.特點:目前的資料平臺(包括未列舉的和不斷出現的新興平臺)都比較有自己的特點,希望這些平臺能夠共同推動資料市場的成熟

大資料時代攻略:如何找資料/交易資料

三、各行業資料來源

財經資料

1.經濟資料庫:CEIC、國泰安、銳思、資訊行

2.監管部門:證監會、上交所、深交所(巨潮)、股轉系統、大商所、鄭商所網站

3.金融市場網站:中國貨幣網、中國債券資訊網、上海期貨/黃金交易所

4.財經終端:不少免費版的財經/股票終端都可以匯出資料,屬優質資料來源

5.入口網站:如新浪財經可以下載大量的證券資料

6.通聯:類似quandl提供不少財經api介面

7.量化交易平臺:近幾年新興的技術產品,可以在這類平臺上獲取大量歷史資料

8.投融資:IT桔子、清科資料庫

9.國外資源:WITS,WORLD BANK,IMF,YAHOO,Quandl(大量財經api介面,可匯出各種格式)等

貿易資料

1.海關總署、海關統計資訊網、海關資訊網有不少資料,部分免費

(商務部網站中有大量資料,但目前不能下載或呼叫)

2.綜合性網站:慧聰、卓創資訊,但可惜大部分資料只能瀏覽

3.資料商:可以在百度和上面提到的資料平臺上找到不少這類的資料撮合商(一般高質量的資料需要付費獲取)

4.國外資料:WTO,UN COMTRADE有大量高質量的資料

第一第二產業

1.農業資料:目前以統計資料為主,行業入口網站和細分領域網站(如中華糧網)的資料通常無法直接呼叫,只能在線瀏覽,但不妨保持對這些網站的關注

2.農業資料提供商:如艾格農業、布瑞克,但目前資料的總體質量達不到預期

3.工業資料:和農業資料的情況類似,也只有少數資料商,如鋼聯、煤炭資源網等

(傳統領域的資料,隨著物聯網技術的發展,獲取難度會降低、應用價值將提高,預計在未來會有不錯的上升空間)

其他傳統行業

1.地產資料:CRIC、中指是主要資訊商

2.物流運輸:快遞行業得益於電商的帶動,有不少API介面,可以百度之;但包括交通運輸部、海事局在內的網站,都很難得到有價值的物流資料

3.地圖資料:目前可以找到不少地圖api介面(如百度、高德、騰訊),但地圖資料商並不多(代表企業有四維圖新、中科宇圖等)

4.吃穿住行:此類資料主要出現在上面提到的api介面平臺(如天氣、交通、酒店等)

網際網路企業

由於行業的天然屬性,IT企業都較重視自身的資料,因此在公開源很難找到相關的資料來源,大部分知名企業選擇以api介面的形式(或營銷行業的DMP)供外部合作伙伴呼叫自身的資料,例如淘寶api、攜程api、豆瓣api等

科研資料

這部分資料的共享性質更突出,而且資料體量較大,未來作者會在合適的時候單論一篇;目前也已經有一些相對活躍的資料流通領域(如遙感資料,已經有中國資源衛星應用中心、遙感集市、地理空間資料雲等平臺撮合交易)

注意事項

隨著大資料市場的發展,資料價值將被不斷挖掘出來,資料資源也會不斷豐富,獲取渠道日新月異,本文內容有限,僅拋磚引玉

資料, 平臺, 時代, 交易, 介面,
相關問題答案