資料探勘簡述和weka介紹?

寫在開篇

weka用了一些時日了,覺得真心不錯。功能很完善,而且是開源的。最重要的擴充套件方便,非常適合搞研究和做全國大學生數學建模之類的比賽。

我學習weka主要是看的一本資料探勘和weka使用的書,是英文的。國內有中文版…但是不想吐就不要看譯本吧,不知道是翻譯的人是怎麼想的.

我寫博文的順序和參考書順序是一樣的,一方面是我覺得原書的學習順序很合理,另外一個方面是因為我也確確實實是按照這個順序學的。

文章的內容一部分是我大致翻譯的原書內容,一部分是我的實際經驗。

weka的中文資料還是有一些的,但是我沒有找到一個較為系統,所以準備自己寫一個系列出來。因為資料探勘涉及一些比較專業的知識,我雖然是學數學的,但畢竟不是專職做資料探勘的,如果有什麼錯誤和疏漏還希望大家指正。

資料探勘的發展背景

我們正在被資料所困擾。在我們生活的世界中,資料不斷增長。無所不在的個人計算機使原本應該被廢棄的資料現在可以很輕易地被儲存。廉價的儲存裝置可以讓我們簡簡單單儲存資料而不急於決定其用途,我們所需要的只是再買個硬碟然後繼續儲存資料。

網際網路讓我們被資訊淹沒,但另一個方面每一個選擇都被記錄下來。它們都是私人的資料,每一個數據都對應了一個個體。資料的數量高速增長,但讓人感到遺憾的是,人們的認知和知識保有量卻沒有同步增長。資訊隱藏在大量資料中,那些極有用處的資訊沒有被發現和重複利用。

尋找資料中的模式是一切的核心,這並不是多麼新奇或者高階的事情,從人類出現開始人們就開始尋找模式。獵人從動物遷徙行為中尋找模式;農夫從穀物生長中尋找模式;政客尋求選民意見的模式;科學家尋找物理世界的模式並將其濃縮成理論;企業家評估風險,從行為中尋找模式並將其轉化為可以盈利的事業並開闊它們。

經濟學家、統計學家和工程師們為了模式可以被自動風險、識別、驗證並用於驗證這個目標奮鬥了相當長的時間,如洪水般增長的資料增加了發現規律的可能性,並使其成為前沿熱點技術。據預測,儲存於全球的資料每隔20個月就可以翻一倍,當世界不斷變得複雜,我們被淹沒於資料之中時,資料探勘將成為極為有價值的技術。它可以讓人們獲得新的視角並在商業競爭中獲得競爭優勢。

相關問題答案