數據挖掘要學哪些東西?
要學數據挖掘需要哪些基礎
我先介紹下我自己,我不是搞純數學專業的,我是REDHAT LINUX“紅帽子”公司的資深系統級工程師。我也做過數據挖掘方面的工作!為一個在甲骨文的朋友搞一些數據方面的工作。所以為了應付我也大概突擊了下,才發現這門學科有竅門!
首先,我要說的是我覺得你是一名在校大學生!Data Mining不是你想的那麼簡單,他不單單和數學有關係,還包括了計算機領域的諸多學科。還有社會工程學、邏輯學等文科和理科的交叉學科!他是一門龐大的體系。你要是真想學我只能給你指條比較快的成才之路,後面的東西自己慢慢學都趕趟!慢慢充實自己!大學四年好好利用!學無止境!
既然是數據分析那你的高等數學必須要過硬,彆著急這只是你的其他學科的基礎課。其次是概率與統計,這才是正科,大學那點玩意就是糊弄人的,你要多看這方面的書。這個一定要學好!線性必須要會要精通。因為數據劃分是數據挖掘裡最重要的一個環節。這個就是線性範疇裡的了。也要精通,學會線性分析你就發現你就學會了很多。數學有這三個底子就可以了。數學分析不要看了。因為那只是高數的延伸!
計算機你一定要懂。數據庫你必須得學會。三大數據庫ORACLE.SQL.MYSQL原理基本類似觸類旁通!
還有就是培養你的思維,儘量縝密敏捷。這樣才可以發現數據中的不同!因為有的數據挖掘是計算機處理的。有的則是紙面上的。所以必須學會記錄
好了,就先這麼多了。你學會了這幾個就是你進軍下一步的基礎,這幾個就夠你學一陣子的了。
祝你好運哥們!
學習數據挖掘需要那些基礎知識?
入門推薦你看《機器學習實戰》,不需要你跑去學習算法和數據結構,不需要解析幾何的知識,但是數理統計的基礎你必須要有,期望、方差、常用的幾種概率分佈,尤其注意一下條件概率,因為樸素貝葉斯模型你一定要懂,線性代數至少你要明白矩陣乘法、行列式計算,再就是微積分知識,不然你看不懂所有基於梯度下降法的文獻,行業內用的比較多的是c++,java和python,推薦你用python,很多模型不需要你造輪子,python有相關的第三方模塊,很方便。
數據挖掘涉及的內容比較泛,機器學習、數據挖掘、人工智能,但實際上這些知識大多是相通的,機器學習實戰這本書是我看的啟蒙書裡很好的一本了,該有的都有,難度較小,有理論有實踐,可以較快的對各種知識有個大概的瞭解,但是想要長期在這個行業發展,還需要學習更多的知識,比如說提到迴歸模型,你不僅僅要知道最小二乘法,你還要想到怎麼進行數據清洗、哪些數據需要清洗,怎麼規範數據,數據是否過多,要不要進行歸約和降維,採用哪種迴歸模型,精確度大致要達到什麼水平,要不要考慮過擬合和欠擬合,要不要進行交叉驗證,幾折交叉驗證效果好,如果迴歸模型不適用,有哪些備選方案。比如說決策樹模型,書上簡單的講了個if-then就完了,按照什麼規則生成樹,怎麼分層,要不要剪枝,最終的效果怎麼樣,造成誤差的原因是模型太複雜還是太簡單,怎麼綜合其他模型對決策樹進行改進,數據的聚類方法用k均值還是DBSCAN,需要對數據進行分類的時候要考慮數據量大不大,SVM還是神經網絡,數據量計算機吃不吃得消,一次吃不消該怎麼做,等你對這些有了大致的瞭解之後,好好看看《統計學習方法》這本書,深入地瞭解一下理論部分,看一看核心部分的數學模型,看一看如何算法實現,著重理解一下拉格朗日微分法和拉格朗日對偶,解決等式約束和不等式約束很有用,這個也是使用智能算法嘗試解決NP完全問題的一個結合點。
除了看書以外,其他時間全部用在學習編程上,python常用的numpy、matplotlib、scipy、sklearn、nltk這些包你都要大致瞭解怎麼用,推薦你看看圖靈程序設計叢書裡的《python學習手冊》《python自然語言處理》《python科學計算》,至少要知道怎麼定義類、方法、屬性,常用模塊裡有哪些好用的方法,常見的異常怎麼排除,其他的在有時間的時候隨用隨學,至於算法和數據結構,有時間的話看看《算法導論》,肯定有所收穫。
至於說書單就上豆瓣搜一搜,評分高的一般都比較靠譜,英文版的也比較靠譜
數據挖掘方向都要學習哪些東西
學習數據分析,建議你去培訓機構看看,有課表還是很詳細的!
學習數據挖掘一般要學哪些軟件和工具
1、WEKA
WEKA 原生的非 Java 版本主要是為了分析農業領域數據而開發的。該工具基於 Java 版本,是非常複雜的,並且應用在許多不同的應用中,包括數據分析以及預測建模的可視化和算法。與 RapidMiner 相比優勢在於,它在 GNU 通用公共許可證下是免費的,因為用戶可以按照自己的喜好選擇自定義。
WEKA 支持多種標準數據挖掘任務,包括數據預處理、收集、分類、迴歸分析、可視化和特徵選取。添加序列建模後,WEKA 將會變得更強大,但目前不包括在內。
2、RapidMiner
該工具是用 Java 語言編寫的,通過基於模板的框架提供先進的分析技術。該款工具最大的好處就是,用戶無需寫任何代碼。它是作為一個服務提供,而不是一款本地軟件。值得一提的是,該工具在數據挖掘工具榜上位列榜首。另外,除了數據挖掘,RapidMiner 還提供如數據預處理和可視化、預測分析和統計建模、評估和部署等功能。更厲害的是它還提供來自 WEKA(一種智能分析環境)和 R 腳本的學習方案、模型和算法。
RapidMiner 分佈在 AGPL 開源許可下,可以從 SourceForge 上下載。SourceForge 是一個開發者進行開發管理的集中式場所,大量開源項目在此落戶,其中就包括維基百科使用的 MediaWiki。
3、NLTK
當涉及到語言處理任務,沒有什麼可以打敗 NLTK。NLTK 提供了一個語言處理工具,包括數據挖掘、機器學習、數據抓取、情感分析等各種語言處理任務。
而您需要做的只是安裝 NLTK,然後將一個包拖拽到您最喜愛的任務中,您就可以去做其他事了。因為它是用 Python 語言編寫的,你可以在上面建立應用,還可以自定義它的小任務。
學習數據挖掘一般要學哪些軟件和工具
1、WEKA
WEKA 原生的非 Java 版本主要是為了分析農業領域數據而開發的。該工具基於 Java 版本,是非常複雜的,並且應用在許多不同的應用中,包括數據分析以及預測建模的可視化和算法。與 RapidMiner 相比優勢在於,它在 GNU 通用公共許可證下是免費的,因為用戶可以按照自己的喜好選擇自定義。
WEKA 支持多種標準數據挖掘任務,包括數據預處理、收集、分類、迴歸分析、可視化和特徵選取。添加序列建模後,WEKA 將會變得更強大,但目前不包括在內。
2、RapidMiner
該工具是用 Java 語言編寫的,通過基於模板的框架提供先進的分析技術。該款工具最大的好處就是,用戶無需寫任何代碼。它是作為一個服務提供,而不是一款本地軟件。值得一提的是,該工具在數據挖掘工具榜上位列榜首。另外,除了數據挖掘,RapidMiner 還提供如數據預處理和可視化、預測分析和統計建模、評估和部署等功能。更厲害的是它還提供來自 WEKA(一種智能分析環境)和 R 腳本的學習方案、模型和算法。
RapidMiner 分佈在 AGPL 開源許可下,可以從 SourceForge 上下載。SourceForge 是一個開發者進行開發管理的集中式場所,大量開源項目在此落戶,其中就包括維基百科使用的 MediaWiki。
3、NLTK
當涉及到語言處理任務,沒有什麼可以打敗 NLTK。NLTK 提供了一個語言處理工具,包括數據挖掘、機器學習、數據抓取、情感分析等各種語言處理任務。
而您需要做的只是安裝 NLTK,然後將一個包拖拽到您最喜愛的任務中,您就可以去做其他事了。因為它是用 Python 語言編寫的,你可以在上面建立應用,還可以自定義它的小任務。
4、Orange
Python 之所以受歡迎,是因為它簡單易學並且功能強大。如果你是一個 Python 開發者,當涉及到需要找一個工作用的工具時,那麼沒有比 Orange 更合適的了。它是一個基於 Python 語言,功能強大的開源工具,並且對初學者和專家級的大神均適用。
此外,你肯定會愛上這個工具的可視化編程和 Python 腳本。它不僅有機器學習的組件,還附加有生物信息和文本挖掘,可以說是充滿了數據分析的各種功能。
5、KNIME
數據處理主要有三個部分:提取、轉換和加載。 而這三者 KNIME 都可以做到。 KNIME 為您提供了一個圖形化的用戶界面,以便對數據節點進行處理。它是一個開源的數據分析、報告和綜合平臺,同時還通過其模塊化數據的流水型概念,集成了各種機 器學習的組件和數據挖掘,並引起了商業智能和財務數據分析的注意。
KNIME 是基於 Eclipse,用 Java 編寫的,並且易於擴展和補充插件。其附加功能可隨時添加,並且其大量的數據集成模塊已包含在核心版本中。
6、R-Programming
如果我告訴你R項目,一個 GNU 項目,是由 R(R-programming簡稱,以下統稱R)自身編寫的,你會怎麼想?它主要是由 C 語言和 FORTRAN 語言編寫的,並且很多模塊都是由 R 編寫的,這是一款針對編程語言和軟件環境進行統計計算和製圖的免費軟件。
R語言被廣泛應用於數據挖掘,以及開發統計軟件和數據分析中。近年來,易用性和可擴展性也大大提高了 R 的知名度。除了數據,它還提供統計和製圖技術,包括線性和非線性建模,經典的統計測試,時間序列分析、分類、收......
學數據挖掘必須掌握哪些技能
數學功底。概率論、數理統計、算法、運籌學。
編程功底。Python,C++,R。
任重而道遠,加油。
學習數據挖掘一般要學哪些軟件和工具
數據挖掘工具的話要學習excel,sql,R語言,MYSQL等等,數據挖掘的軟件的話可以學習下tableau以及finebi,作為大數據前端分析挖掘工具,兩個軟件都是很容易上手的。
如何學習數據挖掘
【轉自網絡】
首先,我要說的是我覺得你是一名在校大學生!Data Mining不是你想的那麼簡單,他不單單和數學有關係,還包括了計算機領域的諸多學科。還有社會工程學、邏輯學等文科和理科的交叉學科!他是一門龐大的體系。你要是真想學我只能給你指條比較快的成才之路,後面的東西自己慢慢學都趕趟!慢慢充實自己!大學四年好好利用!學無止境!
既然是數據分析那你的高等數學必須要過硬,彆著急這只是你的其他學科的基礎課。其次是概率與統計,這才是正科,大學那點玩意就是糊弄人的,你要多看這方面的書。這個一定要學好!線性必須要會要精通。因為數據劃分是數據挖掘裡最重要的一個環節。這個就是線性範疇裡的了。也要精通,學會線性分析你就發現你就學會了很多。數學有這三個底子就可以了。數學分析不要看了。因為那只是高數的延伸!
計算機你一定要懂。數據庫你必須得學會。三大數據庫ORACLE.SQL.MYSQL原理基本類似觸類旁通!
還有就是培養你的思維,儘量縝密敏捷。這樣才可以發現數據中的不同!因為有的數據挖掘是計算機處理的。有的則是紙面上的。所以必須學會記錄
好了,就先這麼多了。你學會了這幾個就是你進軍下一步的基礎,這幾個就夠你學一陣子的了。
祝你好運哥們!
數據挖掘的起點很高——
1、統計學
2、機器學習
3、數學——圖論,最優化理論等。
WEB上的數據結構更加複雜。
python語言————應該學習
抱歉,事情太多,如果不追著就忘了!我認為你作為企業員工對數據挖掘感興趣,最主要的就是從應用和解決問題開始,所以我想把數據挖掘這個狹義定義的內容改成你應該對數據分析感興趣,數據挖掘只是數據分析的一個重要工具和解決方法之一!
數量統計知識方面:我認為統計思想是數學在實踐中最重要的體現,但對於實際工作者最重要的是掌握統計思想,其實統計理論非常複雜,但實際應用往往是比較簡單的!比如,很多人都在大學學了假設檢驗,但實際應用中假設就是看P值是否小於0.05,但是H0是什麼?拒絕還是接受的是什麼現實問題;要理解!
掌握軟件問題:從軟件角度學,是非常好的思路,我基本上就是這樣學的。我常說編軟件的人最懂理論,否則編不出來,編軟件的人最知道應用,否則軟件買不出去;現在軟件越來越友好,把軟件自帶案例做一遍,你會自覺不自覺的掌握軟件解決問題的思路和能解決的問題類型;
數據倉庫問題:OLAP和數據挖掘是數據倉庫建立基礎上的兩個增值應用,從企業整體角度,數據挖掘應該建立在企業數據倉庫完備的基礎上。所以說數據倉庫是針對企業級數據挖掘應用提出的,但我們應該記住,企業從來不是為了數據挖掘建立數據倉庫,而是因為有了數據倉庫後必然會提出數據挖掘的需求!現在隨著數據挖掘軟件的工具智能化,以及數據倉庫和ETL工具的接口友好,對數據庫層面的要求越來越少;
數學不好可能反應了一個人思考問題的方式或深入理解問題的能力,但數學不是工具是腦具,不斷解決問題的過程可以讓我們思考問題更數學化!
沈浩老師建議:
不急,一步一步來!先把本職工作中的數據分析問題理解了,幹好了!
熟練玩好Excel軟件工具,這個可以看《Excel高級應用與數據分析》我寫的書,當然有很多Excel論壇和網站,從我的博客就可以連接到。
學習好統計分析方法,我不是單指統計原理,而是統計分析方法,比如迴歸分析,因子分析等,不斷進入統計分析解決問題的思考方式;這個可以看看SPSS軟件方面的書和數據案例,通過軟件學習解決數據分析的統計問題,這方面的書很多,當然你也可以關注我的博客,不斷增加統計分析方法解決數據分析問題的思路,自己對照著完成!
在上述問題有了比較好的理解後,也......
想搞數據挖掘 需要學習哪些東東?
看你想從事哪個工作
企業?教學研究?
數據挖掘分方向,有統計方向,也有計算機方向。它算是交叉學科。
丁據庫是要學的,sas統計軟件算是一個比較好的數據挖掘工具。
還有什麼不懂的可以給我發消息。
我讀的研究生就是數據挖掘專業,統計方向。
學習數據挖掘。需要先學習什麼。他和數據庫啥區別。哪個好 40分
數據挖掘是建立在數據倉庫上的,數據倉庫是建立在數據庫基礎上的,你不懂數據庫的有些麻煩。至少你要明白運作原理,對吧。人工導論瞭解的不多,不過聽說是在數據挖掘之後的事情。所以那東西應該要的不多。我這些是從工作上得到的結論。希望對樓主有幫助。