資料探勘常用的基本技術?

專案資料分析師分享資料探勘初學者需要知道的常用基本技術

資料探勘常用的基本技術

方法/步驟

1. 統計學

統計學雖然是一門“古老的”學科,但它依然是最基本的資料探勘技術,特別是多元統計分析,如判別分析、主成分分析、因子分析、相關分析、多元迴歸分析等。

2. 聚類分析和模式識別

聚類分析主要是根據事物的特徵對其進行聚類或分類,即所謂物以類聚,以期從中發現規律和典型模式。這類技術是資料探勘的最重要的技術之一。除傳統的基於多元統計分析的聚類方法外,近些年來模糊聚類和神經網路聚類方法也有了長足的發展。

3. 決策樹分類技術

決策樹分類是根據不同的重要特徵,以樹型結構表示分類或決策集合,從而產生規則和發現規律。

4. 人工神經網路和遺傳基因演算法

人工神經網路是一個迅速發展的前沿研究領域,對電腦科學 人工智慧、認知科學以及資訊科技等產生了重要而深遠的影響,而它在資料探勘中也扮演著非常重要的角色。人工神經網路可通過示例學習,形成描述複雜非線性系統的非線性函式,這實際上是得到了客觀規律的定量描述,有了這個基礎,預測的難題就會迎刃而解。目前在資料探勘中,最常使用的兩種神經網路是BP網路和RBF網路 不過,由於人工神經網路還是一個新興學科,一些重要的理論問題尚未解決。

5. 規則歸納

規則歸納相對來講是資料探勘特有的技術。它指的是在大型資料庫或資料倉庫中搜索和挖掘以往不知道的規則和規律,這大致包括以下幾種形式:IF … THEN …

6. 視覺化技術

視覺化技術是資料探勘不可忽視的輔助技術。資料探勘通常會涉及較複雜的數學方法和資訊科技,為了方便使用者理解和使用這類技術,必須藉助圖形、圖象、動畫等手段形象地指導操作、引導挖掘和表達結果等,否則很難推廣普及資料探勘技術。

相關問題答案