數據挖掘的技術有很多種,按照不同的分類有不同的分類法。
下面著重討論一下互聯網數據挖掘中常用的一些技術:統計技術,關聯規則,連接分析,決策樹,神經網絡,差別分析,概念描述。
1、統計技術
數據挖掘涉及的科學領域和技術很多,如統計技術。統計技術對數據集進行挖掘的主要思想是:統計的方法對給定的數據集合假設了一個分佈或者概率模型(例如一個正態分佈)然後根據模型採用相應的方法來進行挖掘。
2、關聯規則
數據關聯是數據庫中存在的一類重要的可被發現的知識。若兩個或多個變量的取值之I司存在某種規律性,就稱為關聯。關聯可分為簡單關聯、時序關聯、因果關聯。關聯分析的目的是找出數據庫中隱藏的關聯網。有時並不知道數據庫中數據的關聯函數,即使知道也是不確定的,因此關聯分析生成的規則帶有可信度。
3、連接分析
連接分析,Link analysis,它的基本理論是圖論。圖論的思想是尋找一個可以得出好結果但不是完美結果的算法,而不是去尋找完美的解的算法。連接分析就是運用了這樣的思想:不完美的結果如果是可行的,那麼這樣的分析就是一個好的分析。利用連接分析,可以從一些用戶的行為中分析出一些模式;同時將產生的概念應用於更廣的用戶群體中。
4、決策樹
決策樹提供了一種展示類似在什麼條件下會得到什麼值這類規則的方法。
5、神經網絡
在結構上,可以把一個神經網絡劃分為輸入層、輸出層和隱含層。輸入層的每個節點對應—個個的預測變量。輸出層的節點對應目標變量,可有多個。在輸入層和輸出層之間是隱含層(對神經網絡使用者來說不可見),隱含層的層數和每層節點的個數決定了神經網絡的複雜度。
6、差別分析
差別分析的目的是試圖發現數據中的異常情況,如噪音數據等異常數據,從而獲得有用信息。
7、概念描述
概念描述就是對某類對象的內涵進行描述,並概括這類對象的有關特徵。概念描述分為特徵性描述和區別性描述,前者描述某類對象的共同特徵,後者描述不同類對象之間的區別,生成一個類的特徵性描述只涉及該類對象中所有對象的共性。
總結
步入互聯網時代,人們更加急切需要將存在於數據庫和其他信息庫中的數據轉化為有用的信息,因而數據挖掘被認為是一門非常重要的、具有廣闊應用前景和富有挑戰性的研究領域。