什麼是資料聚類資料聚類的原理
資料聚類是對於靜態資料分析的一門技術,在許多領域受到廣泛應用,包括機器學習,資料探勘,模式識別,影象分析以及生物資訊。那麼你對資料聚類瞭解多少呢?以下是由小編整理關於什麼是資料聚類的內容,希望大家喜歡!
資料聚類的基本原理
聚類是把相似的物件通過靜態分類的方法分成不同的組別或者更多的子集subset,這樣讓在同一個子集中的成員物件都有相似的一些屬性,常見的包括在座標系中更加短的空間距離等。一般把資料聚類歸納為一種非監督式學習。
資料聚類的型別
資料聚類演算法可以分為結構性或者分散性。結構性演算法利用以前成功使用過的聚類器進行分類,而分散型演算法則是一次確定所有分類。結構性演算法可以從上之下或者從下至上雙向進行計算。從下至上演算法從每個物件作為單獨分類開始,不斷融合其中相近的物件。而從上之下演算法則是把所有物件作為一個整體分類,然後逐漸分小。
結構性
距離測量
在結構性聚類中,關鍵性的一步就是要選擇測量的距離。一個簡單的測量就是使用曼哈頓距離,它相當於每個變數的絕對差值之和。該名字的由來起源於在紐約市區測量街道之間的距離就是由人步行的步數來確定的。一個更為常見的測量是歐式空間距離,他的演算法是找到一個空間,來計算每個空間中點到原點的距離,然後對所有距離進行換算。
建立聚類
在已經得到距離值之後,元素間可以被聯絡起來。通過分離和融合可以構建一個結構。傳統上,表示的方法是樹形資料結構,然後對該結構進行修剪。
分散性
K-均值法及衍生演算法
K-均值法聚類 K-均值演算法表示以空間中k個點為中心進行聚類,對最靠近他們的物件歸類。
例如: 資料集合為三維,聚類以兩點: X = x1, x2, x3 and Y = y1, y2, y3. 中心點Z 變為 Z = z1, z2, z3, where z1 = x1 + y1/2 and z2 = x2 + y2/2 and z3 = x3 + y3/2. 演算法歸納為 J. MacQueen, 1967:
選擇聚類的個數k. 任意產生k個聚類,然後確定聚類中心,或者直接生成k箇中心。 對每個點確定其聚類中心點。 再計算其聚類新中心. 重複以上步驟直到滿足收斂要求。通常就是確定的中心點不再改變. 該演算法的最大優勢在於簡潔和快速。劣勢在於對於一些結果並不能夠滿足需要,因為結果往往需要隨機點的選擇非常巧合。
資料聚類的原理
感受最大的足球場的魅力