首頁猿問使用k-means聚類時(shí)如何確定k？

使用k-means聚類時(shí)如何確定k？

源碼算法與數(shù)據(jù)結(jié)構(gòu)

慕雪6442864 2019-08-14 17:08:15

使用k-means聚類時(shí)如何確定k？我一直在研究k-means聚類，有一點(diǎn)不清楚你是如何選擇k的值的。這只是一個(gè)試驗(yàn)和錯(cuò)誤的問題，還是還有更多的問題？

查看完整描述

3 回答

幕布斯7119047

TA貢獻(xiàn)1794條經(jīng)驗(yàn) 獲得超8個(gè)贊

您可以最大化貝葉斯信息準(zhǔn)則（BIC）：

BIC(C | X) = L(X | C) - (p / 2) * log n

其中L(X | C)在所述數(shù)據(jù)集的對數(shù)似然X根據(jù)模型C，p是在模型參數(shù)的數(shù)量C，并且n是在數(shù)據(jù)集中的點(diǎn)的數(shù)量。參見Dan Pelleg和Andrew Moore在ICML 2000中的“X-means：擴(kuò)展K -means并有效估計(jì)簇的數(shù)量”。

另一種方法是從較大的值開始k并繼續(xù)移除質(zhì)心（減少k），直到它不再減少描述長度。參見Horst Bischof，Ales Leonardis和Alexander Selb在Pattern Analysis and Applications vol。中的“MDL原理用于魯棒矢量量化”。2，p。1999年9月59日至72日。

最后，您可以從一個(gè)群集開始，然后繼續(xù)分割群集，直到分配給每個(gè)群集的點(diǎn)具有高斯分布。在“學(xué)習(xí)k -me 中的 k ”（NIPS 2003）中，Greg Hamerly和Charles Elkan展示了一些證據(jù)表明這比BIC更好，并且BIC并沒有足夠強(qiáng)烈地懲罰模型的復(fù)雜性。

反對回復(fù) 2019-08-14

墨色風(fēng)雨

TA貢獻(xiàn)1853條經(jīng)驗(yàn) 獲得超6個(gè)贊

基本上，您希望在兩個(gè)變量之間找到平衡：聚類數(shù)（k）和聚類的平均方差。您希望最小化前者，同時(shí)最小化后者。當(dāng)然，隨著簇?cái)?shù)的增加，平均方差減小（直到k = n和方差= 0 的平凡情況）。

與數(shù)據(jù)分析一樣，在所有情況下，沒有一種方法比其他方法更好。最后，你必須使用自己最好的判斷。為此，有助于根據(jù)平均方差繪制聚類數(shù)（假設(shè)您已經(jīng)為幾個(gè)k值運(yùn)行了算法）。然后，您可以使用曲線拐點(diǎn)處的簇?cái)?shù)。

反對回復(fù) 2019-08-14