對于DBSCAN的實現(xiàn),是否需要對所有特征列進行標準化和歸一化?例如[[ 664. , 703. , 2901.069079], [ 632. , 717. , 2901.069079], [ 606. , 740. , 4386.449399], [ 635. , 751. , 4386.449399], [ 672. , 525. , 4760.874001]]如果我必須對此進行 DBSCAN,是否必須先對其進行標準化,然后再對其進行標準化?只是標準化嗎?此外,這些值如何決定 eps 的選擇?
1 回答

泛舟湖上清波郎朗
TA貢獻1818條經驗 獲得超3個贊
規(guī)范化或標準化數(shù)據(jù)可能會破壞數(shù)據(jù)集的重要屬性。
一些例子:
您的數(shù)據(jù)是地理坐標。緯度和經度絕不能標準化
你的數(shù)據(jù)是直方圖。唯一有意義的歸一化是使直方圖的總和為 1。切勿變換單個變量!
您的數(shù)據(jù)有一個有意義的零。例如,它是貨幣價值。不過,使用 sgn(x)*sqrt(abs(x)) 進行轉換在某些領域可能會有所幫助。
你的數(shù)據(jù)很稀疏。永遠不要標準化。(如果沒有負值,標準化可能是“好的”。)
選擇縮放不應該“因為它總是會完成”;但因為你擁有實際數(shù)據(jù)!選擇它是因為它是正確的,而不是因為它是“默認”或在某些教程中。
如果您訴諸歸一化或標準化,您很可能不了解您的數(shù)據(jù),也不了解如何測量距離或相似性;然后人們喜歡使用歸一化作為最后的手段來獲得“一些”結果;但你永遠不知道結果是否有意義。
添加回答
舉報
0/150
提交
取消