? ?爬蟲課上simhash比較通過增加存儲空間減少比較次數(shù),其中您講到分成5塊:A,B,C,D,E,分別存儲16,12,12,12,12位。? ?我的問題是為什么不分4塊存儲:28,12,12,12呢?
2 回答

ibeautiful
TA貢獻1993條經(jīng)驗 獲得超6個贊
這個問題是這樣的,如果你有一塊是28個bit位,你可以試試看,會出現(xiàn)一種情況,比如 x 和 y 兩個數(shù),它們分別在 24 44 64 3個bit位不同,那么x分為這樣的4塊(也就是 28 12 12 12 | 12 28 12 12 | ... )后,發(fā)現(xiàn)4個特征塊也就是 28bit的那一個塊,都會有不同的數(shù),因此根據(jù)特征塊來找,會根本就找不到
根據(jù)我們的情況,64個bit位有3個不同,要保證分組的間隔是小于21的,否則就會出現(xiàn),幾個特征塊總能包含不同的bit

繁花不似錦
TA貢獻1851條經(jīng)驗 獲得超4個贊
看了這個更疑惑了,如果分成ABCD,28,12,12,12的四塊,那么根據(jù)抽屜原理,還是能找到一塊是完全相同的,然后再比較剩余的位。沒有明白為什么會找不到。
看了這個更疑惑了,如果分成ABCD,28,12,12,12的四塊,那么根據(jù)抽屜原理,還是能找到一塊是完全相同的,然后再比較剩余的位。沒有明白為什么會找不到。
添加回答
舉報
0/150
提交
取消