像百度蜘蛛那樣的程序,是怎么判斷抓取了重復(fù)頁(yè)面的呢?比如說(shuō)一個(gè)登陸頁(yè)面,可能有N個(gè)頁(yè)面有這個(gè)鏈接,該怎么判斷呢? 一定要判斷的話(huà)“登錄”頁(yè)面的鏈接,勉強(qiáng)還算可以寫(xiě)出個(gè)判斷語(yǔ)句來(lái)的,但要是再?gòu)?fù)雜的鏈接,又該怎么判斷呢??麻煩高手指點(diǎn)下啊?。?!
2 回答

侃侃無(wú)極
TA貢獻(xiàn)2051條經(jīng)驗(yàn) 獲得超10個(gè)贊
把鏈接字符串用MD5轉(zhuǎn)換為 128位整數(shù),然后放到 Dictionary 里面判斷重復(fù)
- 2 回答
- 0 關(guān)注
- 549 瀏覽
添加回答
舉報(bào)
0/150
提交
取消