2 回答

慕容708150
TA貢獻(xiàn)1831條經(jīng)驗(yàn) 獲得超4個(gè)贊
爬蟲的原理是從一個(gè)起始種子鏈接
開始,發(fā)http請(qǐng)求
這個(gè)鏈接,得到該鏈接中的內(nèi)容,然后大多使用正則匹配
出頁(yè)面里面的有效鏈接
,然后將這些鏈接保存到待訪問隊(duì)列中,等待爬取線程
取這個(gè)待訪隊(duì)列,一旦鏈接訪問過了,為了有效的減少不必要的網(wǎng)絡(luò)請(qǐng)求,我們應(yīng)該把訪問過的鏈接放到一個(gè)已訪問map
中,已防止重復(fù)抓取及死循環(huán)。我以上提到的過程可能是一個(gè)比較簡(jiǎn)單的爬蟲實(shí)現(xiàn),復(fù)雜的可能不會(huì)這么簡(jiǎn)單,但這里面有幾個(gè)概念,一個(gè)是發(fā)http請(qǐng)求
,一個(gè)是正則匹配
你感興趣的鏈接,一個(gè)是多線程
,另外還有兩個(gè)隊(duì)列
,理論上,任何能實(shí)現(xiàn)這么些概念的編程語(yǔ)言去寫爬蟲都是可以的,期間取舍還是看自己對(duì)熟練成都。
添加回答
舉報(bào)
0/150
提交
取消