是這樣的,畢業(yè)設(shè)計快要開始了。最近在選題,由于很早就對爬蟲很感興趣。所以畢業(yè)設(shè)計就想做一個關(guān)于網(wǎng)絡(luò)爬蟲的小項目。但是覺得單一的單機(jī)爬蟲可能比較小,不太符合畢業(yè)設(shè)計的要求。所以打算做一個分布式的網(wǎng)絡(luò)爬蟲。如果有時間會做對數(shù)據(jù)進(jìn)行分析的模塊。語言的話暫定java,之前接觸過Python但是覺得現(xiàn)在再學(xué)然后用來做畢設(shè)不太現(xiàn)實(shí)。所以想在這問一下各位大神分布式爬蟲需要學(xué)習(xí)什么?利用什么框架來完成這個命題?實(shí)現(xiàn)的難度如何?推薦的書籍?先謝謝了!
1 回答

泛舟湖上清波郎朗
TA貢獻(xiàn)1818條經(jīng)驗(yàn) 獲得超3個贊
可以考慮的方向
akka (一個分布式計算框架)
storm (也是一個分布式計算框架)
nutch (一個爬蟲+搜索引擎,分布式可以基于hadoop來做)
或者任意消息隊列系統(tǒng),例如RabbitMQ,基于消息隊列你可以不基于框架自己來實(shí)現(xiàn)一個分布式系統(tǒng)
實(shí)現(xiàn)的難度這個很難說,如果你單機(jī)的爬蟲已經(jīng)毫無壓力,那么你肯定會想到這個東西的難點(diǎn)并非在爬蟲這件事情本身身上,而在分布式的任務(wù)分發(fā),數(shù)據(jù)處理方面的問題(你可以想想為什么要做一個分布式的爬蟲),但如果你已經(jīng)掌握了一個分布式框架,那么會發(fā)現(xiàn)其實(shí)分布式的那塊的東西其實(shí)已經(jīng)由框架層面幫你解決掉了,你只需要專注于爬蟲就可以了。
- 1 回答
- 0 關(guān)注
- 1080 瀏覽
添加回答
舉報
0/150
提交
取消