第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號安全,請及時綁定郵箱和手機(jī)立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

如何完成一個分布式爬蟲

如何完成一個分布式爬蟲

牧羊人nacy 2018-10-04 19:31:27
是這樣的,畢業(yè)設(shè)計快要開始了。最近在選題,由于很早就對爬蟲很感興趣。所以畢業(yè)設(shè)計就想做一個關(guān)于網(wǎng)絡(luò)爬蟲的小項目。但是覺得單一的單機(jī)爬蟲可能比較小,不太符合畢業(yè)設(shè)計的要求。所以打算做一個分布式的網(wǎng)絡(luò)爬蟲。如果有時間會做對數(shù)據(jù)進(jìn)行分析的模塊。語言的話暫定java,之前接觸過Python但是覺得現(xiàn)在再學(xué)然后用來做畢設(shè)不太現(xiàn)實(shí)。所以想在這問一下各位大神分布式爬蟲需要學(xué)習(xí)什么?利用什么框架來完成這個命題?實(shí)現(xiàn)的難度如何?推薦的書籍?先謝謝了!
查看完整描述

1 回答

?
泛舟湖上清波郎朗

TA貢獻(xiàn)1818條經(jīng)驗(yàn) 獲得超3個贊

可以考慮的方向

  1. akka (一個分布式計算框架)

  2. storm (也是一個分布式計算框架)

  3. nutch (一個爬蟲+搜索引擎,分布式可以基于hadoop來做)

  4. 或者任意消息隊列系統(tǒng),例如RabbitMQ,基于消息隊列你可以不基于框架自己來實(shí)現(xiàn)一個分布式系統(tǒng)

實(shí)現(xiàn)的難度這個很難說,如果你單機(jī)的爬蟲已經(jīng)毫無壓力,那么你肯定會想到這個東西的難點(diǎn)并非在爬蟲這件事情本身身上,而在分布式的任務(wù)分發(fā),數(shù)據(jù)處理方面的問題(你可以想想為什么要做一個分布式的爬蟲),但如果你已經(jīng)掌握了一個分布式框架,那么會發(fā)現(xiàn)其實(shí)分布式的那塊的東西其實(shí)已經(jīng)由框架層面幫你解決掉了,你只需要專注于爬蟲就可以了。


查看完整回答
反對 回復(fù) 2018-10-14
  • 1 回答
  • 0 關(guān)注
  • 1080 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補(bǔ)貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動學(xué)習(xí)伙伴

公眾號

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號