1 回答
TA貢獻(xiàn)2011條經(jīng)驗(yàn) 獲得超2個(gè)贊
爬蟲(chóng)目前主要開(kāi)發(fā)語(yǔ)言為java、Python、c++
對(duì)于一般的信息采集需要,各種語(yǔ)言差別不大。
c、c++
搜索引擎無(wú)一例外使用C\C++ 開(kāi)發(fā)爬蟲(chóng),猜想搜索引擎爬蟲(chóng)采集的網(wǎng)站數(shù)量巨大,對(duì)頁(yè)面的解析要求不高,部分支持javascript
python
網(wǎng)絡(luò)功能強(qiáng)大,模擬登陸、解析javascript,短處是網(wǎng)頁(yè)解析
python寫(xiě)起程序來(lái)真的很便捷,著名的python爬蟲(chóng)有scrapy等
java
java有很多解析器,對(duì)網(wǎng)頁(yè)的解析支持很好,缺點(diǎn)是網(wǎng)絡(luò)部分
java開(kāi)源爬蟲(chóng)非常多,著名的如 nutch 國(guó)內(nèi)有webmagic
java優(yōu)秀的解析器有htmlparser、jsoup
對(duì)于一般性的需求無(wú)論java還是python都可以勝任。
如需要模擬登陸、對(duì)抗防采集選擇python更方便些,如果需要處理復(fù)雜的網(wǎng)頁(yè),解析網(wǎng)頁(yè)內(nèi)容生成結(jié)構(gòu)化數(shù)據(jù)或者對(duì)網(wǎng)頁(yè)內(nèi)容精細(xì)的解析則可以選擇java。
- 1 回答
- 0 關(guān)注
- 1888 瀏覽
添加回答
舉報(bào)
