首頁猿問用Python寫網(wǎng)絡(luò)爬蟲怎么樣？

用Python寫網(wǎng)絡(luò)爬蟲怎么樣？

爬蟲 Python

慕田峪7331174 2018-10-10 15:11:54

用Python寫網(wǎng)絡(luò)爬蟲怎么樣

查看完整描述

1 回答

拉莫斯之舞

TA貢獻1820條經(jīng)驗獲得超10個贊

python非常適合寫網(wǎng)絡(luò)爬蟲，語法簡單，代碼簡練，可用的庫成熟強大。
常用的庫有urllib2、 requests 、selenium 、Scrapy框架等，一般簡單的網(wǎng)頁連接登錄用requests就好了，使用簡單、功能強大；
HTML內(nèi)容用BeautifulSoup解析就ok了，lxml、html.parser都是很方便的解析庫，和正則表達式搭配使用效果更佳。
處理JavaScript的動態(tài)HTML,用selenium+PhantomJS或firefox的網(wǎng)站自動化測試的思路就可以做到。存儲數(shù)據(jù)建議用mongdb數(shù)據(jù)庫，都是超簡單的操作。
處理驗證碼可以訓(xùn)練Tesseract做到。
如果網(wǎng)站有api的話，那將是最快速、最方便的數(shù)據(jù)采集途徑了。
另外，python是進行數(shù)據(jù)處理最好的編程語言了，數(shù)據(jù)的采集是數(shù)據(jù)處理的第一步。

反對回復(fù) 2018-11-06