1 回答

拉莫斯之舞
TA貢獻1820條經(jīng)驗 獲得超10個贊
python非常適合寫網(wǎng)絡(luò)爬蟲,語法簡單,代碼簡練,可用的庫成熟強大。
常用的庫有urllib2、 requests 、selenium 、Scrapy框架等,一般簡單的網(wǎng)頁連接登錄用requests就好了,使用簡單、功能強大;
HTML內(nèi)容用BeautifulSoup解析就ok了,lxml、html.parser都是很方便的解析庫,和正則表達式搭配使用效果更佳。
處理JavaScript的動態(tài)HTML,用selenium+PhantomJS或firefox的網(wǎng)站自動化測試的思路就可以做到。存儲數(shù)據(jù)建議用mongdb數(shù)據(jù)庫,都是超簡單的操作。
處理驗證碼可以訓(xùn)練Tesseract做到。
如果網(wǎng)站有api的話,那將是最快速、最方便的數(shù)據(jù)采集途徑了。
另外,python是進行數(shù)據(jù)處理最好的編程語言了,數(shù)據(jù)的采集是數(shù)據(jù)處理的第一步。
添加回答
舉報
0/150
提交
取消