課程
/后端開發(fā)
/Python
/Python開發(fā)簡單爬蟲
有沒有人跟我一樣運行不到最后就卡住的??這是什么鬼。。。每次爬個幾百個就停住了。。
2016-10-24
源自:Python開發(fā)簡單爬蟲 8-1
正在回答
def _get_new_urls(self, curr_url, soup): ? ?new_urls = set() ? ?links = soup.find_all('a', href=re.compile(r"/item/*"))
正則表達式的內(nèi)容改下就行,網(wǎng)頁格式變了
我就爬了兩個~~~
我第一次爬了1000條,但是再次運行的時候爬了兩條就結(jié)束了
可以試試修改一下collect 函數(shù),讓它每次收集數(shù)據(jù)的時候都寫入文件,而不是像老師一樣最后一次性寫入。
gavin_10
來個多線程
嗯嗯,,有可能啊,感覺程序應(yīng)該沒什么問題,而且每次卡死的時候爬取的數(shù)目也不同,最多一次也能爬取900多個
我感覺是內(nèi)存的原因吧,數(shù)據(jù)都在內(nèi)存保存,最后寫入文件的
舉報
本教程帶您解開python爬蟲這門神奇技術(shù)的面紗
Copyright ? 2025 imooc.com All Rights Reserved | 京ICP備12003892號-11 京公網(wǎng)安備11010802030151號
購課補貼聯(lián)系客服咨詢優(yōu)惠詳情
慕課網(wǎng)APP您的移動學習伙伴
掃描二維碼關(guān)注慕課網(wǎng)微信公眾號
2017-07-27
def _get_new_urls(self, curr_url, soup):
? ?new_urls = set()
? ?links = soup.find_all('a', href=re.compile(r"/item/*"))
正則表達式的內(nèi)容改下就行,網(wǎng)頁格式變了
2017-03-24
我就爬了兩個~~~
2017-03-20
我第一次爬了1000條,但是再次運行的時候爬了兩條就結(jié)束了
2017-02-20
可以試試修改一下collect 函數(shù),讓它每次收集數(shù)據(jù)的時候都寫入文件,而不是像老師一樣最后一次性寫入。
2016-12-11
來個多線程
2016-11-14
嗯嗯,,有可能啊,感覺程序應(yīng)該沒什么問題,而且每次卡死的時候爬取的數(shù)目也不同,最多一次也能爬取900多個
2016-11-01
我感覺是內(nèi)存的原因吧,數(shù)據(jù)都在內(nèi)存保存,最后寫入文件的