python版本:python2.7.14編寫
源碼:https://github.com/wenglingjie/immoc/tree/master/baike_spider
源碼:https://github.com/wenglingjie/immoc/tree/master/baike_spider
2018-03-23
output.html被我刪除后重新運行程序,控制臺能正常輸出網(wǎng)址,但不會生成output.html文件了,按F5刷新一點反應都沒有,求解啊。
2018-03-22
隨機拋出異常跑不到1000條的,可以改下craw結構,把try和except放到循環(huán)里:
while self.urls.has_new_url():
try:
XXXX
......
except:
print('craw failed')
self.outputer.output_html()
while self.urls.has_new_url():
try:
XXXX
......
except:
print('craw failed')
self.outputer.output_html()
2018-03-18
我昨天在某網(wǎng)站上手動找小電影覺得太累了,所以今天才過來學學爬蟲。每個人都可以發(fā)表自己的觀點,有什么好吵的,帶語言攻擊的就更不應該了。
2018-03-17