最贊回答 / mk908429705
在html_outputer中加fout.write('<head><meta charset="utf-8"></head>'),可以試一下
2016-05-28
最新回答 / 卡布達(dá)巨人
這個(gè)不是python的問題,是你控制臺(tái)的問題,你的控制臺(tái)的編碼是gbk,而你在py文件中使用的編碼的utf-8,所以會(huì)產(chǎn)生亂碼試試把 print '第一種方法' 改成?print u'中文'.encode('gbk'),就可以看到中文能正確顯示了
2016-05-27
最贊回答 / 慕勒0815894
調(diào)用urlopen時(shí)要加timeout, 否則網(wǎng)速不好的時(shí)候容易卡死.html_downloader.py:<...code...>
2016-05-26
已采納回答 / nana823
某些網(wǎng)站反感爬蟲的到訪,于是對(duì)爬蟲一律拒絕訪問。這時(shí)我們需要偽裝成瀏覽器,可以通過修改http包中的header來實(shí)現(xiàn)。將標(biāo)簽a數(shù)據(jù)添加1
2016-05-23
已采納回答 / SunCherryDream
需要定義構(gòu)造函數(shù)與,在構(gòu)造函數(shù)中對(duì)new_urls進(jìn)行初始化,構(gòu)造函數(shù)代碼如下def __init__(self):? ? ? ? self.new_urls = set()? ? ? ? self.old_urls = set()
2016-05-23
最新回答 / 465123186
這個(gè)源碼不一定能用的,你什么環(huán)境? python3版本有人共享了一個(gè)?https://github.com/fifths/python_baike_spider/blob/master/baike_spider/
2016-05-18