首先肯定明磊大佬的說法。
即使去掉encoding:'uft-8'依然報(bào)錯(cuò),參見:https://bytes.com/topic/python/answers/556312-lookuperror-unknown-encoding-utf-8-a。
f.write('<td>{0}</td>' .format(data['url']))
f.write('<td>{0}</td>' .format(data['title']))
f.write('<td>{0}</td>' .format(data['summary']))
即使去掉encoding:'uft-8'依然報(bào)錯(cuò),參見:https://bytes.com/topic/python/answers/556312-lookuperror-unknown-encoding-utf-8-a。
f.write('<td>{0}</td>' .format(data['url']))
f.write('<td>{0}</td>' .format(data['title']))
f.write('<td>{0}</td>' .format(data['summary']))
2018-04-21
最新回答 / Mzurt
好了,終于運(yùn)行成功啦!我又看了好幾遍視頻,原來是UrlManager下的def add_new_url(self,url):這個(gè)少寫了一個(gè)參數(shù)
2018-04-19
改了links后,一直只能顯示1條,結(jié)果找了半天是3個(gè).py文件寫錯(cuò)了4個(gè)字母。。。
2018-04-17
已采納回答 / 飄過的小呆呆
當(dāng)然可以 我之前是用.NET C#寫過爬蟲 你可以參考下這個(gè)網(wǎng)址http://www.cnblogs.com/bqh10086/p/6405121.html?????c++ 原理也是類似的 發(fā)送get請(qǐng)求頁面數(shù)據(jù) 然后把頁面讀取成字節(jié)流,最后分析字節(jié)流保留有用的數(shù)據(jù)
2018-04-15
已采納回答 / 慕容2517008
嗯。。。。因?yàn)閜ython的那個(gè)百度百科的頁面的html代碼升級(jí)了一哈,原本的抓取URl的代碼不能用了,你把parser里面的_get_new_urls這個(gè)函數(shù)的re.compile語句后面的正則表達(dá)式改一下,改成這樣re.compile(r"/item/")就ok了
2018-04-15
學(xué)習(xí)的東西比較系統(tǒng),之前看別的相對(duì)零散
在編寫html下載器的download方法的時(shí)候不要
if respond.getcode != 200
return None
這個(gè)判斷比較好——來自一個(gè)小白的嘗試
if respond.getcode != 200
return None
這個(gè)判斷比較好——來自一個(gè)小白的嘗試
2018-04-13