已采納回答 / 螞蟻帥帥
像百度、谷歌這樣的搜索引擎,只需要爬去整個(gè)網(wǎng)頁(yè)就可以了。如課程前面提到的,本節(jié)課的爬蟲是垂直類爬蟲,只會(huì)爬去特定的網(wǎng)站。所以,沒錯(cuò),是需要每個(gè)網(wǎng)站都要分析對(duì)應(yīng)的格式的。
2016-09-29
最贊回答 / IT男的成長(zhǎng)記錄
soup = BeautifulSoup(html_doc, 'html.parser', from_encoding='utf-8') ?改成小寫試試
2016-09-27
已采納回答 / 黑歷史不刪除后果很嚴(yán)重
建議你一步一步,逐個(gè)函數(shù)調(diào)試,光看源代碼比較難找出錯(cuò)誤所在,可以在每個(gè)方法打印是否成功運(yùn)行,找到出錯(cuò)的方法后再找出錯(cuò)的變量。這樣一定可以調(diào)試出來的,加油!
2016-09-27
最贊回答 / 慕標(biāo)6571706
已經(jīng)解決win7 python3.6 遇到亂碼的情況同明磊只需要在fout = open('output.html', 'w', encoding = 'utf-8')?fout.write("<td>%s</td>" % data['title'])?fout.write("<td>%s</td>" % data['summary'])這里面不能加.encode('utf-8'),加了會(huì)亂碼fout.write("<head><meta ...
2016-09-26
最新回答 / 慕粉3182733
fout.write("<td>%s</td>" % data['title'].encode('utf-8'))fout.write("<td>%s</td>" % data['summary'].encode('utf-8'))看看哪兒是不是寫錯(cuò)了
2016-09-24
最新回答 / Ragnaros
http://baike.so.com/doc/1790119-1892991.html同樣是分兩部分??http://baike.so.com/doc/和1790119-1892991.html直接匹配后面的就可以 r'\d{7}-\d{7}\.html'
2016-09-22
已采納回答 / Dreaman
已經(jīng)解決啦 ?我在html_downloader下的read()后加了response.read().decode('utf8',errors='replace')把html_outputer里面的encode()去掉就好了
2016-09-21