python,windows10版本,輸出的HTML亂碼的同學(xué),不需要在fout.write("<td>%s</td>"%data['title'])以及后面的summary中添加.encode(utf-8),只要fout = open('output.html','w',encoding='utf-8') 就行。感謝@明磊同學(xué),具體的原理也可以參見@明磊的評(píng)論。
2016-03-07
最贊回答 / WHXSCNU
本人系統(tǒng)win7,Python3.5,按照百度上win10的做法:fileout = open('output.html', 'w', encoding='utf-8'),能顯示中文
2016-03-07
fout.write("<td>%s</td>" % data["url"])
KeyError: 'url'
去掉url 的輸出就正常
KeyError: 'url'
去掉url 的輸出就正常
2016-03-06
可以自行下載插件,解壓后拷貝到python安裝目錄中的lib目錄下,打開cmd進(jìn)入插件的目錄,輸入python setup.py install,即可安裝。
2016-03-06
使用pip install beautifulsoup4 時(shí)出現(xiàn):UnicodeDecodeError:'ascii' codec can't decode byte 0xce. 錯(cuò)誤
2016-03-06
照著老師的來了一遍,發(fā)現(xiàn)開始第一個(gè)以后顯示失敗然后就沒了。用eclipse一行行斷點(diǎn),打印,終于發(fā)現(xiàn)是parser里面new_urls=set()的問題了,把set()改成[]就能開始跑了。
2016-03-06
已采納回答 / bignerd
調(diào)試一下確定異常來自哪里,先看一下downloader 有沒有返回?cái)?shù)據(jù),我也遇到這個(gè)問題就是download 方法出錯(cuò)了
2016-03-04
視頻很不錯(cuò)。按照視頻的代碼,查看多線程庫(kù),threading, Queue, 搞了一個(gè)多線程的版本,https://github.com/dengshilong/baike_spider/blob/master/spider_thread.py
2016-03-03
爬取頁(yè)面:http://huanyouchen.github.io/demo/imooc/python-baidubaike-spider/baike_spider_output.html
代碼:https://github.com/guihailiuli/imooc-practice/tree/master/python-baidubaike-spider
代碼:https://github.com/guihailiuli/imooc-practice/tree/master/python-baidubaike-spider
2016-03-03