課程
/后端開發(fā)
/Python
/Python開發(fā)簡(jiǎn)單爬蟲
弄了很久了 還沒找到解決方法 求解
2017-06-18
源自:Python開發(fā)簡(jiǎn)單爬蟲 7-7
正在回答
如果是URL部分亂碼/item/%E7%BC%96%,是因?yàn)閡rl采用了再編碼-->16進(jìn)制編碼
解決方法:調(diào)用urllib.parse.unquote("/item/%E7%BC%96%")來(lái)變回中文
注意:變回中文的URL無(wú)法用urllib.request.urlopen(URL)來(lái)訪問,可以在最后輸出html的時(shí)候變回中文
輸出的html分url,title,data三列,title和data出現(xiàn)\x96\x12\x34(unicode編碼)
原因:因?yàn)橄扔?strong>encoding='utf-8'新建html文件,然后又fout.write("<td>%s</td>" % data['title'].encode('utf-8))又編碼成unicode
解決方法:直接fout.write("<td>%s</td>" % data['title'])
附源代碼,可對(duì)比學(xué)習(xí)
丶coding 提問者
小蟒蛇
#<a target="_blank" href="/item/%E8%83%B6%E6%B0%B4%E8%AF%AD%E8%A8%80">膠水語(yǔ)言</a>
links = soup.find_all('a', href = re.compile(r'^/item/[\W\w]+'))
?求教正則匹配這兒應(yīng)該怎么寫呢?我的正則匹配不出來(lái)東西么!?。?/p>
沒有指定編碼格式?課程中不是說(shuō)了要加上coding=utf-8
舉報(bào)
本教程帶您解開python爬蟲這門神奇技術(shù)的面紗
Copyright ? 2025 imooc.com All Rights Reserved | 京ICP備12003892號(hào)-11 京公網(wǎng)安備11010802030151號(hào)
購(gòu)課補(bǔ)貼聯(lián)系客服咨詢優(yōu)惠詳情
慕課網(wǎng)APP您的移動(dòng)學(xué)習(xí)伙伴
掃描二維碼關(guān)注慕課網(wǎng)微信公眾號(hào)
2017-06-20
如果是URL部分亂碼/item/%E7%BC%96%,是因?yàn)閡rl采用了再編碼-->16進(jìn)制編碼
解決方法:調(diào)用urllib.parse.unquote("/item/%E7%BC%96%")來(lái)變回中文
注意:變回中文的URL無(wú)法用urllib.request.urlopen(URL)來(lái)訪問,可以在最后輸出html的時(shí)候變回中文
輸出的html分url,title,data三列,title和data出現(xiàn)\x96\x12\x34(unicode編碼)
原因:因?yàn)橄扔?strong>encoding='utf-8'新建html文件,然后又fout.write("<td>%s</td>" % data['title'].encode('utf-8))又編碼成unicode
解決方法:直接fout.write("<td>%s</td>" % data['title'])
附源代碼,可對(duì)比學(xué)習(xí)
2017-07-22
#<a target="_blank" href="/item/%E8%83%B6%E6%B0%B4%E8%AF%AD%E8%A8%80">膠水語(yǔ)言</a>
links = soup.find_all('a', href = re.compile(r'^/item/[\W\w]+'))
?求教正則匹配這兒應(yīng)該怎么寫呢?我的正則匹配不出來(lái)東西么!?。?/p>
2017-06-18
沒有指定編碼格式?課程中不是說(shuō)了要加上coding=utf-8