html_outputer.py :html_parser.py:得到的網(wǎng)站:----------------------------------------------看到網(wǎng)上的方法修改soup = BeautifulSoup(html_cont, "html.parser", from_encoding="utf-8")為soup = BeautifulSoup(html_cont, "html.parser", fromEncoding=”gb18030″)沒有作用,并且提示:求指教,感謝大家!!
3 回答

Davidham3
TA貢獻8條經(jīng)驗 獲得超0個贊
這個跟編碼有關(guān)系,你在寫入文件的時候,最好是用with open的方式
?1.?
with?open("output.html",?"w",?encoding?=?'utf-8')?as?f: ????f.write("巴拉巴拉,巴拉巴拉")
2.
f?=?open("output.html",?'w',?encoding?=?'utf-8') f.write("balabala") f.close()
在編寫爬蟲時,先打開你要爬的網(wǎng)站頁面,右鍵空白處,查看源代碼,一般最上面都指定了這個頁面的編碼,比如
<meta?charset="utf-8">
這時候,按照這個編碼寫入文件就行,在open函數(shù)中指定編碼為utf-8,就不會報錯了。

squirel
TA貢獻2條經(jīng)驗 獲得超0個贊
? 在你html文件中 <html>后面加一行
<meta?http-equiv="Content-Type"?Content="text/html;?charset=utf-8"/>
告訴瀏覽器用utf8編碼讀取數(shù)據(jù)

hldh214
TA貢獻12條經(jīng)驗 獲得超3個贊
其實亂碼是控制臺造成的, 你看看PS的編碼, 是GBK的, 但是返回的數(shù)據(jù)是utf-8的, 導(dǎo)致亂碼
so, 在輸出之前encode一下就好啦
添加回答
舉報
0/150
提交
取消