首頁猿問 python：requests獲取...

python：requests獲取網(wǎng)頁源碼的時(shí)候亂碼

Python

寶慕林4294392 2019-02-25 21:00:33

def getHtml(url,timeout=20): try: headers = { 'Accept-Language': 'zh-cn', 'Content-Type': 'application/x-www-form-urlencoded', 'User-Agent': 'Mozilla/4.0 (compatible MSIE 6.00 Windows NT 5.1 SV1)', } r = requests.get(url,headers=headers,timeout=timeout) html = r.text return html except Exception,ex: return None soup = BeautifulSoup(getHtml()) print soup.title 以上代碼，如何改進(jìn)，才能在獲取任何網(wǎng)頁標(biāo)題的時(shí)候，不至于亂碼。注：提取部分網(wǎng)頁的標(biāo)題的時(shí)候會(huì)直接亂碼顯示。如何改進(jìn)，才能通用？

查看完整描述

5 回答

絕地?zé)o雙

TA貢獻(xiàn)1946條經(jīng)驗(yàn) 獲得超4個(gè)贊

有個(gè) chardet 用來檢測編碼的，如果安裝了，BeautifulSoup 貌似會(huì)自動(dòng)調(diào)用這個(gè)庫來檢測編碼并 decode 成 unicode。

對了，上面是從網(wǎng)上看的。

總之拿到文件編碼就好辦了。

反對回復(fù) 2019-03-01

慕哥9229398

TA貢獻(xiàn)1877條經(jīng)驗(yàn) 獲得超6個(gè)贊

查看一下網(wǎng)頁的編碼，比如是gbk的話，就r.encoding='gbk'。一下內(nèi)容摘自requests文檔

Requests會(huì)自動(dòng)解碼來自服務(wù)器的內(nèi)容。大多數(shù)unicode字符集都能被無縫地解碼。

請求發(fā)出后，Requests會(huì)基于HTTP頭部對響應(yīng)的編碼作出有根據(jù)的推測。當(dāng)你訪問 r.text 之時(shí)，Requests會(huì)使用其推測的文本編碼。你可以找出Requests使用了什么編碼，并且能夠使用 r.encoding 屬性來改變它:

r.encoding
'utf-8'
r.encoding = 'ISO-8859-1'
如果你改變了編碼，每當(dāng)你訪問 r.text ，Request都將會(huì)使用 r.encoding 的新值。你可能希望在使用特殊邏輯計(jì)算出文本的編碼的情況下來修改編碼。比如 HTTP 和 XML 自身可以指定編碼。這樣的話，你應(yīng)該使用 r.content 來找到編碼，然后設(shè)置 r.encoding 為相應(yīng)的編碼。這樣就能使用正確的編碼解析 r.text 了。