首頁猿問 Python和BeautifulS...

Python和BeautifulSoup編碼問題

Python

翻閱古今 2019-12-03 10:43:53

我正在使用BeautifulSoup用Python編寫爬蟲，直到我遇到這個站點，一切都進行得很順利：http://www.elnorte.ec/我正在請求庫中獲取內(nèi)容：r = requests.get('http://www.elnorte.ec/')content = r.content如果我在那時打印內(nèi)容變量，則所有西班牙語特殊字符似乎都可以正常工作。但是，一旦我嘗試將content變量提供給BeautifulSoup，它就會變得一團糟：soup = BeautifulSoup(content)print(soup)...<a class="blogCalendarToday" href="/component/blog_calendar/?year=2011&month=08&day=27&modid=203" title="1009 art?-culos en este d?-a">...顯然是在塞滿所有西班牙特殊字符（重音和諸如此類）。我嘗試做content.decode（'utf-8'），content.decode（'latin-1'），也嘗試將fromEncoding參數(shù)設置為BeautifulSoup，將其設置為fromEncoding ='utf-8'和fromEncoding =“ latin-1”，但仍然沒有骰子。任何指針將不勝感激。

查看完整描述

3 回答

ibeautiful

TA貢獻1993條經(jīng)驗獲得超6個贊

對于您的情況，此頁面有錯誤的utf-8數(shù)據(jù)，這會使BeautifulSoup感到困惑，并使其認為您的頁面使用的是Windows-1252，您可以執(zhí)行以下操作：

soup = BeautifulSoup.BeautifulSoup(content.decode('utf-8','ignore'))

這樣，您將丟棄頁面源中的任何錯誤符號，BeautifulSoup將正確猜測編碼。

您可以將“忽略”替換為“替換”，并檢查文本中的“？” 符號以查看已丟棄的內(nèi)容。

實際上，編寫爬蟲程序非常困難，它可以每次以100％的機會猜測頁面編碼（如今的瀏覽器非常擅長），您可以使用諸如“ chardet”之類的模塊，但是例如，在您的情況下，它將猜測編碼按照ISO-8859-2，這也不正確。

如果您確實需要獲取用戶可能提供的任何頁面的編碼，則應該構建一個多級（嘗試utf-8，嘗試latin1，try等...）檢測功能（就像我們在項目中所做的那樣））或使用來自firefox或鉻的一些檢測代碼作為C模塊。

反對回復 2019-12-03

3 回答
0 關注
694 瀏覽

關注

添加回答

舉報

0/150

提交

取消

使用 Ctrl+D 可將網(wǎng)站添加到書簽

微信客服

購課補貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網(wǎng)微信公眾號

第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

熱搜

最近搜索清空

Python和BeautifulSoup編碼問題

Python和BeautifulSoup編碼問題

3 回答

添加回答