我正在使用BeautifulSoup用Python編寫爬蟲,直到我遇到這個站點,一切都進行得很順利:http://www.elnorte.ec/我正在請求庫中獲取內(nèi)容:r = requests.get('http://www.elnorte.ec/')content = r.content如果我在那時打印內(nèi)容變量,則所有西班牙語特殊字符似乎都可以正常工作。但是,一旦我嘗試將content變量提供給BeautifulSoup,它就會變得一團糟:soup = BeautifulSoup(content)print(soup)...<a class="blogCalendarToday" href="/component/blog_calendar/?year=2011&month=08&day=27&modid=203" title="1009 art?-culos en este d?-a">...顯然是在塞滿所有西班牙特殊字符(重音和諸如此類)。我嘗試做content.decode('utf-8'),content.decode('latin-1'),也嘗試將fromEncoding參數(shù)設置為BeautifulSoup,將其設置為fromEncoding ='utf-8'和fromEncoding =“ latin-1”,但仍然沒有骰子。任何指針將不勝感激。
3 回答

ibeautiful
TA貢獻1993條經(jīng)驗 獲得超6個贊
對于您的情況,此頁面有錯誤的utf-8數(shù)據(jù),這會使BeautifulSoup感到困惑,并使其認為您的頁面使用的是Windows-1252,您可以執(zhí)行以下操作:
soup = BeautifulSoup.BeautifulSoup(content.decode('utf-8','ignore'))
這樣,您將丟棄頁面源中的任何錯誤符號,BeautifulSoup將正確猜測編碼。
您可以將“忽略”替換為“替換”,并檢查文本中的“?” 符號以查看已丟棄的內(nèi)容。
實際上,編寫爬蟲程序非常困難,它可以每次以100%的機會猜測頁面編碼(如今的瀏覽器非常擅長),您可以使用諸如“ chardet”之類的模塊,但是例如,在您的情況下,它將猜測編碼按照ISO-8859-2,這也不正確。
如果您確實需要獲取用戶可能提供的任何頁面的編碼,則應該構建一個多級(嘗試utf-8,嘗試latin1,try等...)檢測功能(就像我們在項目中所做的那樣) )或使用來自firefox或鉻的一些檢測代碼作為C模塊。
添加回答
舉報
0/150
提交
取消