第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

Python和BeautifulSoup編碼問題

Python和BeautifulSoup編碼問題

翻閱古今 2019-12-03 10:43:53
我正在使用BeautifulSoup用Python編寫爬蟲,直到我遇到這個站點,一切都進行得很順利:http://www.elnorte.ec/我正在請求庫中獲取內(nèi)容:r = requests.get('http://www.elnorte.ec/')content = r.content如果我在那時打印內(nèi)容變量,則所有西班牙語特殊字符似乎都可以正常工作。但是,一旦我嘗試將content變量提供給BeautifulSoup,它就會變得一團糟:soup = BeautifulSoup(content)print(soup)...<a class="blogCalendarToday" href="/component/blog_calendar/?year=2011&amp;month=08&amp;day=27&amp;modid=203" title="1009 art?-culos en este d?-a">...顯然是在塞滿所有西班牙特殊字符(重音和諸如此類)。我嘗試做content.decode('utf-8'),content.decode('latin-1'),也嘗試將fromEncoding參數(shù)設置為BeautifulSoup,將其設置為fromEncoding ='utf-8'和fromEncoding =“ latin-1”,但仍然沒有骰子。任何指針將不勝感激。
查看完整描述

3 回答

?
ibeautiful

TA貢獻1993條經(jīng)驗 獲得超6個贊

對于您的情況,此頁面有錯誤的utf-8數(shù)據(jù),這會使BeautifulSoup感到困惑,并使其認為您的頁面使用的是Windows-1252,您可以執(zhí)行以下操作:


soup = BeautifulSoup.BeautifulSoup(content.decode('utf-8','ignore'))

這樣,您將丟棄頁面源中的任何錯誤符號,BeautifulSoup將正確猜測編碼。


您可以將“忽略”替換為“替換”,并檢查文本中的“?” 符號以查看已丟棄的內(nèi)容。


實際上,編寫爬蟲程序非常困難,它可以每次以100%的機會猜測頁面編碼(如今的瀏覽器非常擅長),您可以使用諸如“ chardet”之類的模塊,但是例如,在您的情況下,它將猜測編碼按照ISO-8859-2,這也不正確。


如果您確實需要獲取用戶可能提供的任何頁面的編碼,則應該構建一個多級(嘗試utf-8,嘗試latin1,try等...)檢測功能(就像我們在項目中所做的那樣) )或使用來自firefox或鉻的一些檢測代碼作為C模塊。


查看完整回答
反對 回復 2019-12-03
  • 3 回答
  • 0 關注
  • 694 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網(wǎng)微信公眾號