1 回答

TA貢獻(xiàn)1856條經(jīng)驗(yàn) 獲得超5個贊
回答
import cssselect
import requests
from lxml import html
def parse_html(url, selector):
? ? page = requests.get(url)
? ? content = str(page.content, 'utf-8')
? ? tree = html.fromstring(content)
? ? titles = tree.cssselect(selector)
? ? for title in titles:
? ? ? ? print(title.text_content().strip())
為什么
unicode 字符“?”(U+0131)在 UTF-8 中編碼為0xC4B1 。2 字節(jié)。
> echo -e '\u0131' | xxd -u
00000000: C4B1 0A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ...
page.content
返回二進(jìn)制響應(yīng)內(nèi)容。
0xC4B1變?yōu)?strong>0xC4?(U+00C4 '?') 和0xB1?(U+00B1 '±')
并且U+00FC 'ü'(UTF-8 編碼:0xC3BC)變?yōu)?strong>0xC3?(U+00C3 'à') 和0xBC?(U+00BC '?')
添加回答
舉報