首頁猿問在 python 中使用 lxml...

在 python 中使用 lxml 進(jìn)行網(wǎng)頁抓取后，我得到奇怪的字符而不是土耳其字符

Python

三國紛爭 2023-08-22 17:02:32

我一直在嘗試使用 lxml lib 從一些網(wǎng)站獲取數(shù)據(jù)。和Python3。但在網(wǎng)絡(luò)抓取過程之后，我得到了一些奇怪的字符而不是土耳其字符。奇怪的字符如下所示。土耳其殘疾人運(yùn)動援助和教育總局 (TESYEV)關(guān)于單科考試的公告2019-2020 伊利學(xué)院研究院但它們應(yīng)該像下面給出的那樣。土耳其殘疾人運(yùn)動援助和教育基金會 (TESYEV) 總局關(guān)于單科考試的公告我們的學(xué)生在 2019-2020 學(xué)年要做的程序我從不同的網(wǎng)站得到了每個句子。我不知道如何將它們轉(zhuǎn)換為土耳其語文本。這是我的代碼。import cssselectimport requestsfrom lxml import htmldef parse_html(url, selector): page = requests.get(url) tree = html.fromstring(page.content) titles = tree.cssselect(selector) for title in titles: print(title.text_content().strip())版本蟒蛇= 3.7.4lxml = 4.5.2請求= 2.24.0css選擇= 1.1.0

查看完整描述

1 回答

RISEBY

TA貢獻(xiàn)1856條經(jīng)驗(yàn) 獲得超5個贊

回答

import cssselect

import requests

from lxml import html

def parse_html(url, selector):

? ? page = requests.get(url)

? ? content = str(page.content, 'utf-8')

? ? tree = html.fromstring(content)

? ? titles = tree.cssselect(selector)

? ? for title in titles:

? ? ? ? print(title.text_content().strip())

為什么

unicode 字符“?”(U+0131)在 UTF-8 中編碼為0xC4B1 。2 字節(jié)。

> echo -e '\u0131' | xxd -u

00000000: C4B1 0A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ...

page.content返回二進(jìn)制響應(yīng)內(nèi)容。

0xC4B1變?yōu)?strong>0xC4?(U+00C4 '?') 和0xB1?(U+00B1 '±')

并且U+00FC 'ü'（UTF-8 編碼：0xC3BC）變?yōu)?strong>0xC3?(U+00C3 'à') 和0xBC?(U+00BC '?')

反對回復(fù) 2023-08-22

1 回答
0 關(guān)注
191 瀏覽

關(guān)注

添加回答

舉報

0/150

提交

取消

使用 Ctrl+D 可將網(wǎng)站添加到書簽

微信客服

購課補(bǔ)貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動學(xué)習(xí)伙伴

公眾號

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號

第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

熱搜

最近搜索清空

在 python 中使用 lxml 進(jìn)行網(wǎng)頁抓取后，我得到奇怪的字符而不是土耳其字符

在 python 中使用 lxml 進(jìn)行網(wǎng)頁抓取后，我得到奇怪的字符而不是土耳其字符

1 回答

添加回答