首頁(yè) 猿問(wèn) 如何根據(jù)python中的條件提取文本

如何根據(jù)python中的條件提取文本

Python

慕尼黑8549860 2023-03-30 10:28:10

我有如下的湯數(shù)據(jù)。<a href="/title/tt0110912/" title="Quentin Tarantino">Pulp Fiction</a><a href="/title/tt0137523/" title="David Fincher">Fight Club</a><a href="blablabla" title="Yet to Release">Yet to Release</a><a href="something" title="Movies">Coming soon</a>我需要這些標(biāo)簽中的文本數(shù)據(jù)a，也許href=/title/*wildcharacter*我的可能看起來(lái)像這樣。titles = []for a in soup.find_all("a",href=True): if a.text: titles.append(a.text.replace('\n'," "))print(titles)但是在這種情況下，我會(huì)從所有a標(biāo)簽中獲取文本。我只需href要有"/title/***".

查看完整描述

3 回答

守著一只汪

TA貢獻(xiàn)1872條經(jīng)驗(yàn) 獲得超4個(gè)贊

我猜你想要這樣：

from bs4 import BeautifulSoup

html = '''<a href="/title/tt0110912/" title="Quentin Tarantino">

Pulp Fiction

</a>

Fight Club

</a>

Yet to Release

</a>

Coming soon

</a>

'''

soup = BeautifulSoup(html, 'html.parser')

titles = []

for a in soup.select('a[href*="/title/"]',href=True):

if a.text:

titles.append(a.text.replace('\n'," "))

print(titles)

輸出：

[' Pulp Fiction ', ' Fight Club ']

反對(duì) 回復(fù) 2023-03-30

三國(guó)紛爭(zhēng)

TA貢獻(xiàn)1804條經(jīng)驗(yàn) 獲得超7個(gè)贊

您可以使用正則表達(dá)式來(lái)搜索屬性的內(nèi)容（在本例中為 href）。

反對(duì) 回復(fù) 2023-03-30

慕哥9229398

TA貢獻(xiàn)1877條經(jīng)驗(yàn) 獲得超6個(gè)贊

1.) 要獲取所有以開(kāi)頭的<a>標(biāo)簽，您可以使用 CSS 選擇器。href="/title/"a[href^="/title/"]

2.) 要去除標(biāo)簽內(nèi)的所有文本，您可以使用.get_text()with 參數(shù)strip=True

soup = BeautifulSoup(html_text, 'html.parser')

out = [a.get_text(strip=True) for a in soup.select('a[href^="/title/"]')]

print(out)

印刷：

['Pulp Fiction', 'Fight Club']

反對(duì) 回復(fù) 2023-03-30

3 回答
0 關(guān)注
159 瀏覽

關(guān)注

添加回答

舉報(bào)

0/150

提交

取消

使用 Ctrl+D 可將網(wǎng)站添加到書(shū)簽

微信客服

購(gòu)課補(bǔ)貼
聯(lián)系客服咨詢(xún)優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動(dòng)學(xué)習(xí)伙伴

公眾號(hào)

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號(hào)

第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

熱搜

最近搜索清空

如何根據(jù)python中的條件提取文本

如何根據(jù)python中的條件提取文本

3 回答

添加回答