首頁猿問如何使用Beautiful...

如何使用Beautiful Soup提取HTML標(biāo)記內(nèi)的特定文本？

Python

牛魔王的故事 2021-03-04 14:05:40

我有一個這樣的HTML標(biāo)記：<ul class="clearfix"> "<li><span class="bold-title">Starts:</span> October 2013</li>"</ul>我想提取“ 2013年10月”。我的代碼是：start_date = articl.find('ul', class_='clearfix').find('li').text.strip()...摘錄為“開始時間：2013年10月”。如何只取日期呢？

查看完整描述

3 回答

catspeake

TA貢獻(xiàn)1111條經(jīng)驗獲得超0個贊

使用正則表達(dá)式：

import re

ss = '''

<li><span class="bold-title">Starts:</span> October 2013</li>"

</ul>

blah blah

<li><<a href="/derives/certificats/"> November 2014 </li>"

</ul>

'''

regx = re.compile('<ul +class="clearfix">.+?'

'<li>.*? *([^<>]+?) *</li>',

re.DOTALL)

print regx.findall(ss)

# prints ['October 2013', 'November 2014']

反對回復(fù) 2021-03-26

收到一只叮咚

TA貢獻(xiàn)1821條經(jīng)驗獲得超5個贊

hold = li.text

for eachTag in li.findAll():

hold = hold.replace(eachTag.text,'')

反對回復(fù) 2021-03-26

慕尼黑5688855

TA貢獻(xiàn)1848條經(jīng)驗獲得超2個贊

使用.contents，它返回一個列表：

>>> from bs4 import BeautifulSoup as BS

>>> html = (stuff above)

>>> soup = BS(html)

>>> print soup.find('li').contents[1].strip()

October 2013

反對回復(fù) 2021-03-26

3 回答
0 關(guān)注
259 瀏覽

關(guān)注

添加回答

舉報

0/150

提交

取消

使用 Ctrl+D 可將網(wǎng)站添加到書簽

微信客服

購課補(bǔ)貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動學(xué)習(xí)伙伴

公眾號

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號

第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

熱搜

最近搜索清空

如何使用Beautiful Soup提取HTML標(biāo)記內(nèi)的特定文本？

如何使用Beautiful Soup提取HTML標(biāo)記內(nèi)的特定文本？

3 回答

添加回答

如何使用Beautiful Soup提取HTML標(biāo)記內(nèi)的特定文本？

如何使用Beautiful Soup提取HTML標(biāo)記內(nèi)的特定文本？