第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

Python:從html搜索和收集文本字符串的更好方法。剝離減價,標(biāo)簽等

Python:從html搜索和收集文本字符串的更好方法。剝離減價,標(biāo)簽等

ibeautiful 2021-03-16 09:09:18
有很多模塊,例如lxml,Beautiful湯,nltk和pyenchant,可以正確過濾出正確的英語單詞。但是,然后是什么最干凈的最短方法,例如html2text,如果也可以取消降價促銷(我寫的時候,右邊有很多類似的問題)可能有一個通用的正則表達(dá)式可以刪除所有的html。標(biāo)簽?def word_parse(f):    raw = nltk.clean_html(f) #f = url.content here, from "requests" module    regex = r'[a-zA-Z]+' # | ^[a-zA-Z]+\b'    match = re.compile(regex)    ls = []    for line in raw.split():        for mat in line.split():            try:                v = match.match(mat).group()                map(ls.append, v.split())            except AttributeError, e:                pass有人可以建議一些好的代碼片段嗎?有人可以在這里建議更簡潔,更優(yōu)化的代碼嗎?
查看完整描述

1 回答

?
心有法竹

TA貢獻(xiàn)1866條經(jīng)驗 獲得超5個贊

我強烈建議您使用現(xiàn)有的庫,而不要嘗試為此編寫自己的正則表達(dá)式。例如,其他人已經(jīng)在“美麗湯”中投入了大量工作,您也可能會因此受益。


對于這種特定情況,Beautiful Soup提供了get_text方法:


text = BeautifulSoup(f).get_text()


查看完整回答
反對 回復(fù) 2021-03-30
  • 1 回答
  • 0 關(guān)注
  • 142 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動學(xué)習(xí)伙伴

公眾號

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號