首頁(yè) 猿問(wèn) 如何在Python中將HTML轉(zhuǎn)換...

如何在Python中將HTML轉(zhuǎn)換為無(wú)標(biāo)記的文本？

Python

慕田峪9158850 2021-03-19 13:16:34

我需要從HTML文檔中獲取純文本，同時(shí)將<br>元素視為換行符。BeautifulSoup.text不處理<br>和換行符。HTML2Text非常不錯(cuò)，但是可以轉(zhuǎn)換為markdown。我還能如何處理呢？

查看完整描述

2 回答

慕少森

TA貢獻(xiàn)2019條經(jīng)驗(yàn) 獲得超9個(gè)贊

我喜歡使用以下方法。您可以.replace('<br>','\r\n')對(duì)字符串進(jìn)行手動(dòng)操作，然后再將其傳遞strip_tags(html)給新行。

從這個(gè)問(wèn)題：

from HTMLParser import HTMLParser

class MLStripper(HTMLParser):

def __init__(self):

self.reset()

self.fed = []

def handle_data(self, d):

self.fed.append(d)

def get_data(self):

return ''.join(self.fed)

def strip_tags(html):

s = MLStripper()

s.feed(html)

return s.get_data()

反對(duì) 回復(fù) 2021-03-31

瀟湘沐

TA貢獻(xiàn)1816條經(jīng)驗(yàn) 獲得超6個(gè)贊

您可以刪除標(biāo)簽，并用空格替換它們（如果需要）：

import re

myString = re.sub(r"<(/)?br(/)?>", "\n", myString)

myString = re.sub(r"<[^>]*>", " ", myString)

反對(duì) 回復(fù) 2021-03-31

2 回答
0 關(guān)注
258 瀏覽

關(guān)注

添加回答

舉報(bào)

0/150

提交

取消

使用 Ctrl+D 可將網(wǎng)站添加到書簽

微信客服

購(gòu)課補(bǔ)貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動(dòng)學(xué)習(xí)伙伴

公眾號(hào)

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號(hào)

第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

熱搜

最近搜索清空

如何在Python中將HTML轉(zhuǎn)換為無(wú)標(biāo)記的文本？

如何在Python中將HTML轉(zhuǎn)換為無(wú)標(biāo)記的文本？

2 回答

添加回答

如何在Python中將HTML轉(zhuǎn)換為無(wú)標(biāo)記的文本？

如何在Python中將HTML轉(zhuǎn)換為無(wú)標(biāo)記的文本？