第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號(hào)安全,請(qǐng)及時(shí)綁定郵箱和手機(jī)立即綁定
已解決430363個(gè)問(wèn)題,去搜搜看,總會(huì)有你想問(wèn)的

如何在Python中將HTML轉(zhuǎn)換為無(wú)標(biāo)記的文本?

如何在Python中將HTML轉(zhuǎn)換為無(wú)標(biāo)記的文本?

慕田峪9158850 2021-03-19 13:16:34
我需要從HTML文檔中獲取純文本,同時(shí)將<br>元素視為換行符。BeautifulSoup.text不處理<br>和換行符。HTML2Text非常不錯(cuò),但是可以轉(zhuǎn)換為markdown。我還能如何處理呢?
查看完整描述

2 回答

?
慕少森

TA貢獻(xiàn)2019條經(jīng)驗(yàn) 獲得超9個(gè)贊

我喜歡使用以下方法。您可以.replace('<br>','\r\n')對(duì)字符串進(jìn)行手動(dòng)操作,然后再將其傳遞strip_tags(html)給新行。


從這個(gè)問(wèn)題:


from HTMLParser import HTMLParser


class MLStripper(HTMLParser):

    def __init__(self):

        self.reset()

        self.fed = []

    def handle_data(self, d):

        self.fed.append(d)

    def get_data(self):

        return ''.join(self.fed)


def strip_tags(html):

    s = MLStripper()

    s.feed(html)

    return s.get_data()


查看完整回答
反對(duì) 回復(fù) 2021-03-31
?
瀟湘沐

TA貢獻(xiàn)1816條經(jīng)驗(yàn) 獲得超6個(gè)贊

您可以刪除標(biāo)簽,并用空格替換它們(如果需要):


import re


myString = re.sub(r"<(/)?br(/)?>", "\n", myString)

myString = re.sub(r"<[^>]*>", " ", myString)


查看完整回答
反對(duì) 回復(fù) 2021-03-31
  • 2 回答
  • 0 關(guān)注
  • 258 瀏覽
慕課專欄
更多

添加回答

舉報(bào)

0/150
提交
取消
微信客服

購(gòu)課補(bǔ)貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動(dòng)學(xué)習(xí)伙伴

公眾號(hào)

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號(hào)