我的編寫的是
body = """234234<div class="con news_content">解決什么問題?解決人的思考?還是解決人的預(yù)測
還是解決現(xiàn)象?人工智能它的機(jī)理是什么,簡單來講至少大數(shù)據(jù)可以在人工智能做預(yù)測決策的范疇起到促進(jìn)作用。</p>
<p class="copyright"</p>
</div></div>34234""" #字符串是這個
bodyPattern = r’<div class="con news_content">[^}]*</div>‘
我用 ([^}]|})* 怎么不行呢?
3 回答

MMTTMM
TA貢獻(xiàn)1869條經(jīng)驗 獲得超4個贊
我想你應(yīng)該讀一下這個問題下面的回答:RegEx match open tags except XHTML self-contained tags
簡單概括就是:不要用正則表達(dá)式解析HTML!說了多少遍了不要這樣做,可還是有人問個不停。
原文作者已經(jīng)出離憤怒了。

開心每一天1111
TA貢獻(xiàn)1836條經(jīng)驗 獲得超13個贊
如果基于標(biāo)簽提取,建議使用類似jsoup這樣的工具。
如果只是提取一個div文本,當(dāng)然用正則可以。如果多個div,那正則去match多個group,然后一個個打印出來。
添加回答
舉報
0/150
提交
取消