3 回答

TA貢獻1765條經(jīng)驗 獲得超5個贊
>>> from bs4 import BeautifulSoup
>>> soup = BeautifulSoup('<script>a</script>baba<script>b</script>', 'lxml')
>>> [s.extract() for s in soup('script')]
>>> soup
baba

TA貢獻1877條經(jīng)驗 獲得超6個贊
為可能需要將來參考的人員更新了答案:正確答案是。 decompose() 您可以使用不同的方式,但是decompose可以在原地工作。
用法示例:
soup = BeautifulSoup('<p>This is a slimy text and <i> I am slimer</i></p>')
soup.i.decompose()
print str(soup)
#prints '<p>This is a slimy text and</p>'
消除諸如“ script”,“ img”之類的碎屑非常有用。

TA貢獻1827條經(jīng)驗 獲得超9個贊
如(官方文檔)中所述,您可以使用extract方法刪除與搜索匹配的所有子樹。
import BeautifulSoup
a = BeautifulSoup.BeautifulSoup("<html><body><script>aaa</script></body></html>")
[x.extract() for x in a.findAll('script')]
添加回答
舉報