這段代碼幾乎可以滿足我的需求。for line in all_lines: s = line.split('>')除了刪除所有的'>'分隔符。所以,<html><head>變成['<html','<head']有沒有一種方法可以使用split()方法但保留定界符而不是刪除定界符?有了這些結果。['<html>','<head>']
3 回答

守候你守候我
TA貢獻1802條經驗 獲得超10個贊
如果要使用拆分來解析HTML,則極有可能做錯了,除非您編寫的是針對固定和安全內容文件的單發(fā)腳本。如果應該在任何HTML輸入上使用它,您將如何處理<a title='growth > 8%' href='#something'>?
無論如何,以下對我有用:
>>> import re
>>> re.split('(<[^>]*>)', '<body><table><tr><td>')[1::2]
['<body>', '<table>', '<tr>', '<td>']
添加回答
舉報
0/150
提交
取消