我需要在一些 HTML 字符串模板中<div>找到id="XXX":from lxml import htmltemplate = '''Text node 1<div id="XXX">XXX content</div>Text node 2'''tree = html.fromstring(template)element = tree.get_element_by_id('XXX')result = html.tostring(element).decode('utf-8')print(result)>>> <div id="XXX">XXX content</div>>>> Text node 2由于一些奇怪的原因,它選擇<div>和下一步Text node 1<div id="XXX">XXX content</div>如果我用另一個包裹<div>:Text node 1<div> <div id="XXX">XXX content</div></div>Text node 2一切都更好,它打印匹配<div id="XXX">和一個空行(解碼\n):>>> print(result)<div id="XXX">XXX content</div>\n如果我在<div>之后添加一些<div id="XXX">:Text node 1<div id="XXX">XXX content</div><div></div>Text node 2一切也更好,它打印匹配<div id="XXX">和一個空行(解碼\n):>>> print(result)<div id="XXX">XXX content</div>\n以前Text node 1從未受到影響 - 至少這很好)那么,可以指定一些東西不選擇下一個文本節(jié)點(diǎn)嗎?這會很棒,如果\n也不會匹配,但我可以忍受請告訴我,如果該問題與 XPath 無關(guān)lxml,而是與 XPath相關(guān)PSBeautifulSoup沒有這個問題,即使使用與lxml解析器相同的模塊,它甚至不匹配next\n版本:>>> pythonPython 3.7.3>>> pip show lxmlVersion: 4.3.4
1 回答

翻翻過去那場雪
TA貢獻(xiàn)2065條經(jīng)驗(yàn) 獲得超14個贊
看起來有時只需要使用蠻力:
tree = html.fromstring(template)
element = tree.get_element_by_id('XXX')
element.tail = None #brute force in action....
result = html.tostring(element).decode('utf-8')
print(result)
輸出所需的
<div id="XXX">XXX content</div>
現(xiàn)在由比我聰明的人來解釋為什么我們需要求助于這個......
添加回答
舉報
0/150
提交
取消