使用Python解析HTML我正在尋找一個(gè)用于Python的HTMLParser模塊,它可以幫助我以Python列表/字典/對(duì)象的形式獲得標(biāo)記。如果我有一份表格的文件:<html><head>Heading</head><body attr1='val1'>
<div class='container'>
<div id='class'>Something here</div>
<div>Something else</div>
</div></body></html>然后,它應(yīng)該給我一種通過HTML標(biāo)記的名稱或id訪問嵌套標(biāo)記的方法,這樣我基本上可以讓它在div帶標(biāo)簽class='container'包含在body標(biāo)簽或者類似的東西。如果您使用了Firefox的“檢查元素”功能(查看HTML),您就會(huì)知道它以一種很好的嵌套方式給出了所有的標(biāo)記,就像樹一樣。我想要一個(gè)內(nèi)置模塊,但這可能要求太多了。我在Stack溢出網(wǎng)站上遇到了很多問題,互聯(lián)網(wǎng)上也有幾個(gè)博客,其中大多數(shù)都建議BeautifulSoup、lxml或HTMLParser,但這些問題中很少有詳細(xì)說明功能的,只是討論了哪一個(gè)更快/更有效。
使用Python解析HTML
哆啦的時(shí)光機(jī)
2019-07-01 09:54:24