您能否舉例說(shuō)明為什么難以用正則表達(dá)式解析XML和HTML?一個(gè)錯(cuò)誤我看到人們做了,并再次試圖解析XML或HTML用正則表達(dá)式。以下是解析XML和HTML很難的幾個(gè)原因:人們希望將文件視為一系列行,但這是有效的:<tagattr="5"/>人們希望將<或<tag視為標(biāo)記的開(kāi)頭,但是這樣的東西存在于野外:<img src="imgtag.gif" alt="<img>" />人們通常希望將起始標(biāo)記與結(jié)束標(biāo)記匹配,但XML和HTML允許標(biāo)記包含自身(傳統(tǒng)的正則表達(dá)式根本無(wú)法處理):<span id="outer"><span id="inner">foo</span></span>人們通常希望匹配文檔的內(nèi)容(例如著名的“查找給定頁(yè)面上的所有電話號(hào)碼”問(wèn)題),但數(shù)據(jù)可能會(huì)被標(biāo)記(即使在查看時(shí)看起來(lái)是正常的):<span class="phonenum">(<span class="area code">703</span>)<span class="prefix">348</span>-<span class="linenum">3020</span></span>評(píng)論可能包含格式不正確或不完整的標(biāo)記:<a href="foo">foo</a><!-- FIXME:
<a href="
--><a href="bar">bar</a>你還知道其他什么問(wèn)題?
您能否舉例說(shuō)明為什么難以用正則表達(dá)式解析XML和HTML?
哈士奇WWW
2019-05-23 11:03:38