2 回答

TA貢獻1951條經(jīng)驗 獲得超3個贊
在進行網(wǎng)頁抓取的時候,分析定位html節(jié)點是獲取抓取信息的關(guān)鍵,目前我用的是lxml模塊(用來分析XML文檔結(jié)構(gòu)的,當然也能分析html結(jié)構(gòu)), 利用其lxml.html的xpath對html進行分析,獲取抓取信息;以下是關(guān)于xpath的一些基本用法:
在介紹XPath的匹配規(guī)則之前,我們先來看一些有關(guān)XPath的基本概念。首先要說的是XPath數(shù)據(jù)類型。XPath可分為四種數(shù)據(jù)類型:
節(jié)點集(node-set)
節(jié)點集是通過路徑匹配返回的符合條件的一組節(jié)點的集合。其它類型的數(shù)據(jù)不能轉(zhuǎn)換為節(jié)點集。
布爾值(boolean)
由函數(shù)或布爾表達式返回的條件匹配值,與一般語言中的布爾值相同,有true和false兩個值。布爾值可以和數(shù)值類型、字符串類型相互轉(zhuǎn)換。
字符串(string)
字符串即包含一系列字符的集合,XPath中提供了一系列的字符串函數(shù)。字符串可與數(shù)值類型、布爾值類型的數(shù)據(jù)相互轉(zhuǎn)換。
數(shù)值(number)
在XPath中數(shù)值為浮點數(shù),可以是雙精度64位浮點數(shù)。另外包括一些數(shù)值的特殊描述,如非數(shù)值NaN(Not-a-Number)、正無窮大 infinity、負無窮大-infinity、正負0等等。number的整數(shù)值可以通過函數(shù)取得,另外,數(shù)值也可以和布爾類型、字符串類型相互轉(zhuǎn)換。
- 2 回答
- 0 關(guān)注
- 852 瀏覽
添加回答
舉報