python 網(wǎng)頁特征提取XPATH（兩天玩轉(zhuǎn)）第一天

標(biāo)簽：

Python

XPath 是一门在 XML 文档中查找信息的语言。XPath 用来在 XML 文档中对元素和属性进行遍历。关于xpath的说明文档可以参照:XPATH基础说明

首先掌握基础知识：
F12开发者工具有console标签，在其内执行console命令可以交互性验证css或者xpath表达式效果

xpath用，将表达式用引号括起来放进去，回车执行命令，如果成功产生非空输出的匹配元素列表（可以点击自动框选定位、可以展开子元素查看），举例：利用F12 找到对应连接，并利用$x()找到文件

正式进入XPATH:
1.路径表达式语法、相对/绝对路径
2.表达式上下文
3.谓词（筛选表达式）及轴的概念
4.运算符及特殊字符
5.常用表达式实例
6.函数及说明
简单说，xpath就是选择XML文件中节点的方法。

所谓节点（node），就是XML文件的最小构成单位，一共分成7种。

- element（元素节点） - attribute（属性节点） - text （文本节点） - namespace （名称空间节点） - processing-instruction （处理命令节点） - comment （注释节点） - root （根节点）

xpath可以用来选择这7种节点。不过，下面的笔记只涉及最常用的第一种element（元素节点），因此可以将下文中的节点和元素视为同义词。
1.路径表达式语法（书面文章）：
路径 = 相对路径 | 绝对路径
XPath路径表达式 = 步进表达式 | 相对路径 “/”步进表达式。
步进表达式=轴节点测试谓词

说明：
其中轴表示步进表达式选择的节点和当前上下文节点间的树状关系（层次关系），节点测试指定步进表达式选择的节点名称扩展名，谓词即相当于过滤表达式以进一步过滤细化节点集。
谓词可以是0个或多个。多个多个谓词用逻辑操作符and， or连接。取逻辑非用not()函数。
案例说明：
请看一个典型的XPath查询表达式：/messages/message//child::node()[@id=0]，其中/messages/message是路径（绝对路径以”/”开始），child::是轴表示在子节点下选择，node()是节点测试表示选择所有的节点。[@id=0]是谓词，表示选择所有有属性id并且值为0的节点。
相对路径与绝对路径：
如果”/”处在XPath表达式开头则表示文档根元素，（表达式中间作为分隔符用以分割每一个步进表达式）如：/messages/message/subject是一种绝对路径表示法，它表明是从文档根开始查找节点。假设当前节点是在第一个message节点【/messages/message[1]】，则路径表达式subject（路径前没有”/”）这种表示法称为相对路径，表明从当前节点开始查找。具体请见下面所述的”表达式上下文”。
表达式上下文（Context）：
上下文其实表示一种环境。以明确当前XPath路径表达式处在什么样的环境下执行。例如同样一个路径表达式处在对根节点操作的环境和处在对某一个特定子节点操作的环境下执行所获得的结果可能是完全不一样的。也就是说XPath路径表达式计算结果取决于它所处的上下文。

看懂上面看下面，一样的：

一、xpath表达式的基本格式

xpath通过”路径表达式”（Path Expression）来选择节点。在形式上，”路径表达式”与传统的文件系统非常类似。

# 斜杠（/）作为路径内部的分割符。 # 同一个节点有绝对路径和相对路径两种写法。 # 绝对路径（absolute path）必须用"/"起首，后面紧跟根节点，比如/step/step/...。 # 相对路径（relative path）则是除了绝对路径以外的其他写法，比如 step/step，也就是不使用"/"起首。 # "."表示当前节点。 # ".."表示当前节点的父节点

二、选择节点的基本规则

- nodename（节点名称）：表示选择该节点的所有子节点 - "/"：表示选择根节点 - "http://"：表示选择任意位置的某个节点 - "@"： 表示选择某个属性

xpath:对应函数也是比较多的，大概有100多所以可以参照上面的参考网址。

三、选择节点的实例

先看一个XML实例文档。

  <!DOCTYPE html> <html lang="en"> <head>     <meta charset="UTF-8">     <title>建立测试网址文本</title> </head> <body> <div id="content" version="1.0">     <ul id="useful">         <li>数学建模方法</li>         <li>数学建模数据</li>         <li>数学建模软件</li>     </ul>     <ul id="useless">         <li>不需要的信息１</li>         <li>不需要的信息２</li>         <li>不需要的信息３</li>     </ul>      <book>         <title lang="eng">数学建模书籍1</title>         <price>29.99</price>     </book>     <book>         <title lang="eng">数学建模书籍2</title>         <price>39.95</price>      </book>     <div id="url">         <a href="http:nveyun.com">虐云建模网</a>         <a 选择多个并列的路径。  //book/title | //book/price ：表示同时选择book元素的title子元素和price子元素。

lxml用法源自 lxml python 官方文档，更多内容请直接参阅官方文档，本文对其进行翻译与整理。
官方英文版（lxml说明）安装方法： pip install lxml
案例：百度百科词条为案例：明月镇词条
 https://baike.baidu.com/item/%E6%98%8E%E6%9C%88%E9%95%87/32455“>明月镇对应的源码view-source:

點(diǎn)擊查看更多內(nèi)容

為 TA 點(diǎn)贊

若覺得本文不錯(cuò)，就分享一下吧！

評(píng)論

評(píng)論

共同學(xué)習(xí)，寫下你的評(píng)論

評(píng)論加載中...

展開查看更多評(píng)論

作者其他優(yōu)質(zhì)文章

正在加載中

慕斯卡3302699

算法工程師

手記
篇

粉絲

58

獲贊與收藏

314

關(guān)注作者，訂閱最新文章

閱讀免費(fèi)教程

Python 辦公自動(dòng)化教程

17個(gè)小節(jié) 26730 904

Python 算法入門教程

15個(gè)小節(jié) 29065 1119

Python 進(jìn)階應(yīng)用教程

38個(gè)小節(jié) 69806 1092

推薦

評(píng)論

收藏

共同學(xué)習(xí)，寫下你的評(píng)論



感謝您的支持，我會(huì)繼續(xù)努力的～

掃碼打賞，你說多少就多少

贊賞金額會(huì)直接到老師賬戶

支付方式

打開微信掃一掃，即可進(jìn)行掃碼打賞哦

今天注冊(cè)有機(jī)會(huì)得

100積分直接送

付費(fèi)專欄免費(fèi)學(xué)

大額優(yōu)惠券免費(fèi)領(lǐng)

立即參與放棄機(jī)會(huì)

點(diǎn)擊
抽獎(jiǎng)

慕課手記新用戶專享福利

恭喜你，你的運(yùn)氣太好了，居然抽中了 100個(gè)積分！

恭喜你，抽中了價(jià)值元的專欄！

太棒了，直接落到你賬戶里！

積分商城里的羅技鼠標(biāo)、機(jī)械鍵盤、
Kindle 閱讀器、小米平衡車
Apple iPad （10.2英寸）、大額優(yōu)惠券
在等著你去兌換了噢

作者：

免費(fèi)贈(zèng)送

兌換碼：1111222211 復(fù)制

優(yōu)惠券可用于購買實(shí)戰(zhàn)課、體系課
無門檻使用

先去看看，有什么好東西馬上兌換我愛學(xué)習(xí)，選課去


第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

熱搜

最近搜索清空

python 網(wǎng)頁特征提取XPATH（兩天玩轉(zhuǎn)） 第一天

看懂上面看下面，一样的：

閱讀免費(fèi)教程

python 網(wǎng)頁特征提取XPATH（兩天玩轉(zhuǎn)）第一天