1、经常使用的路径表达式:css
表达式 | 描述 | 实例 |
---|---|---|
nodename | 选取nodename节点的全部子节点 | //div |
/ | 从根节点选取 | /div |
// | 选取全部的节点,不考虑他们的位置 | //div |
. | 选取当前节点 | ./div |
.. | 选取当前节点的父节点 | .. |
@ | 选取属性 | //@class |
举例元素标签为artical标签node
语法 | 说明 | |
---|---|---|
artical | 选取全部artical元素的子节点 | |
/artical | 选取根元素artical | |
./artical | 选取当前元素下的artical | |
../artical | 选取父元素下的artical | |
artical/a | 选取全部属于artical的子元素a元素 | |
//div | 选取全部div 子元素,不管div在任何地方 | |
artical//div | 选取全部属于artical的div 元素,不管div元素在artical的任何位置 | |
//@class | 选取全部名为class 的属性的 | |
a/@href | 选取a标签的href属性 | |
a/text() | 选取a标签下的文本 | |
string(.) | 解析出当前节点下全部文字 | |
string(..) | 解析出父节点下全部文字 |
2、谓语 python
谓语被嵌在方括号内,用来查找某个特定的节点或包含某个制定的值的节点框架
语法 | 说明 |
---|---|
/artical/div[1] | 选取全部属于artical 子元素的第一个div元素 |
/artical/div[last()] | 选取全部属于artical子元素的最后一个div元素 |
/artical/div[last()-1] | 选取全部属于artical子元素的倒数第2个div元素 |
/artical/div[position()<3] | 选取全部属于artical子元素的前2个div元素 |
//div[@class] | 选取全部拥有属性为class的div节点 |
//div[@class="main"] | 选取全部div下class属性为main的div节点 |
//div[price>3.5] | 选取全部div下元素值price大于3.5的节点 |
3、通配符函数
Xpath经过通配符来选取未知的XML元素spa
表达式| 结果//* |选取全部元素//div/* |选取全部属于div元素的全部子节点//div[@*] |选取全部带属性的元素文档
4、取多个路径get
使用“|”运算符能够选取多个路径input
表达式 | 结果 |
---|---|
//div | //table | 选取文档中全部的div和table节点 |
//div/a | //div/p | 选取全部div元素的a和p 元素 |
artical/div/pl | //span | 选取全部div下的pl和文档中全部span |
5、Xpath轴 string
轴能够定义相对于当前节点的节点集
轴名称 | 表达式 | 描述 |
---|---|---|
ancestor | ./ancestor::* | 选取当前节点的全部先辈节点(父、祖父) |
ancestor-or-self | ./ancestor-or-self::* | 选取当前节点的全部先辈节点以及节点自己 |
descendant | ./descendant::* | 返回当前节点的全部后代节点(子节点、孙节点) |
child | ./child::* | 返回当前节点的全部子节点 |
parent | ./parent::* | 选取当前节点的父节点 |
following | ./following::* | 选取文档中当前节点结束标签后的全部节点 |
following-sibling | ./following-sibling::* | 选取当前节点以后的兄弟节点 |
preceding | ./preceding::* | 选取文档中当前节点开始标签前的全部节点 |
preceding-sibling | ./preceding-sibling::* | 选取当前节点以前的兄弟节点 |
self | ./self::* | 选取当前节点 |
attribute | ./attribute::* | 选取当前节点的全部属性 |
6、功能函数
使用功能函数可以更好的进行模糊搜索
函数 | 用法 | 解释 |
---|---|---|
starts-with | //div[starts-with(@id,"ma")] | 选取id值以ma开头的div节点 |
contains | //div[contains(@id,"ma")] | 选取全部id值包含ma的div节点 |
and | //div[contains(@id,"ma") and contains(@id,"in")] | 选取id值包含ma和in的div节点 |
text() | //div[contains(text(),"ma")] | 选取节点文本包含ma的div节点 |
语法 | 说明 |
---|---|
* | 选择全部节点 |
#container | 选择id为container的节点 |
.container | 选择全部class包含container的节点 |
div,p | 选择全部 div 元素和全部 p 元素 |
li a | 选取全部li 下全部a节点 |
ul + p | 选取ul后面的第一个p元素 |
div#container > ul | 选取id为container的div的第一个ul子元素 |
ul ~p | 选取与ul相邻的全部p元素 |
a[title] | 选取全部有title属性的a元素 |
a[href="http://baidu.com"] | 选取全部href属性为http://baidu.com的a元素 |
a[href*="baidu"] | 选取全部href属性值中包含baidu的a元素 |
a[href^="http"] | 选取全部href属性值中以http开头的a元素 |
a[href$=".jpg"] | 选取全部href属性值中以.jpg结尾的a元素 |
input[type=radio]:checked | 选择选中的radio的元素 |
div:not(#container) | 选取全部id为非container 的div属性 |
li:nth-child(3) | 选取第三个li元素 |
li:nth-child(2n) | 选取第偶数个li元素 |
a::attr(href) | 选取a标签的href属性 |
a::text | 选取a标签下的文本 |