Python Xpath 的使用

时间 2020-04-01

标签 python xpath 使用栏目 Python 繁體版

原文原文链接

Xpath 的使用

正则表达式笔记整理html

Python requests 模块node

在用 Python 实现爬虫时，可使用 requests 库访问资源，而后用正则表达式提取信息。python

可是，这里会有一些繁琐，由于正则表达式的书写是比较严格的，万一有一个地方写错了，可能会致使匹配失败没法提取须要的信息。正则表达式

对于网页的节点来讲，能够定义 id、class 或其余属性。节点之间有层次关系，在网页中，其实能够经过 Xpath 定位一个或多个节点。微信

那么相应的，在页面解析的时候，利用 Xpath 定位节点，调用相应的方法获取正文或者属性，那么彻底能够获取须要的信息。函数

在 Python 中，这个解析库叫 lxml，下面来介绍这个解析库的用法。测试

lxml 库

lxml 是 Python 的一个解析库，支持 HTML 和 XML 的解析，支持 XPath 解析方式，效率很是高。编码

使用 lxml 以前，须要先安装，可使用以下命令：.net

$ pip install lxml

Xpath 简介

Xpath，全称 XML Path Language，便是 XML 路径语言。Xpath 是一门在 XML 文档中查找信息的语言，用于在 XML 文档中经过元素和属性进行导航，但一样适用于 HTML 文档的搜索。设计

在实现爬虫时，彻底能够经过 Xpath 进行信息提取。

Xpath 的功能强大，使用路径表达式来选取 XML 或 HTML 文档中的节点或者节点集。Xpath 有超过 100 个内建的函数。这些函数可用于字符串、数值、日期和时间比较、节点、序列处理和逻辑值等等。

Xpath 于 1999 年 11 月 16 日成为 W3C 标准，被设计为供 XSLT、XPointer 以及其余 XML 解析软件使用。

Xpath 语法

前面说起了，Xpath 使用路径表达式选取文档中的节点或节点集。

下面罗列经常使用的路径表达式：

表达式	描述说明
nodename	选取此节点的全部子节点
/	从根节点选取
//	从当前节点选择子孙节点(不考虑它们的位置)
.	选取当前节点
..	选取当前节点的父节点
@	选取属性

上面罗列的内容属于经常使用部分，用示例来讲明下具体的用法：

//div[@class="document"]

这就是一个 Xpath 路径表达式，表明的是选择名称为 div，属性 class 的值为 document 的节点。

在 Python 中，会经过 lxml 库，利用 Xpath 进行解析。

实例应用

经过实例了解使用 Xpath 对网页进行解析的过程，代码以下（下面 HTML 内容节选自豆瓣，稍做更改）：

# 先导入 lxml 库
from lxml import etree

text = """
<div>
    <ul>
        <li class="pl2"><a href="https://book.douban.com/subject/1007305/">红楼梦</a>
        <li class="pl2"><a href="https://book.douban.com/subject/4913064/">活着</a></li>
        <li class="pl2"><a href="https://book.douban.com/subject/6082808/">百年孤独</a></li>
        <li class="pl1"><a href="https://book.douban.com/subject/4820710/">1984</a></li>
    </ul>
</div>
"""

html = etree.HTML(text)
result = etree.tostring(html)
print(result.decode('utf-8'))

在上面的实例中，先导入 lxml 库中的 etree 模块，声明一段 HTML 文本，而后使用 etree 的 HTML 类进行初始化，构造一个 Xpath 解析对象。在这里须要注意一点，实例中，声明的 HTML 文本第 1 个节点没有闭合，可是 etree 模块会自动修正。

etree.toString() 方法用于输出修正后的 HTML 内容，不过该方法返回的是 byte 类型，输出的时候须要进行解码转换为 str 类型。

上面的输出结果以下：

<html><body><div>
    <ul>
        <li class="pl2"><a href="https://book.douban.com/subject/1007305/">&#32418;&#27004;&#26790;</a>
        </li><li class="pl2"><a href="https://book.douban.com/subject/4913064/">&#27963;&#30528;</a></li>
        <li class="pl2"><a href="https://book.douban.com/subject/6082808/">&#30334;&#24180;&#23396;&#29420;</a></li>
        <li class="pl1"><a href="https://book.douban.com/subject/4820710/">1984</a></li>
    </ul>
</div>
</body></html>

在这里能够看到 li 节点标签已经补全，同时自动添加了 body、html 节点。

上面的代码中，中文没有正常显示。这里属于编码的问题，能够将上面的代码稍微修改一下：

result = etree.tostring(html, encoding='gbk')
print(result.decode('gbk'))

再看输出结果：

<?xml version='1.0' encoding='gbk'?>
<html><body><div>
    <ul>
        <li class="pl2"><a href="https://book.douban.com/subject/1007305/">红楼梦</a>
        </li><li class="pl2"><a href="https://book.douban.com/subject/4913064/">活着
</a></li>
        <li class="pl2"><a href="https://book.douban.com/subject/6082808/">百年孤独<
/a></li>
        <li class="pl1"><a href="https://book.douban.com/subject/4820710/">1984</a><
/li>
    </ul>
</div>
</body></html>

这里有所不一样，前面多了个声明，同时标记编码方式为 GBK。

另外， lxml 库也能够直接读取文件进行解析，示例以下（先将上面的未修正的 HTML 内容放到 example.html 文件中）：

from lxml import etree

html = etree.parse('./example.html', etree.HTMLParser())
result = etree.tostring(html)
print(result.decode('utf-8'))

这个时候输出的结果会多一个 DOCTYPE 的声明。

Xpath 节点

全部节点

以 // 开头的 Xpath 表达式为选取全部符合要求的节点，沿用上面的例子：

...
result = html.xpath('//*')
print(result)

运行结果：

[<Element html at 0x4b34fc8>, <Element body at 0x4b3b108>, <Element div at 0x4b3b088>,
 <Element ul at 0x4b3b148>, <Element li at 0x4b3b188>, <Element a at 0x4b3b208>,
 <Element li at 0x4b3b248>, <Element a at 0x4b3b288>, <Element li at 0x4b3b2c8>,
 <Element a at 0x4b3b1c8>, <Element li at 0x4b3b308>, <Element a at 0x4b3b588>]

在这里， * 表示匹配全部的节点，由运行结果能够看出，返回的列表中，包括了 html, body, div, ul, li, a 全部节点。

固然 // 后面能够跟特定的节点，例如：

...
result = html.xpath('//a')
print(result)

运行结果：

[<Element a at 0x2d1d688>, <Element a at 0x2d1d648>, <Element a at 0x2d1d748>, <Element a at 0x2d1d788>]

子节点

/ 或者 // 能够用来定位子节点或者子孙节点，例如定位 li 节点的全部 a 节点：

...
result = html.xpath('//li/a')
print(result)

运行结果：

[<Element a at 0x2cfd688>, <Element a at 0x2cfd648>, <Element a at 0x2cfd748>, <Element a at 0x2cfd788>]

在这里能够看到，与上面直接用 //a 表达式获取的结果相同，但这里有所区别，//a 表达式找的全部的 a 节点，//li/a 这里找的是全部 li 节点的全部直接 a 子节点。

好比，有以下标签内容：

<title><a href="link.html">Title</a></title>

用这个示例来区分，根据上面的区分解释，在这里用 //a 是能够匹配到这项内容，可是 //li/a 则匹配不到，由于示例中 a 节点并不是 li 节点的直接子节点。

在原来的 HTML 文档内容中，a 是 li 的直接节点，也是 ul 的子孙节点，那么要定位 a 节点，也能够按照以下的表达式来写：

...
result = html.xpath('//ul//a')
print(result)

这里获得的结果跟上面是一致的：

[<Element a at 0x2cfd688>, <Element a at 0x2cfd648>, <Element a at 0x2cfd748>, <Element a at 0x2cfd788>]

可是要注意，不可以写成 //ul/a，由于 a 并不是 ul 的直接子节点，若是这样写则没法匹配，返回空列表。

因此要对 / 和 // 加以区分，/ 用于获取直接子节点，//用于获取子孙节点。

父节点

获取父节点的信息，用 .. 来实现，例如：

<li class="p12"><a href="https://book.douban.com/subject/1007305/"></a>红楼梦</li>

想要获取 href 属性为 "https://book.douban.com/subject/1007305/" 的 a 节点的父节点属性。

代码以下：

...
result = html.xpath('//a[@href="https://book.douban.com/subject/1007305/"]/../@class')
print(result)

运行结果：

['pl2']

这个结果正是父节点的属性。

属性

节点中，属性可存在单值或多值的状况，一个节点也能够有多个属性，当出现这些状况时，使用的表达式每每不可以一成不变，须要针对性进行书写。

单值匹配

在上面的例子中，其实已经使用属性匹配，@ 符号用于属性过滤。在上面的例子当中，有一个属性跟其余的不一样，如今将其定位，代码实现：

...
result = html.xpath('//li[@class="pl1"]')
print(result)

运行结果：

[<Element li at 0x2cfd688>]

[@class="pl1"] 这部分对定位进行了限制，找的是 class 属性值为 pl1 的节点。

多值匹配

属性有时候可能不止 1 个，以下示例：

<li class="pl1 pl2"><a href="https://book.douban.com/subject/4820710/">1984</a></li>

将 li 的属性值改成 pl1 pl2，若是仍是用原来的表达式的话：

...
result = html.xpath('//li[@class="pl1"]')
print(result)

获得的是空列表：

[]

这个时候，要考虑使用 contains() 方法，这个方法须要的参数有：第一个参数是属性名称，第二个参数是属性值。该方法的实现过程是，若第一个参数属性包含第二个参数中的属性值，则能够匹配成功。例如：

...
result = html.xpath('//li[contains(@class, "pl1")]')
print(result)

运行结果：

[<Element li at 0x2d1d648>]

这个方法在属性值不止 1 个的状况下，很是有用。

多属性匹配

在节点中，除了单个属性能够有多个值以外，也能够有多个属性。假设有以下节点：

<li class="pl1 pl2" name="item"><a href="https://book.douban.com/subject/4820710/">1984</a></li>

这种状况要用到 Xpath 运算符，下面罗列经常使用的运算符：

运算符	描述	实例	返回值
丨	计算两个节点集	//book 丨 //cd	返回拥有 book 和 cd 元素的节点
+	加法	6 + 4	10
-	减法	6 - 4	2
*	乘法	6 * 4	24
div	除法	9 div 3	3
=	等于	stature=178	当 stature 为 178 时，返回 true；不然，返回 false.
!=	不等于	stature!=178	当 stature 不是 178 时，返回 true；不然，返回 false
<	小于	stature<178	当 stature 为 177 时，返回 true；当 stature 为 179 时，返回 false
<=	小于或等于	stature<=178	当 stature 为 177 时，返回 true；当 stature 为 179 时，返回 false
>	大于	stature>178	当 stature 为 179 时，返回 true；当 stature 为 177 时，返回 false
>=	大于	stature>=178	当 stature 为 179 时，返回 true；当 stature 为 177 时，返回 false
or	或	stature=178 or stature=179	当 stature=178 时，返回 true；当 stature=175 时，返回 false
and	与	stature>175 and stature<178	当 stature=178 时，返回 true；当 stature=165 时，返回 false
mod	取余	5 mod 2	1

在这里，使用 and 运算符将多个属性链接：

...
result = html.xpath('//li[contains(@class, "pl1") and @name="item"]')
print(result)

运算结果：

[<Element li at 0x2cfd688>]

获取属性

这里要与上面区分开，上面都是根据属性去定位节点。如今是想查找某个节点的确切属性。例如查找 li 下 a 节点的 href 属性：

...
result = html.xpath('//li/a/@href')
print(result)

返回结果：

['https://book.douban.com/subject/1007305/', 'https://book.douban.com/subject/4913064/', 'https://book.douban.com/subject/6082808/', 'https://book.douban.com/subject/4820710/']

这里 /@href 是为了获取节点属性，上面 [@class="pl1"] 是为了限定属性查找节点，要加以区分。

文本获取

Xpath 用 text() 方法获取文本，如今尝试获取上面属性所演示的示例，获取节点中的文本，同时验证上面定位的是不是属性值为 pl1 的节点：

...
result = html.xpath('//li[@class="pl1"]/a/text()')
print(result)

运行结果：

['1984']

从结果来看，上面属性示例中返回的节点，的确是属性值为 pl1 的节点。这里须要注意，由于文本是被 a 节点包裹着的，若是直接在 li 节点下使用 /text() 是获取不到想要的信息的。若是改为 //text() 表达式，则能够获取全部子孙节点的文本，但这里可能获取的内容会有些误差，有可能会获取到换行符，这个并非想要的信息。以下示例：

result = html.xpath('//li[@class="pl1"]//text()')
print(result)

# 输出结果：
# ['\n        ', '1984', '\n        ']

这里就是须要注意的地方，若是要想获取特定子节点的文本，首先建议先找到特定的子节点，而后在子节点下使用 text() 方法，这样确保获取的信息是整洁的。

Xpath 轴

轴可定义相对当前节点的节点集。

先罗列一些简单的轴及其含义：

轴名称	含义
ancestor	选取当前节点的全部祖先节点
attribute	选取当前节点的全部属性
child	选取当前节点的全部直接子节点
descendant	选取当前节点的全部子孙节点
following	选取当前节点以后的全部节点

更多轴的详细用法可参考：https://www.w3school.com.cn/xpath/xpath_axes.asp

使用轴的语法：

轴名称::节点测试[谓语]

沿用上面的例子，关于轴的简单实例：

例子	结果
//li/ancestor:: *	选取 li 节点的全部祖先节点
//li/ancestor::div	这里加了 div 加以限定，因此仅返回 div 节点
//li/attribute:: *	获取 li 节点的全部属性
//li/child::a[@href="#"]	这里加了限定条件，因此仅返回 href 属性为 # 的 a 节点
//li/descentdant:: *	获取 li 节点的全部子孙节点
//li/following:: *	获取 li 节点后续的全部节点

小结

以上就是关于 Xpath 的内容， Xpath 还有一些函数，文章未说起，若是有兴趣的话，能够参考：https://www.w3school.com.cn/xpath/xpath_functions.asp

欢迎关注微信公众号《书所集录》

1. Python Xpath 使用
2. Python中使用XPath
3. python中使用XPath
4. python中使用 xpath
5. Python+Selenium--XPath的使用
6. python爬虫之xpath的基本使用 python爬虫之xpath的基本使用
7. python selenium使用xpath定位
8. Xpath的使用
9. xpath使用
10. python爬虫之xpath的基本使用
更多相关文章...
• SQLite - Python - SQLite教程
• Docker 容器使用 - Docker教程
• Composer 安装与使用
• 使用Rxjava计算圆周率