python爬虫三大解析库之XPath解析库通俗易懂详讲

时间 2019-11-29

标签 python 爬虫三大解析 xpath 通俗易懂详讲栏目 Python 繁體版

原文原文链接

目录html

使用XPath解析库

@(这里写自定义目录标题)node

使用XPath解析库

1.简介

XPath(全称XML Path Languang)，即XML路径语言，是一种在XML文档中查找信息的语言。适用于XML和HTML文档的搜索。
优势：提供了很是简洁明了的路径选择表达式。还提供了超过100个内建函数，能够匹配大部分的节点。
官网：https://www.w3.org/TR/xpath/
准备工做：须要安装lxml库。

python

2.经常使用规则

表达式	功能
nodename	选取此节点的全部子节点
/	从当前节点选取直接子节点
//	从当前节点选取直接子孙节点
.	选取当前节点
..	选取当前节点的父节点
@	选取属性

3.etree模块解析网页简介

etree是lxml库中的函数，能够自动修正HTML文本。下面是两种导入方法：
直接读取网页代码进行解析：函数

from lxml import etree
text = '''
HTML文本
'''
# 将HTML文本转化为能够用etree解析的对象，
html = etree.HTML(text) # 结果是bytes类型，若是须要文本输出，则须要用decode()转码为Unicode编码

读取文本文件进行解析(这里既会自动修正文件，又会补充DOCTYPE声明)：工具

from lxml import etree
html = etree.parse('文本文件路径/文本文件名字.html',etree.HTMLParse()) # 结果是bytes类型，若是须要文本输出，则须要用decode()转码为Unicode编码

用tostring()方法便可输出修正后的HTML代码。

编码

4.选取全部节点，子节点和父节点

(1)选取全部节点

通常用//开头的XPath规则，就会选择从当前节点开始的全部子孙节点，也就是全部节点。因此要匹配全部的节点代码以下：code

a = html.xpath('//*')   # 选取全部的节点
b = html.xpath('//a')   # 选取全部的a节点,是一个例子

这里的a和b，也就是xpath方法的返回值是一个列表，每一个元素是Element类型，后面跟着节点的名称，是一个可迭代对象。要取出某一个对象，就须要用处理列表的方法进行。xml

(2)选取子节点

选取子节点只须要在后面加上/节点名称(选择直接子节点，也就是与其相邻的第一个子节点)，若是直接子节点没有就会报错，或者//节点名称(选择全部子孙节点)，例子以下：htm

c = html.xpath('//li/a')    # 选取li节点的直接a子节点
d = html.xpath('//li//a')   # 选取li节点的全部a子节点

(3)选取父节点

获取某个节点的父节点有两个方法，一个是用..，另外一个是用parent::。
同理，若是没有父节点，就会报错，例子以下：对象

e = html.xpath('//li/../a') # 选取li节点的父节点下的a节点
f = html.xpath('//li/parent::/a')   # 选取li节点的父节点下的直接a节点
g = html.xpath('//li/parent::*/a')  # 选取li节点的父节点下的全部a节点

5.属性匹配，文本获取和属性多值匹配

(1)属性匹配

在选取节点的时候，能够用@符号进行属性过滤，用[@属性名="属性值"]进行实现，例子以下：

s = html.xpath('//li[@class="ming"]')   # 选取属性值class="ming"的全部li节点

要注意的是里面的括号和外面的括号尽可能一个用双引号，一个用单引号。

(2)文本获取

咱们用Xpath中的text()方法便可获取节点中的文本。要注意的是获取到的数据可能包括换行符'\n'。

(3)属性多值匹配

要是属性有多个值的话，用上面的方法就没法匹配了。须要用到contains()函数，包含两个参数，即@属性名和属性值，例子以下：

# 源代码中为<li class="ming1 ming2">
s1 = html.xpath('//li[contains(@class,"ming1")]')   # 选取属性值class="ming1"的全部li节点
s2 = html.xpath('//li[contains(@class,"ming2")]')   # 选取属性值class="ming2"的全部li节点

6.属性获取和多属性匹配

(1)属性获取

属性获取直接用@获取便可，例子以下：

s = html.xpath('//li/a/@href]') # 获取全部li节点下的直接a子节点的href属性

(2)多属性匹配

有时候须要根据多个属性值肯定一个节点，就须要同时匹配多个属性。要用and进行链接，能够把contains(@属性名,"属性名")和@属性名="属性值"混合使用，例子以下：

# 选取全部属性值class="a"和_target="ming"的li节点下的全部a节点的href属性
two_s = html.xpath('//li[contains(@class,"a") and @_target="ming"]//a/@href')

7.按次序选择

有时候选择到的某些属性可能同时匹配了多个节点，可是要想获得其中的某一个节点，该如何获取呢？能够用中括号传入索引的方法获取特定次序的节点。下面是一些经常使用方法的总结：

方法	功能
[n]	选取第n个节点，序号是以1开头的
[last()]	选取最后一个节点
[position() < n]	选取位置小于n的节点，这里能够用算术运算符进行选择
[last() - n]	选取倒数第n+1个节点，因为last()是倒数第一个，则last() - n就是倒数第n+1个

8.节点轴选择

因为网页代码是一个DOM树，所以能够用相对的位置进行选择节点的子节点，兄弟节点，父节点或者祖先节点等。python的节点轴选择经常使用的以下：

节点轴	选择节点
ancestor:: *	获取全部祖先节点
ancestor::条件	获取指定条件的祖先节点
attribute:: *	获取节点的全部属性
attribute::属性名	获取节点的指定属性
child:: *	获取全部子节点
child::条件	获取指定条件的子节点
descendent:: *	获取全部的子孙节点
descendent::条件	获取指定条件的子孙节点
following:: *	获取当前节点以后的全部节点
following:: *[n]	获取当前节点以后的第n个节点
following-sibing:: *	获取当前节点以后的全部同级节点
following-sibing::条件	获取当前节点以后指定条件的全部同级节点

9.开发者工具查看xpath选择器路径

用F12打开开发者工具，按才Copy->Copy Xpath就能够把该段代码的XPath路径代码复制下来，很方便。