目录html
@(这里写自定义目录标题)node
XPath(全称XML Path Languang),即XML路径语言,是一种在XML文档中查找信息的语言。适用于XML和HTML文档的搜索。
优势:提供了很是简洁明了的路径选择表达式。还提供了超过100个内建函数,能够匹配大部分的节点。
官网:https://www.w3.org/TR/xpath/
准备工做:须要安装lxml库。
python
表达式 | 功能 |
---|---|
nodename | 选取此节点的全部子节点 |
/ | 从当前节点选取直接子节点 |
// | 从当前节点选取直接子孙节点 |
. | 选取当前节点 |
.. | 选取当前节点的父节点 |
@ | 选取属性 |
etree是lxml库中的函数,能够自动修正HTML文本。下面是两种导入方法:
直接读取网页代码进行解析:函数
from lxml import etree text = ''' HTML文本 ''' # 将HTML文本转化为能够用etree解析的对象, html = etree.HTML(text) # 结果是bytes类型,若是须要文本输出,则须要用decode()转码为Unicode编码
读取文本文件进行解析(这里既会自动修正文件,又会补充DOCTYPE声明):工具
from lxml import etree html = etree.parse('文本文件路径/文本文件名字.html',etree.HTMLParse()) # 结果是bytes类型,若是须要文本输出,则须要用decode()转码为Unicode编码
用tostring()方法便可输出修正后的HTML代码。
编码
通常用//开头的XPath规则,就会选择从当前节点开始的全部子孙节点,也就是全部节点。因此要匹配全部的节点代码以下:code
a = html.xpath('//*') # 选取全部的节点 b = html.xpath('//a') # 选取全部的a节点,是一个例子
这里的a和b,也就是xpath方法的返回值是一个列表,每一个元素是Element类型,后面跟着节点的名称,是一个可迭代对象。要取出某一个对象,就须要用处理列表的方法进行。xml
选取子节点只须要在后面加上/节点名称(选择直接子节点,也就是与其相邻的第一个子节点),若是直接子节点没有就会报错,或者//节点名称(选择全部子孙节点),例子以下:htm
c = html.xpath('//li/a') # 选取li节点的直接a子节点 d = html.xpath('//li//a') # 选取li节点的全部a子节点
获取某个节点的父节点有两个方法,一个是用..,另外一个是用parent::。
同理,若是没有父节点,就会报错,例子以下:对象
e = html.xpath('//li/../a') # 选取li节点的父节点下的a节点 f = html.xpath('//li/parent::/a') # 选取li节点的父节点下的直接a节点 g = html.xpath('//li/parent::*/a') # 选取li节点的父节点下的全部a节点
在选取节点的时候,能够用@符号进行属性过滤,用[@属性名="属性值"]进行实现,例子以下:
s = html.xpath('//li[@class="ming"]') # 选取属性值class="ming"的全部li节点
要注意的是里面的括号和外面的括号尽可能一个用双引号,一个用单引号。
咱们用Xpath中的text()方法便可获取节点中的文本。要注意的是获取到的数据可能包括换行符'\n'。
要是属性有多个值的话,用上面的方法就没法匹配了。须要用到contains()函数,包含两个参数,即@属性名和属性值,例子以下:
# 源代码中为<li class="ming1 ming2"> s1 = html.xpath('//li[contains(@class,"ming1")]') # 选取属性值class="ming1"的全部li节点 s2 = html.xpath('//li[contains(@class,"ming2")]') # 选取属性值class="ming2"的全部li节点
属性获取直接用@获取便可,例子以下:
s = html.xpath('//li/a/@href]') # 获取全部li节点下的直接a子节点的href属性
有时候须要根据多个属性值肯定一个节点,就须要同时匹配多个属性。要用and进行链接,能够把contains(@属性名,"属性名")和@属性名="属性值"混合使用,例子以下:
# 选取全部属性值class="a"和_target="ming"的li节点下的全部a节点的href属性 two_s = html.xpath('//li[contains(@class,"a") and @_target="ming"]//a/@href')
有时候选择到的某些属性可能同时匹配了多个节点,可是要想获得其中的某一个节点,该如何获取呢?能够用中括号传入索引的方法获取特定次序的节点。下面是一些经常使用方法的总结:
方法 | 功能 |
---|---|
[n] | 选取第n个节点,序号是以1开头的 |
[last()] | 选取最后一个节点 |
[position() < n] | 选取位置小于n的节点,这里能够用算术运算符进行选择 |
[last() - n] | 选取倒数第n+1个节点,因为last()是倒数第一个,则last() - n就是倒数第n+1个 |
因为网页代码是一个DOM树,所以能够用相对的位置进行选择节点的子节点,兄弟节点,父节点或者祖先节点等。python的节点轴选择经常使用的以下:
节点轴 | 选择节点 |
---|---|
ancestor:: * | 获取全部祖先节点 |
ancestor::条件 | 获取指定条件的祖先节点 |
attribute:: * | 获取节点的全部属性 |
attribute::属性名 | 获取节点的指定属性 |
child:: * | 获取全部子节点 |
child::条件 | 获取指定条件的子节点 |
descendent:: * | 获取全部的子孙节点 |
descendent::条件 | 获取指定条件的子孙节点 |
following:: * | 获取当前节点以后的全部节点 |
following:: *[n] | 获取当前节点以后的第n个节点 |
following-sibing:: * | 获取当前节点以后的全部同级节点 |
following-sibing::条件 | 获取当前节点以后指定条件的全部同级节点 |
用F12打开开发者工具,按才Copy->Copy Xpath就能够把该段代码的XPath路径代码复制下来,很方便。