使用lxml以前,咱们首先要会使用XPath。利用XPath,就能够将html文档当作xml文档去进行处理解析了。html
XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言,可用来在 XML 文档中对元素和属性进行遍历。浏览器
Chrome浏览器,能够安装Xpath Helper插件。若是从网上下载插件,获得的文件以.crx结尾,不能直接添加到浏览器扩展程序里,咱们须要将这个文件改成.zip结尾,而后新建一个文件夹,将.zip文件解压到新建的文件夹内。经过浏览器的扩展程序-加载已解压的扩展程序-选择该文件夹就能够安装好插件了。工具
XPath使用路径表达式来选取XML文档中的节点或者节点集。节点是经过沿着路径(path)或步(steps)来选取的。这些路径表达式和咱们在常规的电脑文件系统中看到的表达式很是类似。性能
<?xml version="1.0" encoding="ISO-8859-1"?> <bookstore> <book> <title lang="eng">Harry Potter</title> <price>29.99</price> </book> <book> <title lang="eng">Learning XML</title> <price>39.95</price> </book> </bookstore>
下面的例子中都使用这个文档进行演示。开发工具
XPath 使用路径表达式在 XML 文档中选取节点。节点是经过沿着路径或者 step 来选取的。spa
常见路径表达式:插件
表达式 | 描述 |
节点名 | 必须是根节点,选取此节点的全部子节点。 |
/ | 从根节点选取。 |
// | 从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。 |
. | 选取当前节点。 |
.. | 选取当前节点的父节点。 |
@ | 选取属性。 |
示例:code
路径表达式 | 结果 |
bookstore | 选取 bookstore 元素的全部子节点。 |
/bookstore | 选取根元素 bookstore。xml 注释:假如路径起始于正斜杠( / ),则此路径始终表明到某元素的绝对路径!htm |
bookstore/book | 选取属于 bookstore 的子元素的全部 book 元素。 |
//book | 选取全部 book 子元素,而无论它们在文档中的位置。 |
bookstore//book | 选择属于 bookstore 元素的后代的全部 book 元素,而无论它们位于 bookstore 之下的什么位置。 |
//@lang | 选取名为 lang 的全部属性。 |
谓语用来查找某个特定的节点或者包含某个指定的值的节点,被嵌在方括号中。
示例:
路径表达式 | 结果 |
/bookstore/book[1] | 选取属于 bookstore 子元素的第一个 book 元素。 |
/bookstore/book[last()] | 选取属于 bookstore 子元素的最后一个 book 元素。 |
/bookstore/book[last()-1] | 选取属于 bookstore 子元素的倒数第二个 book 元素。 |
/bookstore/book[position()<3] | 选取最前面的两个属于 bookstore 元素的子元素的 book 元素。 |
//title[@lang] | 选取全部拥有名为 lang 的属性的 title 元素。 |
//title[@lang='eng'] | 选取全部 title 元素,且这些元素拥有值为 eng 的 lang 属性。 |
/bookstore/book[price>35.00] | 选取 bookstore 元素的全部 book 元素,且其中的 price 元素的值须大于 35.00。 |
/bookstore/book[price>35.00]/title | 选取 bookstore 元素中的 book 元素的全部 title 元素,且其中的 price 元素的值须大于 35.00。 |
XPath 通配符可用来选取未知的 XML 元素和属性。
通配符:
通配符 | 描述 |
* | 匹配任何节点。 |
@* | 匹配任何属性 |
示例:
路径表达式 | 结果 |
/bookstore/* | 选取 bookstore 元素的全部子元素。 |
//* | 选取文档中的全部元素。 |
//title[@*] | 选取全部带有属性的 title 元素。 |
经过在路径表达式中使用“|”运算符,您能够选取若干个路径
示例:
路径表达式 | 结果 |
//book/title | //book/price | 选取 book 元素的全部 title 和 price 元素。 |
//title | //price | 选取文档中的全部 title 和 price 元素。 |
/bookstore/book/title | //price | 选取属于 bookstore 元素的 book 元素的全部 title 元素,以及文档中全部的 price 元素。 |
下面列出了可用在 XPath 表达式中的运算符:
lxml 是 一个HTML/XML的解析器,主要的功能是如何解析和提取 HTML/XML 数据。
lxml和正则同样,也是用C实现的,是一款高性能的 Python HTML/XML 解析器,咱们能够利用XPath语法,来快速的定位特定元素以及节点信息。
sudo pip3 install lxml
In [1]: from lxml import etree #导入etree In [2]: text = ''' ...: <div> ...: <ul> ...: <li class="item-0"><a href="link1.html">first item</a></li> ...: <li class="item-1"><a href="link2.html">second item</a></li> ...: <li class="item-inactive"><a href="link3.html"><span class="bold">third item</span></a></li> ...: <li class="item-1"><a href="link4.html">fourth item</a></li> ...: <li class="item-0"><a href="link5.html">fifth item</a></li> ...: </ul> ...: </div> ...: ''' In [3]: html = etree.HTML(text) #读取字符串 In [4]: html #返回html元素 Out[4]: <Element html at 0x7f3ad0bb8340> In [5]: etree.tostring(html)#序列化成字节类型,并自动添上了html标签和body标签 Out[5]: b'<html><body><div>\n <ul>\n <li class="item-0"><a href="link1.html">first item</a></li>\n <li class="item-1"><a href="link2.html">second item</a></li>\n <li class="item-inactive"><a href="link3.html"><span class="bold">third item</span></a></li>\n <li class="item-1"><a href="link4.html">fourth item</a></li>\n <li class="item-0"><a href="link5.html">fifth item</a></li>\n </ul>\n</div>\n</body></html>' In [6]: html2 = etree.parse('./test.html')#从文件读取 In [7]: html2 #返回元素树 Out[7]: <lxml.etree._ElementTree at 0x7fc54d818d00> In [8]: etree.tostring(html2) Out[8]: b'<body>\n <div>\n <ul>\n <li class="item-0"><a href="link1.html">first item</a></li>\n <li class="item-1"><a href="link2.html">second item</a></li>\n <li class="item-inactive"><a href="link3.html"><span class="bold">third item</span></a></li>\n <li class="item-1"><a href="link4.html">fourth item</a></li>\n <li class="item-0"><a href="link5.html">fifth item</a></li>\n </ul>\n </div>\n</body>' In [9]: element_list = html.xpath('//a')#调用元素的xpath方法,选取文档中的全部a元素 In [10]: element_list #返回全部a元素组成的列表 Out[10]: [<Element a at 0x7fc54d849ec0>, <Element a at 0x7fc54d91b080>, <Element a at 0x7fc54d86fc80>, <Element a at 0x7fc54d878e40>, <Element a at 0x7fc54d878040>] In [11]: element_list[0].tag #元素tag属性,返回标签名 Out[11]: 'a' In [12]: element_list[0].text #元素text属性,返回元素内容 Out[12]: 'first item' In [13]: attr_value_list = html.xpath('//a/@href') #调用元素的xpath方法,选取文档中全部a元素的href属性 In [14]: attr_value_list #返回href属性值组成的列表 Out[14]: ['link1.html', 'link2.html', 'link3.html', 'link4.html', 'link5.html']