爬虫-使用lxml解析html数据

时间 2021-01-20

标签 html 浏览器工具性能开发工具 spa 插件 code xml htm 栏目网络爬虫繁體版

原文原文链接

使用lxml以前，咱们首先要会使用XPath。利用XPath，就能够将html文档当作xml文档去进行处理解析了。html

1、XPath的简单使用：

XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言，可用来在 XML 文档中对元素和属性进行遍历。浏览器

1.开发工具的安装

Chrome浏览器，能够安装Xpath Helper插件。若是从网上下载插件，获得的文件以.crx结尾，不能直接添加到浏览器扩展程序里，咱们须要将这个文件改成.zip结尾，而后新建一个文件夹，将.zip文件解压到新建的文件夹内。经过浏览器的扩展程序-加载已解压的扩展程序-选择该文件夹就能够安装好插件了。工具

2.语法

XPath使用路径表达式来选取XML文档中的节点或者节点集。节点是经过沿着路径（path）或步（steps）来选取的。这些路径表达式和咱们在常规的电脑文件系统中看到的表达式很是类似。性能

XML实例文档

<?xml version="1.0" encoding="ISO-8859-1"?>

<bookstore>

<book>
  <title lang="eng">Harry Potter</title>
  <price>29.99</price>
</book>

<book>
  <title lang="eng">Learning XML</title>
  <price>39.95</price>
</book>

</bookstore>

下面的例子中都使用这个文档进行演示。开发工具

选取节点

XPath 使用路径表达式在 XML 文档中选取节点。节点是经过沿着路径或者 step 来选取的。spa

常见路径表达式：插件

表达式	描述
节点名	必须是根节点，选取此节点的全部子节点。
/	从根节点选取。
//	从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置。
.	选取当前节点。
..	选取当前节点的父节点。
@	选取属性。

示例：code

路径表达式	结果
bookstore	选取 bookstore 元素的全部子节点。
/bookstore	选取根元素 bookstore。xml 注释：假如路径起始于正斜杠( / )，则此路径始终表明到某元素的绝对路径！htm
bookstore/book	选取属于 bookstore 的子元素的全部 book 元素。
//book	选取全部 book 子元素，而无论它们在文档中的位置。
bookstore//book	选择属于 bookstore 元素的后代的全部 book 元素，而无论它们位于 bookstore 之下的什么位置。
//@lang	选取名为 lang 的全部属性。

谓语

谓语用来查找某个特定的节点或者包含某个指定的值的节点，被嵌在方括号中。

示例：

路径表达式	结果
/bookstore/book[1]	选取属于 bookstore 子元素的第一个 book 元素。
/bookstore/book[last()]	选取属于 bookstore 子元素的最后一个 book 元素。
/bookstore/book[last()-1]	选取属于 bookstore 子元素的倒数第二个 book 元素。
/bookstore/book[position()<3]	选取最前面的两个属于 bookstore 元素的子元素的 book 元素。
//title[@lang]	选取全部拥有名为 lang 的属性的 title 元素。
//title[@lang='eng']	选取全部 title 元素，且这些元素拥有值为 eng 的 lang 属性。
/bookstore/book[price>35.00]	选取 bookstore 元素的全部 book 元素，且其中的 price 元素的值须大于 35.00。
/bookstore/book[price>35.00]/title	选取 bookstore 元素中的 book 元素的全部 title 元素，且其中的 price 元素的值须大于 35.00。

选取未知节点和属性

XPath 通配符可用来选取未知的 XML 元素和属性。

通配符：

通配符	描述
*	匹配任何节点。
@*	匹配任何属性

示例：

路径表达式	结果
/bookstore/*	选取 bookstore 元素的全部子元素。
//*	选取文档中的全部元素。
//title[@*]	选取全部带有属性的 title 元素。

选取若干路径

经过在路径表达式中使用“|”运算符，您能够选取若干个路径

示例：

路径表达式	结果
//book/title \| //book/price	选取 book 元素的全部 title 和 price 元素。
//title \| //price	选取文档中的全部 title 和 price 元素。
/bookstore/book/title \| //price	选取属于 bookstore 元素的 book 元素的全部 title 元素，以及文档中全部的 price 元素。

3.运算符

下面列出了可用在 XPath 表达式中的运算符：

2、lxml库

lxml 是一个HTML/XML的解析器，主要的功能是如何解析和提取 HTML/XML 数据。

lxml和正则同样，也是用C实现的，是一款高性能的 Python HTML/XML 解析器，咱们能够利用XPath语法，来快速的定位特定元素以及节点信息。

1.安装

须要安装C语言库，可以使用 pip 安装
```
sudo pip3 install lxml
```

2.简单使用（仅列出常见的一些操做）

etree
- 解析html数据，主要就是用到lxml库中的etree
etree.HTML（）
- 参数为字符串，读取字符串，返回html元素，而且会自动修正html代码，好比缺乏html标签和body标签，则会自动添上

etree.parse（）
- 参数为文件名，从文件读取内容，返回_ElementTree

etree.tostring（）
- 参数为元素或者元素树，序列化成字节类型

Element.xpath（）或者_ElementTree.xpath（）
- 参数是xpath表达式字符串，返回的是列表。若是表达式选取的是元素，则列表由元素组成，若是表达式选取的是属性，则列表由属性的值组成

Element.tag
- 元素tag属性，返回元素标签名
Element.text
- 元素text属性，返回元素内容

示例：

In [1]: from lxml import etree #导入etree

In [2]: text = '''
   ...: <div>
   ...:     <ul>
   ...:         <li class="item-0"><a href="link1.html">first item</a></li>
   ...:         <li class="item-1"><a href="link2.html">second item</a></li>
   ...:         <li class="item-inactive"><a href="link3.html"><span class="bold">third item</span></a></li>
   ...:         <li class="item-1"><a href="link4.html">fourth item</a></li>
   ...:         <li class="item-0"><a href="link5.html">fifth item</a></li>
   ...:     </ul>
   ...: </div>
   ...: '''

In [3]: html = etree.HTML(text) #读取字符串

In [4]: html #返回html元素
Out[4]: <Element html at 0x7f3ad0bb8340>

In [5]: etree.tostring(html)#序列化成字节类型，并自动添上了html标签和body标签
Out[5]: b'<html><body><div>\n    <ul>\n        <li class="item-0"><a href="link1.html">first item</a></li>\n        <li class="item-1"><a href="link2.html">second item</a></li>\n        <li class="item-inactive"><a href="link3.html"><span class="bold">third item</span></a></li>\n        <li class="item-1"><a href="link4.html">fourth item</a></li>\n        <li class="item-0"><a href="link5.html">fifth item</a></li>\n    </ul>\n</div>\n</body></html>'

In [6]: html2 = etree.parse('./test.html')#从文件读取

In [7]: html2 #返回元素树
Out[7]: <lxml.etree._ElementTree at 0x7fc54d818d00>

In [8]: etree.tostring(html2)
Out[8]: b'<body>\n    <div>\n        <ul>\n             <li class="item-0"><a href="link1.html">first item</a></li>\n             <li class="item-1"><a href="link2.html">second item</a></li>\n             <li class="item-inactive"><a href="link3.html"><span class="bold">third item</span></a></li>\n             <li class="item-1"><a href="link4.html">fourth item</a></li>\n             <li class="item-0"><a href="link5.html">fifth item</a></li>\n         </ul>\n     </div>\n</body>'

In [9]: element_list = html.xpath('//a')#调用元素的xpath方法，选取文档中的全部a元素

In [10]: element_list #返回全部a元素组成的列表
Out[10]: 
[<Element a at 0x7fc54d849ec0>,
 <Element a at 0x7fc54d91b080>,
 <Element a at 0x7fc54d86fc80>,
 <Element a at 0x7fc54d878e40>,
 <Element a at 0x7fc54d878040>]

In [11]: element_list[0].tag #元素tag属性，返回标签名
Out[11]: 'a'

In [12]: element_list[0].text #元素text属性，返回元素内容
Out[12]: 'first item'

In [13]: attr_value_list = html.xpath('//a/@href') #调用元素的xpath方法，选取文档中全部a元素的href属性

In [14]: attr_value_list #返回href属性值组成的列表
Out[14]: ['link1.html', 'link2.html', 'link3.html', 'link4.html', 'link5.html']

爬虫-使用lxml解析html数据

1、XPath的简单使用：

1.开发工具的安装

2.语法

XML实例文档

选取节点

谓语

选取未知节点和属性

选取若干路径

3.运算符

2、lxml库

1.安装

2.简单使用（仅列出常见的一些操做）

etree

etree.HTML（）

etree.parse（）

etree.tostring（）

Element.xpath（）或者_ElementTree.xpath（）

Element.tag

Element.text

示例：