Class 14 - 3 解析库 -- pyquery

时间 2019-11-12

标签 class 解析 pyquery 繁體版

原文原文链接

与Beautifu Soup 同样，初始化 pyquery 的时候，也须要传入 HTML 文原本初始化一个 PyQuery 对象。初始化方式有多种，如：直接传入字符串，传入 URL ，传人文件名等。css

初始化

字符串初始化　　

html = '''
<div>
<ul>
<li class="item-0">first item</li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></li>
<li class="item-1 active"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a></li>
</ul>
</div>
'''
from pyquery import PyQuery as pq
doc =pq(html)
print(doc('li'))
输出：

<li class="item-0">first item</li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
<li class="item-1 active"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a></li>

View Code

引PyQuery对象，取别名为 pq。声明了一个长 HTML字符串，并将其看成参数传递给 PyQuery 类，这样就成功完成了初始化。接下来，将初始化的对象传入 css 选择器。传入 li 节点，这样就可选择全部的 li 节点。　　html

URL初始化
- 初始化参数不只能够以字符串的形式传递，能够传入网页的URL，此时只须要指定参数为 url 便可：
```
from pyquery import PyQuery as pq
doc =pq(url='https://cuiqingcai.com')
print(doc('title'))
输出：
```
 <title>静觅丨崔庆才的我的博客</title>
 View Code
 PyQuery 对象会首先请求这个 URL，用获得的 HTML内容完成初始化，至关于用网页的源代码以字符串的形式传递给PyQuery 类来初始化。与如下功能相同：api
```
from pyquery import PyQuery as pq
import requests
doc =pq(requests.get(url='https://cuiqingcai.com').text)
print(doc('title'))
```
文件初始化app
- 除了传递 URL，还能够传递本地的文件名，此时将参数指定为filename便可：ide
```
from pyquery import PyQuery as pq
doc =pq(filename='demo.html')
print(doc('li'))
```
  这里须要有一个本地 HTML 文件 demo.html，其内容是待解析 HTML 字符串。它会首先读取本地的文件内容，再用文件内容以字符串形式传递给PyQuery 类来初始化。ui

基本CSS选择器

pyquery的CSS选择示例：

from pyquery import PyQuery as pq
doc =pq('html')
print(doc('#container .list li'))
print(type(doc('#container .list li')))
输出：

<li class="item-0">first item</li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
<li class="item-1 active"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a></li>

<class 'pyquery.pyquery.PyQuery'>

View Code

初始化 PyQuery 对象后，传入了 CSS 选择器＃container .list li ，意思是先选取 id container 的节点，而后再选取其内部的 class 为list 的节点内部的全部 li 节点。而后输出，成功获取到了符合条件的节点。它的类型依然是 PyQuery 类型。url

查找节点spa

子节点3d

查找子节点时，须要用到干find（）方法，此时传人的参数是 CSS 选择器。前面的 HTML 为例：code

from pyquery import PyQuery as pq
doc =pq(html)
items =doc('.list')
print(type(items))
print(items)
lis = items.find('li')
print(type(lis))
print(lis)
输出：

<class 'pyquery.pyquery.PyQuery'>
<ul class="list">
<li class="item-0">first item</li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
<li class="item-1 active"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a></li>
</ul>

<class 'pyquery.pyquery.PyQuery'>
<li class="item-0">first item</li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
<li class="item-1 active"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a></li>

View Code

首先，选取 class 为 list 的节点，再调用了 find（）方法，传入 CSS 选择器，选取其内部 li 节点，最后输出。find（）方法会将符合条件的全部节点选择出来，结果是 PyQuery 类型。

其实find（）的查找范围是节点的全部子孙节点，若是只想查找子节点，那么能够用 children（）方法：

lis = items.children()
print(type(lis))
print(lis)
输出：

<class 'pyquery.pyquery.PyQuery'>
<li class="item-0">first item</li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
<li class="item-1 active"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a></li>

View Code

若是要筛选全部子节点中符合条件的节点，如：筛选出子节点中 class 为 active 节点，能够向 children（）方法传入 CSS 选择器 .active:

lis = items.children('.active')
print(lis)
输出：

<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
<li class="item-1 active"><a href="link4.html">fourth item</a></li>

View Code

输出结果已经作了筛选，留下了 class为 active 的节点。

父节点

能够用 parent（）方法来获取某个节点的父节点，示例：

html = '''
<div class="wrap">
<div id="container">
<ul class="list">
<li class="item-0">first item</li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
<li class="item-1 active"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a></li>
</ul>
</div>
</div>
'''
from pyquery import PyQuery as pq
doc=pq(html)
items =doc('.list')
container =items.parent()
print(type(container))
print(container)
输出：

<class 'pyquery.pyquery.PyQuery'>
<div id="container">
<ul class="list">
<li class="item-0">first item</li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
<li class="item-1 active"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a></li>
</ul>
</div>

View Code

首先用 .list 选取 class为 list 的节点，而后调用 parent（）方法获得其父节点，其类型依然是 PyQuery 类型。

父节点是该节点的直接父节点，也就是说，它不会再去查找父节点的父节点，即祖先节点　　

若是想获取某个祖先节点，这时能够用 parents（）方法：

from pyquery import PyQuery as pq
doc=pq(html)
items=doc('.list')
parents =items.parents()
print(parents)

输出：
<div class="wrap">
<div id="container">
<ul class="list">
<li class="item-0">first item</li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
<li class="item-1 active"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a></li>
</ul>
</div>
</div><div id="container">
<ul class="list">
<li class="item-0">first item</li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
<li class="item-1 active"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a></li>
</ul>
</div>

View Code

输出结果有两个：一个是 class为wrap 的节点，一个是 id 为 container 的节点。parents（）方法会返回全部的祖先节点。

若是想要筛选某个祖先节点，能够向 parents（）方法传入 CSS 选择器，这样就会返回祖先节点中符合 CSS 选择器的节点：

from pyquery import PyQuery as pq
doc=pq(html)
items=doc('.list')
parent=items.parents('.wrap')
print(parent)
输出：

<div class="wrap">
<div id="container">
<ul class="list">
<li class="item-0">first item</li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
<li class="item-1 active"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a></li>
</ul>
</div>
</div>

View Code

输出结果只保留了 class 为 wrap 的节点

兄弟节点

若是要获取兄弟节点，可使用 siblings（）方法。以上面 TML 为例：

from pyquery import PyQuery as pq
doc =pq(html)
li =doc('.list .item-0.active')
print(li.siblings())
输出：

<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-0">first item</li>
<li class="item-1 active"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a></li>

View Code

首先选择 class为 list 的节点内部 class 为 item-0 和 active 的节点，也就是第三个 li 节点。它的兄弟节点有 4 个，那就是第1、2、4、五个 li 节点。

若是要筛选某个兄弟节点，依然能够向 siblings 方法传入 css 选择器，这样就会从全部兄弟节点中挑选符合条件的节点了：

from pyquery import PyQuery as pq
doc =pq(html)
li =doc('.list .item-0.active')
print(li.siblings(' .active'))
输出：

<li class="item-1 active"><a href="link4.html">fourth item</a></li>

筛选了 class 为 active 的节点。

遍历　　　　

pyquery 选择结果多是多个节点，也多是单个节点。都是PyQuery 类型，并无返回像 Beautiful Soup 那样的列表。　　

对于单个节点来讲，能够直接打印输出，也能够直接转成字符串：

from pyquery import PyQuery as pq
doc = pq(html)
li = doc('.item-0.active')
print(li)
print(str(li))
输出：

<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>

<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>

View Code

对于多个节点的结果，就须要遍从来获取。如，这里把每个 li 节点进行遍历，须要调用 items（）方法：

from pyquery import PyQuery as pq
doc= pq(html)
lis = doc('li').items()
for li in lis:
    print(li,type(li))
输出：

<li class="item-0">first item</li>
 <class 'pyquery.pyquery.PyQuery'>
<li class="item-1"><a href="link2.html">second item</a></li>
 <class 'pyquery.pyquery.PyQuery'>
<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
 <class 'pyquery.pyquery.PyQuery'>
<li class="item-1 active"><a href="link4.html">fourth item</a></li>
 <class 'pyquery.pyquery.PyQuery'>
<li class="item-0"><a href="link5.html">fifth item</a></li>
 <class 'pyquery.pyquery.PyQuery'>

View Code

调用 items（）方法后, 会获得生成器, 遍历, 能够逐个获得 li 节点，也是PyQuery 类型。每一个 li 节点还能够调用前面所说的方法进行选择，如：继续查询子节点，寻找某个祖先节点等。

获取信息　　
- 提取节后，最终目是提取节点所包含的信息。比较重要的信息有两类，一是获取属’性，二是获取文本
- 获取属性
 - 提取到某个 PyQuery 类型的节点后，就能够调用 attr （）方法来获取属性：
```
from pyquery import PyQuery as pq
doc =pq(html)
a=doc('.item-0.active a')
print(a,type(a))
print(a.attr('href'))
输出：
```
 <a href="link3.html">third item</a> <class 'pyquery.pyquery.PyQuery'> link3.html
 
 View Code
 首先选中 class 为 item-0 和 active 的 li 节点内的 a 节点，是 PyQuery 类型。而后调用 attr（）方法。在这个方法中传入属性的名称，就能够获得这个属性值了。
 也能够经过调用 attr 属性来获取属性，用法：
```
print(a.attr.href)
输出：
link3.html
```
 这两种方法的结果彻底同样。
 若是选中的是多个元素，而后调用 attr（）方法：
```
from pyquery import PyQuery as pq
doc = pq(html)
a = doc('a')
print(a,type(a))
print(a.attr('href'))
print(a.attr.href)
输出：
```
 <a href="link2.html">second item</a><a href="link3.html">third item</a><a href="link4.html">fourth item</a><a href="link5.html">fifth item</a> <class 'pyquery.pyquery.PyQuery'> link2.html link2.html
 
 View Code
 选中的 a 节点应该有 4个，并且打印结果也应该是 4 个，可是当咱们调用 attr() 方法时，返回结果却只是第一个。由于，当返回结果包含多个节点时，调用attr（）方法，只会获得第一个节点的属性。
 遇到这种状况，若是想获取全部的 a 节点的属性，就要用到前面的遍历：
```
from pyquery import PyQuery as pq
doc =pq(html)
a= doc('a')
for item in a.items():
 print(item.attr('href'))
输出：
```
 link2.html link3.html link4.html link5.html
 
 View Code
 在进行属性获取时，能够观察返回节点是一个仍是多个，若是是多个，须要遍历才能依次获取每一个节点的属性。
- 获取文本
 - 获取节点后的另外一个主要操做就是获取其内部的文本，此时能够调用 text（）方法来实现：
```
from pyquery import PyQuery as pq
doc =pq(html)
a =doc('.item-0.active a')
print(a)
print(a.text()
输出：
```
 <a href="link3.html">third item</a> third item
 
 View Code
 这里首先选中一个 a 节点，而后调用 text（）方法，就能够获取其内部的文本信息。此时它会忽略掉节点内部包含的全部 HTML ，只返回纯文字内容
 若是想要获取这个节点内部的 HTML 文本，就要用 html（）方法了：
```
from pyquery import PyQuery as pq
doc =pq(html)
li =doc('.item-0.active')
print(li)
print(li.html())
输出：
```
 <li class="item-0 active"><a href="link3.html">third item</a></li> <a href="link3.html">third item</a>
 
 View Code
 这里咱们选中了第三个 li 节点，而后调用了 html（）方法，返回的结果应该是 li 节点内的全部 HTML 文本。
 若是选中的结果是多个节点， text（）或 html（）返回结果各不相同，实例：
```
from pyquery import PyQuery as pq
doc = pq(html)
li =doc('li')
print(li.html())
print(li.text())
print(type(li.text()))
输出：
```
 first item first item second item third item fourth item fifth item <class 'str'>
 
 View Code
 html（）方法返回的是第一个 li 节点的内部 HTML 文本，而 text（）返回全部 li 节点内部的纯文本，中间用个空格分割开，即返回结果是一个字符串。
 注意：若是获得的结果是多个节点，且想要获取每一个节点的内部 HTML 文本，则须要遍历每一个节点。text （）方法不须要遍历就能够获取，它将全部节点取文本以后合并成一个字符串。
节点操做
- pyquery 提供了一系列方法来对节点进行动态修改，如为某个节点添加一个 class，移除某个节点等，例：
- addClass（）和 removeClass（）方法能够动态改变节点的 class 属性。
 - ```
 from pyquery import PyQuery as pq
 doc = pq(html)
 li = doc('.item-0.active')
 print(li)
 li.removeClass('active')
 print(li)
 li.addClass('active')
 print(li)
 输出：
```
 <li class="item-0 active"><a href="link3.html">third item</a></li> <li class="item-0"><a href="link3.html">third item</a></li> <li class="item-0 active"><a href="link3.html">third item</a></li>
 
 View Code
 首先选中了第三个 li 节点，而后调用 removeClass（）方法，将 li 节点的 active 这个 class 移除，后来在调用 addClass（）方法，将 class 添加回来。每执行一次操做，就打印输出当前 li 节点的内容。
- attr()、text() 和 html() 方法对属性进行操做，来改变节点内部的内容。示例:　
 - 若是 attr（）方法只传入第一个参数的属性名，则是获取这个属性值；若是传入第二个参数，能够用来修改属性值。 text（）和 html（）方法若是不传参数，则是获取节点内纯文本和 HTML 文本；若是传人参数，则进行赋值。
 - ```
 html = '''
 <ul class="list">
 <li class="item-0 active"><a href="link3.html">third item</a></li>
 </ul>
 '''
 from pyquery import PyQuery as pq
 doc = pq(html)
 li =doc('.item-0.active')
 print(li)
 li.attr('name','link')
 print(li)
 li.text('changed item')
 print(li)
 li.html('changed item')
 print(li)
 输出：
```
 <li class="item-0 active"><a href="link3.html">third item</a></li> <li class="item-0 active" name="link"><a href="link3.html">third item</a></li> <li class="item-0 active" name="link">changed item</li> <li class="item-0 active" name="link">changed item</li>
 
 View Code
 首先选中 li 节点，而后调用 attr（）方法来修改属性，该方法的第一个参数为属性名，第二个参数为属性值。接着，调用 text（）和 html（）方法来改变节点内部的内容。三次操做后，分别打印输出当前的 li 节点。
 
 调用 attr（）方法后，li 节点多了一个本来不存在的属性 name，其值为 link。接着调用 text（）方法，传人文本以后， li 节点内部的文本全被改成传人的字符串文本了。最后，调用 html() 方法传人 HTML 文本后 li 节点内部又变为传人的 HTML 文本了。
- remove（）
 - ```
 html = '''
 <div class="wrap">
 Hello,World
 This is a paragraph.
 </div>
 '''
 from pyquery import PyQuery as pq
 doc =pq(html)
 wrap = doc('.wrap')
 print(wrap.text())
 输出：
```
 Hello,World This is a paragraph.
 
 View Code
 由于text（）把全部的存文本都提取出来，若是须要提取Hello，world这个字符串，而不须要P节点内部的字符串，可以使用remove.
```
 from pyquery import PyQuery as pq
 doc =pq(html)
 wrap = doc('.wrap')
 wrap.find('p').remove()
 print(wrap.text())
 输出：
 Hello,World
```
 首先选中 p 节点，而后调用了 remove（）方法将其移除，这时 wrap 内部就只剩下 Hello, World 这句话了，再利用 text（）方法提取便可。
 实还有不少节点操做的方法，好比 append（）、 empty（）和 prepend（）等方法， jQuery 的用法彻底一致，详细的用法能够参考官方文档： http://pyquery.readthedocs.io/en/latest/api.html

伪类选择器

CSS 选择器之因此强大，就是它支持多种多样的伪类选择器，如：选择第一个节点、最后一个节点、奇偶数节点、包含某一文本的节点等。示例：

from pyquery import PyQuery as pq
doc = pq(html)
li=doc('li:first-child')
print(li)
li =doc('li:last-child')
print(li)
li=doc('li:nth-child(2)')
print(li)
li=doc('li:gt(2)')
print(li)
li=doc('li:nth-child(2n)')
print(li)
li=doc('li:contains(second)')
print(li)
输出：

<li class="item-0">first item</li>

<li class="item-0"><a href="link5.html">fifth item</a></li>

<li class="item-1"><a href="link2.html">second item</a></li>

<li class="item-1 active"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a></li>

<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-1 active"><a href="link4.html">fourth item</a></li>

<li class="item-1"><a href="link2.html">second item</a></li>

View Code

这里使用 CSS3 的伪类选择器，依次选择了第一个 li 节点、最后一个 li 节点、第二个 li 节点、第三个 li 以后的 li 节点、偶数位置的 li 节点、包含 second 文本的 li 节点。关于 css 选择器的更多用法，能够参考 http://www.w3school.com.cn/css/index.asp。更多内容，能够参考 pyquery 的官方文档： http://pyquery.readthedocs.io