如何利用BeautifulSoup库查找HTML上的内容

点击上方蓝字关注"程序员Bob"呀~css

必定要爱着点什么，恰似草木对光阴的钟情。html

——汪曾祺python

上次小编谈到了对网页信息内容的爬取，那么在具体的编程体系中该如何实现呢？程序员

1.方法介绍web

BeautifulSoup库给咱们提供了一个 find_all方法 ，以下：

<>.find_all(name,attrs,recursive,string,**kwargs)

find_all函数的功能是返回一个列表，存储咱们须要查找的内容。

2.相关参数介绍
编程

第一个参数是name：对HTML中标签名称的检索字符串。swift

好比咱们在http://python123.io/ws/demo.html这个简单的网页中找到与a和b标签相关的内容。微信

首先，打开网页右键找到检查，而后能够看到与a和b标签相关的内容：app

下一步，咱们决定用上面BeautifulSoup库提供的方法开始查找及其准备：框架

引用相关库。
用get方法构造一个请求，获取HTML网页。
将网页对应的内容储存到demo变量中，并对HTML网页进行解析。
随后便使用查找语句对标签的查找。

相关代码以下：

import requestsfrom bs4 import BeautifulSoupr=requests.get("http://python123.io/ws/demo.html")demo=r.textsoup=BeautifulSoup(demo,"html.parser")print(demo)print(soup.find_all('a'))print(soup.find_all(['a','b']))

运行结果以下：

若是咱们要查找的网页是一个较大的网站，所涉及的标签内容不少，那么该如何查找呢？

To：加个for循环，便可打印出全部的标签信息。

相关代码以下：

import requestsfrom bs4 import BeautifulSoupr=requests.get("http://python123.io/ws/demo.html")demo=r.textsoup=BeautifulSoup(demo,"html.parser")for tag in soup.find_all(True):    print(tag.name)

运行结果以下：

第二个参数是attrs:对标签属性值的检索字符串，可标注属性检索。

查找p标签包含course的属性值。
查找id=link1的属性值。

相关代码以下：

import requestsfrom bs4 import BeautifulSoupr=requests.get("http://python123.io/ws/demo.html")demo=r.textsoup=BeautifulSoup(demo,"html.parser")print(soup.find_all('p','course'))#查找p标签包含course的属性值print(soup.find_all(id='link1'))#查找id=link1的属性值

运行结果以下：

第三个参数：recursive：是否对子孙标签所有检索，默认True。

1.对a标签是否进行子孙标签所有检索。

相关代码以下：

import requestsfrom bs4 import BeautifulSoupr=requests.get("http://python123.io/ws/demo.html")demo=r.textsoup=BeautifulSoup(demo,"html.parser")print(soup.find_all('a'))print(soup.find_all('a',recursive=False))#先后对比

运行结果以下：

第四个参数是string：<>...</>中字符串区域的检索字符串。

1.检索字符串Basic Python。

相关代码以下：

import requestsfrom bs4 import BeautifulSoupr=requests.get("http://python123.io/ws/demo.html")demo=r.textsoup=BeautifulSoup(demo,"html.parser")print(soup)print(soup.find_all(string="Basic Python"))#先后对比

运行结果以下：

3.与find_all相关的方法

在之后的Python爬虫中，find_all方法会常常用到，同时，Python也为它提供了一些 简写形式 ，如：

<tag>(...) 等价于 <tag>.find_all(...)soup(...)等价于 soup.find_all(...)

最后，介绍与find_all相关的扩展方法， 其函数内部参数与find_all相同：

<>.find():搜索且只返回一个结果，字符串类型。
<>.find_parents():在先辈节点中搜索，返回列表类型。
<>.find_parent():在先辈节点中返回一个结果，字符串类型。
<>.find_next_siblings():在后续平行节点中搜索，返回列表类型。
<>.find_next_silbling():在后续平行节点中返回一个结果，字符串类型。
<>.find_previous_siblings():在前序平行节点中搜索，返回列表类型。
<>.find_previous_sibling():在前序平行节点中返回一个结果，字符串类型。

To：其上方法区别主要在于检索区域和检索返回次数结果个数的不一样。

Python爬虫系列，未完待续...

为你,千千万万遍.

往期推荐：

小Bob的2020文章系列总结~

2021-02-19

投资理财：基金杂谈

2021-02-08

Python爬虫系列：安装Scrapy框架的那些事

2021-02-03

一键三连，就差你了

本文分享自微信公众号 - 程序员Bob（gh_8a1a1530d0bf）。
若有侵权，请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”，欢迎正在阅读的你也加入，一块儿分享。