BeautifulSoup库整理

时间 2019-11-07

标签 beautifulsoup 整理繁體版

原文原文链接

BeautifulSoup库

一.BeautifulSoup库的下载以及使用

1.下载

pip3 install beautifulsoup4html

2.使用

improt bs4html5

二.BeautifulSoup库解析器

解析器	使用方法	优点	劣势
bs4的HTML解析器	BeautifulSoup(mk,'html.parser')	Python 的内置标准库执行速度适中文档容错能力强	Python 2.7.3 or 3.2.2)前的版本中文档容错能力差
lxml的HTML解析器	BeautifulSoup(mk,'lxml')	速度快文档容错能力强	须要安装C语言库
lxml的XML解析器	BeautifulSoup(mk,'xml')	速度快惟一支持XML的解析器	须要安装C语言库
html5lib解析器	BeautifulSoup(mk,'html5lib')	最好的容错性以浏览器的方式解析文档生成HTML5格式的文档	速度慢

条件 :跨域

bs4的HTML解析器:安装bs4库浏览器
lxml的HTML解析器:pip3 install lxmlcode
lxml的XML解析器:pip3 install lxmlxml
html5lib解析器:pip3 install html5libhtm

三.BeautifulSoup类的5种元素

基本元素	简单说明	详细说明
tag	标签	分别用<>与</>来表示开头和结尾
name	标签的名字	用法:<tag>.name输出为字符串的形式
attributes	标签里的属性	用法:<tag>.attrs输出为字典的形式
navigablestring	标签里的内容	用法:<tag>.string能够跨域多个标签层次
comment	标签里面的注释	一种特殊的comment类型

获取标签方法,解析后的网页.标签的名字,若是同时存在多个标签只取第一个
获取标签的父标签<tag>.parent
<tag>表示标签
当标签为没有属性的时候,咱们得到的是个空字典

四.标签树向下遍历

.contens:子节点列表,不单单包括标签节点,也包括字符串节点例如\n
.children:子节点的迭代器类型也包括字符串节点例如\n
descendants:子孙节点的迭代类型也包括字符串节点例如\n

五.标签树向上遍历

.parent:节点的父亲标签
.parents:节点先辈标签的迭代器类型

注意:若是是html的父标签就是他本身,soup自己也是种特殊的标签的他的父标签是空对象

六.标签树平行遍历

.next_sibling:下一个平行标签
.previous_sibling:上一个平行标签
.next_silbings:迭代器类型,向下全部标签
.previous_silbling:迭代器类型,向上全部标签

注意:必须在同一个父节点下才有平行关系,平行遍历得到的对象不必定是标签,也多是文本,若是上下没来就为空ip

七.prettify使得解析后页面更加好看

解析后的页面文档

prettify():会把解析的网页加上\n的文本文档,能使它打印变得更加好看

相关文章

相关标签/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公众号

欢迎关注本站公众号,获取更多信息

相关文章

>>更多相关文章<<