BeautifulSoup的重要操做

时间 2019-11-07

标签 beautifulsoup 重要繁體版

原文原文链接

0806自我总结

BeautifulSoup

BeautifulSoup相关概念总结:http://www.javashuo.com/article/p-dvrxkzjp-hs.htmlcss

css基础以及选择器基础:http://www.javashuo.com/article/p-fgbqhffs-eu.htmlhtml

css选择器进阶:http://www.javashuo.com/article/p-tocyicjc-er.htmlpython

一.BeautifulSoup的重要操做

解析页面code
- 最经常使用rp_lxml= BeautifulSoup(response.text,'lxml')其余能够转至概念
提取元素xml

主要有4大元素htm
- Tag: HTML 中的一个个标签
- NavigableString:能够遍历的字符串
- BeautifulSoup:BeautifulSoup 对象表示的是一个文档的所有内容.大部分时候,能够把它看成 Tag 对象，是一个特殊的 Tag
- Comment:Comment 对象是一个特殊类型的 NavigableString 对象，其实输出的内容仍然不包括注释符号。
元素操做对象

二.Tap对象相关操做

1.对于tap的选取

1.find

使用re_lxml.find('css选择器')blog

重点只选择第一个出现的文档

2.select

使用re_lxml.select('css选择器')字符串

重点会把知足CSS选择器全部内容都显示出来,输出为列表的形式

3.直接操做

使用re_lxml.标签名.标签名而不是用css选择器

重点只选择第一个出现的

4.find_all

会把知足CSS选择器全部内容都显示出来,输出为列表的形式

可是有几个优势

使用多个指定名字的参数能够同时过滤tag的多个属性

rp_lxml.find_all('属性1','属性2')
要某个标签不要其中某个属性

rp_lxml.find_all('标签名',class_='属性')
定义一个字典参数来搜索包含特殊属性的tag

rp_lxml.find_all(attrs={'属性名':'属性值'})

2.对于tap的操做

1.标签之间的转换

详情至BeautifulSoup概念

2.选取的元素相关操做

tap.text:内容的文本
tap.name:标签名字
tap.attrs:标签的属性
tap..标签p.attrs:标签内标签p的属性
tap.['属性名']:标签的指定属性对应的内容
tap.标签p.['属性名']:标签内标签p的指定属性属性
tap.get('属性名'):标签的指定属性对应的内容
tap.标签p.get('属性名'):标签内标签p的指定属性属性

三.NavigableString对象相关操做

NavigableString.string便可获取标签内部的文字

四.BeautifulSoup对象相关操做

他是一种特殊的Tap全部tap能够的操做他均可以

rp_lxml.attrs为{}

rp_lxml.name为[document]

剩下的能够去尝试不过我的感受没啥意义

五.Comment对象相关操做

我以为吧一个能够用用就是判断他是否是这个数据类型

print(type(未知对象.string))看他是否是comment对象

相关文章

相关标签/搜索

Update误操做

Docker命令大全

Hibernate教程

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公众号

欢迎关注本站公众号,获取更多信息

相关文章

>>更多相关文章<<