BeautifulSoup相关概念总结
:http://www.javashuo.com/article/p-dvrxkzjp-hs.htmlcss
css基础以及选择器基础
:http://www.javashuo.com/article/p-fgbqhffs-eu.htmlhtml
css选择器进阶
:http://www.javashuo.com/article/p-tocyicjc-er.htmlpython
解析页面code
提取元素xml
主要有4大元素htm
元素操做对象
使用
re_lxml.find('css选择器')blog
重点
只选择第一个出现的文档
使用
re_lxml.select('css选择器')字符串
重点
会把知足CSS选择器全部内容都显示出来,输出为列表的形式
使用
re_lxml.标签名.标签名而不是用css选择器
重点
只选择第一个出现的
会把知足CSS选择器全部内容都显示出来,输出为列表的形式
可是有几个优势
使用多个指定名字的参数能够同时过滤tag的多个属性
rp_lxml.find_all('属性1','属性2')
要某个标签不要其中某个属性
rp_lxml.find_all('标签名',class_='属性')
定义一个字典参数来搜索包含特殊属性的tag
rp_lxml.find_all(attrs={'属性名':'属性值'})
tap.标签p.['属性名']:标签内标签p的指定属性属性
tap.get('属性名'):标签的指定属性对应的内容
tap.标签p.get('属性名'):标签内标签p的指定属性属性
NavigableString.string便可获取标签内部的文字
他是一种特殊的Tap全部tap能够的操做他均可以
rp_lxml.attrs为{}
rp_lxml.name为[document]
剩下的能够去尝试不过我的感受没啥意义
我以为吧一个能够用用就是判断他是否是这个数据类型
print(type(未知对象.string))看他是否是comment对象