•XPath 是一门语言正则表达式
•XPath能够在XML文档中查找信息浏览器
•XPath支持HTML网站
•XPath经过元素和属性进行导航.net
•XPath能够用来提取信息firefox
•XPath比正则表达式厉害插件
•XPath比正则表达式简单xml
•安装lxml库ip
•from lxml import etree文档
•Selector = etree.HTML(网页源代码)get
•Selector.xpath(一段神奇的符号)
//与安装requests 相同,能够经过pip安装,也能够直接下载后,放到Lib文件夹中
一、XPath与HTML结构
•树状结构
•逐层展开
•逐层定位
•寻找独立节点
二、获取网页元素的XPath
手动分析法
浏览器分析法
//Firefox须要安装插件
从firefox的官方网站上下载firebug和xpathchecker这两个插件,安装步骤安装就能够了。
firefox插件地址
https://addons.mozilla.org/en-US/firefox/addon/firepath/
和
https://addons.mozilla.org/en-US/firefox/addon/xpath-checker/
安装好后,进入审查元素。到想看的地方右击,会有ViewXPath
点击就是XPath了
•//定位根节点
•/往下层寻找
•提取文本内容:/text()
•提取属性内容: /@xxxx