多线程爬虫1

XPath的介绍与配置

•XPath 是一门语言正则表达式

•XPath能够在XML文档中查找信息浏览器

•XPath支持HTML网站

•XPath经过元素和属性进行导航.net

•XPath能够用来提取信息firefox

•XPath比正则表达式厉害插件

•XPath比正则表达式简单xml

安装使用XPath

•安装lxml库ip

•from lxml import etree文档

•Selector = etree.HTML(网页源代码)get

•Selector.xpath(一段神奇的符号)

//与安装requests 相同,能够经过pip安装,也能够直接下载后,放到Lib文件夹中

XPath的使用

一、XPath与HTML结构

•树状结构

•逐层展开

•逐层定位

•寻找独立节点

二、获取网页元素的XPath

手动分析法

浏览器分析法

//Firefox须要安装插件

从firefox的官方网站上下载firebug和xpathchecker这两个插件,安装步骤安装就能够了。

firefox插件地址

https://addons.mozilla.org/en-US/firefox/addon/firepath/

https://addons.mozilla.org/en-US/firefox/addon/xpath-checker/

安装好后,进入审查元素。到想看的地方右击,会有ViewXPath

image

点击就是XPath了

image

应用XPath提取内容

•//定位根节点

•/往下层寻找

•提取文本内容:/text()

•提取属性内容: /@xxxx

相关文章
相关标签/搜索