多线程爬虫1

时间 2019-11-17

标签多线程爬虫栏目 Java 繁體版

原文原文链接

XPath的介绍与配置

•XPath 是一门语言正则表达式

•XPath能够在XML文档中查找信息浏览器

•XPath支持HTML网站

•XPath经过元素和属性进行导航.net

•XPath能够用来提取信息firefox

•XPath比正则表达式厉害插件

•XPath比正则表达式简单xml

•安装lxml库ip

•from lxml import etree文档

•Selector = etree.HTML(网页源代码)get

•Selector.xpath(一段神奇的符号)

//与安装requests 相同，能够经过pip安装，也能够直接下载后，放到Lib文件夹中

一、XPath与HTML结构

•树状结构

•逐层展开

•逐层定位

•寻找独立节点

二、获取网页元素的XPath

手动分析法

浏览器分析法

//Firefox须要安装插件

从firefox的官方网站上下载firebug和xpathchecker这两个插件，安装步骤安装就能够了。

firefox插件地址

和

安装好后，进入审查元素。到想看的地方右击，会有ViewXPath

点击就是XPath了

•//定位根节点

•/往下层寻找

•提取文本内容：/text()

•提取属性内容: /@xxxx