表达式
|
描述
|
---|---|
nodename
|
选取此节点的全部子节点。
|
/
|
从根节点选取。
|
//
|
从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。
|
.
|
选取当前节点。
|
..
|
选取当前节点的父节点。
|
@
|
选取属性。
|
运算符
|
描述
|
实例
|
返回值
|
---|---|---|---|
|
|
计算两个节点集
|
//book | //cd
|
返回全部拥有 book 和 cd 元素的节点集
|
+
|
加法
|
6 + 4
|
10
|
-
|
减法
|
6 - 4
|
2
|
*
|
乘法
|
6 * 4
|
24
|
div
|
除法
|
8 div 4
|
2
|
=
|
等于
|
price=9.80
|
若是 price 是 9.80,则返回 true。
若是 price 是 9.90,则返回 false。
|
!=
|
不等于
|
price!=9.80
|
若是 price 是 9.90,则返回 true。
若是 price 是 9.80,则返回 false。
|
<
|
小于
|
price<9.80
|
若是 price 是 9.00,则返回 true。
若是 price 是 9.90,则返回 false。
|
<=
|
小于或等于
|
price<=9.80
|
若是 price 是 9.00,则返回 true。
若是 price 是 9.90,则返回 false。
|
>
|
大于
|
price>9.80
|
若是 price 是 9.90,则返回 true。
若是 price 是 9.80,则返回 false。
|
>=
|
大于或等于
|
price>=9.80
|
若是 price 是 9.90,则返回 true。
若是 price 是 9.70,则返回 false。
|
or
|
或
|
price=9.80 or price=9.70
|
若是 price 是 9.80,
或者 price 是 9.70,则返回 true。
|
and
|
与
|
price>9.00 and price<9.90
|
若是 price 大于 9.00,
而且 price 小于9.90,则返回 true。
|
mod
|
计算除法的余数
|
5 mod 2
|
1
|
- 获取全部节点 - 获取全部li标签 - //* //li - 获取子节点 - 咱们经过/或//便可查找元素的子节点和子孙节点 - li节点的全部直接a子节点 - //li/a - 获取ul的全部子孙a节点 - //ul//a - 获取父节点属性 - 知道子节点查询父节点 - //div[@class="filter-wrap"]/../@class' - //div[@class="filter-wrap"]/parent::*/@class' - 属性定位 - 找到当前源码中全部class属性为song的div标签 - //div[@class="song"] - 层级&索引定位 - 找到class属性值为tang的div的直系子标签ul下的第二个子标签li下的直系子标签a - //div[@class="tang"]/ul/li[2]/a - 多属性匹配 - 从当前源码中找到href属性为空且class属性为song的全部a标签 - //a[@href="" and @class="song"] - 模糊匹配 - 找到全部class属性值中包含nb的全部div标签 - //div[contains(@class,"so")] - 找到全部class属性值以zb开头的全部div标签 - //div[starts-with(@class,"ta")] - 获取文本 - / 表示获取某个标签下的文本内容 - // 表示获取某个标签下的文本内容和全部子标签下的文本内容 - //div[@class="song"]/p[1]/text() - //div[@class="tang"]//text() - 获取属性 - //div[@class="tang"]//li[2]/a/@href
from lxml import etree xpath解析 - 通用性比较强 - 环境的安装:pip install lxml - 解析原理: - 1.实例化一个etree对象,且将解析的页面源码加载到该对象中 - 2.使用该对象中的xpath方法结合着xpath表达式进行标签订位和数据解析提取 - etree对象的实例化: - 本地加载: tree = etree.parse('filePath') - 网络加载: tree = etree.HTML(page_text) 经常使用的xpath表达式:基于标签的层级实现定位. 返回的永远是一个列表 /:从根标签开始实现层级定位 //:从任意位置实现标签的定位 属性定位:tag[@attrName="attrValue"] 索引定位://div[@class="tang"]/ul/li[5] 索引值是从1开始 取文本: 取得直系文本内容:/text() 取得全部的文本内容://text() 取属性:/@attrName
import requests from lxml import etree url = "https://bj.58.com/shahe/ershoufang/?PGTID=0d30000c-0047-e4b2-f57c-08960a90aab4&ClickID=1" headres = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36' } response = requests.get(url).text # 实列化一个etree对象,加载页面源码数据 tree = etree.HTML(response) # etree对象调用xpath函数,结合xpath表达式进行标签订位和内容捕获 li_list = tree.xpath('//ul[@class="house-list-wrap"]/li') # 返回值由不少个li标签组成的列表 for i in li_list: tetle = i.xpath("./div[2]/h2/a/text()")[0] # 局部调用表达式时必须加点 procr = "".join(i.xpath("./div[3]/p//text()")) # 将价格拼接 print(tetle,procr)