在爬虫中,咱们常用xpath来对元素进行定位,xpath定位分为两种,一种是绝对定位,/html/body/div[2]/div[1]/div/div[3]/a[7],另一种是相对定位,好比r'//*[@id ='ul' ]/a[7]' css
一般咱们能够经过开发者工具,复制元素对应的xpath,这种xpath都是绝对定位,方便获取,可是绝对路径太长,若是里面元素被隐藏了或者元素有变更的话,绝对定位就会出错,就会出现定位不到的状况。这个时候用相对定位能够解决这个问题,相对定位更精准,相对定位一般能够和id或者class-name结合使用。html
方法,咱们能够将咱们写的xpath 放到开发者工具里,看是否是能定位到,若是能定位到,说明不是xpath定位的问题。工具
还有的状况是页面几个元素的xpah如出一辙,这个咱们能够用下标解决,举例spa
如今咱们要抓取的是华东地区这个标签,可是问题是华北中心,华南中心,华东中心的三个标签的xpah是同样的。都是//*[@id="common.query_case_list_DW_CDptCdes"] 。这个时候咱们选择华东中心,能够经过下标定位,既是3d
//*[@id="common.query_case_list_DW_CDptCdes"][3] 这样就能够了。orm
另外看标签是否选中,还有一个小知识点,就是 is_selected(),若是返回true 则表名被选中,若是返回false ,则表名未被选中htm
browser.find_element_by_xpath('//*[@id="report.report_loss_type_DW_HasGds"]').is_selected()
下面的是一位大神总结的:
什么是xpath呢?对象
官方介绍:XPath即为XML路径语言,它是一种用来肯定XML1(标准通用标记语言3的子集)文档中某部分位置的语言。反正小编看这个介绍是云里雾里的,通俗一点讲就是经过元素的路径来查找到这个元素的,至关于经过定位一个对象的坐标,来找到这个对象。blog
1、xpath:属性定位索引
2.因而能够用如下xpath方法定位
2、xpath:其它属性
1.若是一个元素id、name、class属性都没有,这时候也能够经过其它属性定位到
3、xpath:标签
1.有时候同一个属性,同名的比较多,这时候能够经过标签筛选下,定位更准一点
2.若是不想制定标签名称,能够用*号表示任意标签
3.若是想制定具体某个标签,就能够直接写标签名称
4、xpath:层级
1.若是一个元素,它的属性不是很明显,没法直接定位到,这时候咱们能够先找它老爸(父元素)
2.找到它老爸后,再找下个层级就能定位到了
3.如上图所示,要定位的是input这个标签,它的老爸的id=s_kw_wrap.
4.要是它老爸的属性也不是很明显,就找它爷爷id=form
5.因而就能够经过层级关系定位到
5、xpath:索引
1.若是一个元素它的兄弟元素跟它的标签同样,这时候没法经过层级定位到。由于都是一个父亲生的,多胞胎兄弟。
2.虽然双胞胎兄弟很难识别,可是出生是有前后的,因而能够经过它在家里的排行老几定位到。
3.以下图三胞胎兄弟
4.用xpath定位老大、老二和老三(这里索引是从1开始算起的,跟Python的索引不同)
6、xpath:逻辑运算
1.xpath还有一个比较强的功能,是能够多个属性逻辑运算的,能够支持与(and)、或(or)、非(not)
2.通常用的比较多的是and运算,同时知足两个属性
7、xpath:模糊匹配
1.xpath还有一个很是强大的功能,模糊匹配
2.掌握了模糊匹配功能,基本上没有定位不到的
3.好比我要定位百度页面的超连接“hao123”,在上一篇中讲过能够经过by_link,也能够经过by_partial_link,模糊匹配定位到。固然xpath也能够有一样的功能,而且更为强大。
能够把xpath当作是元素定位界的屠龙刀。武林至尊,宝刀xpath,css不出,谁与争锋?下节课将亮出倚天剑css定位。
原文连接https://www.cnblogs.com/wanghaihong200/p/8461770.html