爬虫入门-巧用Chrome浏览器

前言

巧用chrome浏览器,可以极大的提升我们爬虫的效率。

基本操作

审查元素

这个较为简单,我们右键点击想要定位的元素,再点击检查即可
在这里插入图片描述
在这我就能迅速定位到爱奇艺指数首页中输入框的位置

复制选择器

选中具体的元素,右键-copy-copy selector便是复制CSS选择器
粘贴效果如下
body > div:nth-child(1) > div:nth-child(2) > div > div > div > div.chart_sear.clearfix > div > div > div > div > input
这个
在这里插入图片描述

页面分析

现在我们随便搜一个电视剧,下面来看看我们爬虫常用的一些信息

查看cookie

cookie对于我们维持登录状态非常重要,而chrome就能方便的查看cookie。
在这里插入图片描述

查看XHR(Ajax的核心技术)

Ajax可以避免重复刷新整个页面,为我们请求一些数据,查看XHR便能看到它异步请求的一些数据。如果我们想要爬取的数据就在这当中,那么我们就省去定位元素再取值的麻烦了。
在这里插入图片描述
这里的省份信息就是如此,我把这个请求地址单独拿出来,点进去看一看(双击Name下的地址也能打开)
https://uaa.if.iqiyi.com/video_index/v2/get_province_distribution?album_id=216266201
在这里插入图片描述
省份的信息以规范的json字符串形式返回打印了出来,这就意味着,我们能够直接通过id去获得省份信息。这对于我们爬虫而言是件非常好的事情,因为我们不必去审查元素再单独提取了。
但是实际上,我们想爬大厂的数据,这个XHR没那么容易解析,比如百度指数,data就是我们完全看不懂的数据。
在这里插入图片描述