3款你必须知道的爬虫工具

做者:xiaoyuajax

微信公众号:Python数据科学json

知乎:数据分析师浏览器


本篇博主将和你们分享几个很是有用的爬虫小工具,这些小工具在实际的爬虫的开发中会大大减小你的时间成本,并同时提升你的工做效率,真的是很是实用的工具。服务器

这些工具实际上是Google上的插件,一些扩展程序,而且经博主亲测,无任何问题。最后的最后,博主将提供小工具的获取方式。微信

好了,话很少说,咱们来介绍一下。iphone

JSON-handle

1. 解读:

咱们前面提到过,当客户端向服务器端提出<ajax>异步请求(好比 <xhr>)时,会在响应里返回 <json> 格式的数据。异步

在开发者工具中,咱们会看到 <json> 格式数据的可视化效果不好,就是一段冗长的字符串,难以直接看出关键信息。工具

那么为了直接有效的找到关键信息,<JSON-handle>工具会将繁杂的 <json> 格式数据变成简单清晰的树状图,极大的提升可视化效果。post

2. 使用说明:

方法很简单,若是你已经安装好了小工具,点开图标弹出框框,把<json>数据复制进去便可。学习

固然,你也能够把从任意地方拿来的<json>数据放进去,不局限于浏览器异步响应。

3. 实例:

就以<天猫网站>为例,随便找出一个异步的请求,response是下面这样的。

jsonp_46336857({"201509290":{"data":[{"_pos_":1,"entityType":"13","acm":"201509290.1003.1.1286473","title":"【抢券减400】Apple/苹果iPhone X 全网通4G智能手机苹果10 苹果X","typ.......
复制代码

把代码放进框框里,点击OK,就变成下面这样了数(据比较长,只截取一部分)。

User-Agent Switcher

1. 解读:

上篇解读爬虫中HTTP的秘密(基础篇)咱们介绍了请求头,而这个工具就是针对请求头中的User-Agent字段的。它的做用是能够随意更换浏览器的User-Agent。

好比,你用Chrome浏览器浏览网页,浏览器默认身份Chrome,可是你能够经过这个工具更换成其它任何身份。

这个最大的好处就是能够直接更换成手机身份浏览网页,而没必要用开发者工具来回切换。

2. 使用说明:

使用Chrome浏览器安装插件,点开图标,选择你须要的身份便可。

3. 实例:

(默认Chrome浏览器是这样的)

(变换为IOS-iphone6)

Xpath-Helper

1. 解读:

针对Xpath解析方法,Xpath-Helper可提供当前网页指定Xpath语句的查询结果。

2. 使用说明:

点开图标,出现黑色框框。

  • QUERY:Xpath语句
  • RESULTS:查询结果

3. 实例:

1.假设目标为二维码下的<百度>二字

2.开发者工具找到源码相应位置,右键copy xpath

3.复制到QUERY里面,结果自动出来

Xpath-Helper小工具安装后须要重启Chrome方可以使用,请你们注意一下这个坑。

安装方法

  1. 下载Chrome浏览器
  2. 下载小工具插件
  3. 打开Chrome更多工具—>扩展程序
  4. 拖动小工具插件程序<.crx>到扩展程序里
  5. 安装

安装完成后,右上角会有三个小图标:

获取方式

获取方式很简单,关注公众号<Python数据科学>,发送<爬虫小工具>,便可获得下载连接和密码。 但愿对你们有帮助,更多精彩敬请期待!


关注微信公众号Python数据科学,获取 120G 人工智能 学习资料。

相关文章
相关标签/搜索