学了那么久的Python，你见过不用写代码的爬虫吗？

时间 2019-11-17

原文原文链接

今天说一个不用写代码，怎么来抓取数据的方式，这种方式能知足至关部分人群的需求。html

爬数据一般要用程序写一段网络请求代码来获取网页，遇到有些网页是异步加载或者用JS混淆了，又要耗费精力去分析。尤为是不少爬虫选手是非专业选手，写起代码其实挺吃力的，在个人了解来看大部分公司或者爬数据的需求都是一次性的，并且获取数据的量级很小，万或数十万条数据这样的规模，并且是一次性的。这能够不用去开发程序，使用一些工具就能办到，好比Web Scraper工具。web

Web Scraperajax

Web Scraper是一个网页抓取工具，不须要复杂的安装配置，是以Chrome 插件的形式运行在Chrome浏览器上。不用担忧抓取的网页是否异步加载或者有JS混淆之类的，是所见即所得的抓取方式，熟练状况下抓取数据只须要花10-20分钟完成配置就能开始抓取（写代码可能须要数小时乃至数天）。很是适合一次性/短时间/非爬虫专业选手爬数据的需求。浏览器

演示一下，好比咱们要抓这个网站URL下面的商店名称和用户评论。网络

如何安装和配置Web Scraper？异步

1.Chrome浏览器里的插件商店里搜索Web Scraper便可安装，若是你不能访问Chrome插件商店，在猿人学Python公众号回复 Web Scraper ，能够在本地安装Chrome插件，怎么操做就再也不赘述了。工具

2.安装好Web Scraper插件后，打开Chrome浏览器的开发者工具，能看到Web Scraper选项表明安装成功。网站

3.配置抓取规则url

配置也很简单，先科普下，咱们在写程序抓取网页时，一般须要一个入口页面（这个页面一般是一个频道页，列表页之类的），程序抽取入口页面的URL，接着访问这些URL再抽取里面咱们须要的详细信息。插件

好比，要抽取点评网上的私房菜分类下的店名和小店里面的评论。咱们首先须要一个入口页面（即私房菜频道的URL），抽取该页面里的小店URL，程序访问这些小店URL，再抽取小店里面的店名，评论等信息。

配置Web Scraper也是同样的道理，须要一个入口页面（Start URL），而后配置抽取入口页面的URL规则，配置好后紧接着再配置抽取详细页信息的规则。详细的Web Scraper教程能够查看原文，我在猿人学网站上写了个简单的Web Scraper配置教程。

好比你要抓取点评网私房菜频道里的小店和点评评论。

第一步把私房菜频道的URL当着Start URL。

若是你想翻页的话，检查一下点评网的翻页规则，它的翻页是这样：

第二页

www.dianping.com/shanghai/ch…

第三页

www.dianping.com/shanghai/ch…

就能够把翻页规则写成这样

www.dianping.com/shanghai/ch…

表示从第1页翻到第5页

第二步建立一个抽取入口页面里URL的规则，即抽取小店URL，看gif最直观：

彻底是可视化操做，Type里选择Link，Selector上选择Select，而后鼠标先选几下页面上的小店，自动把抽取小店url的xpath规则就写好了。点击Data preview能够检查和预览抽取规则是否生效。

第三步常见抽取小店详细页信息的规则，好比抽取评论：

熟练的话，10-20分钟就能配置好一个抓取规则，固然更复杂的数据抽取规则你能够看它官网的文档。

www.webscraper.io/documentati…

使用Web Scraper这种抓取方法一次抓取上千条数据不成问题，适用想少许抓取用来数据分析，或者补充抓取数据。固然再配合使用切换代理ip软件的话，也能够作到长时间大量抓取数据用，只是效率没那么高。

总结Web Scraper的优势：

1.能够抓取动态加载的数据，好比经过ajax翻页的数据；

2.抓取的数据能够CSV文件格式导出到本地；

3.抓取须要登陆的数据较方便，由于这个插件是运行在浏览器上的；

4.不用担忧JS/CSS混淆数据；

5.配置简单，可视化配置抽取规则。