学了那么久的Python,你见过不用写代码的爬虫吗?

今天说一个不用写代码,怎么来抓取数据的方式,这种方式能知足至关部分人群的需求。html

爬数据一般要用程序写一段网络请求代码来获取网页,遇到有些网页是异步加载或者用JS混淆了,又要耗费精力去分析。尤为是不少爬虫选手是非专业选手,写起代码其实挺吃力的,在个人了解来看大部分公司或者爬数据的需求都是一次性的,并且获取数据的量级很小,万或数十万条数据这样的规模,并且是一次性的。这能够不用去开发程序,使用一些工具就能办到,好比Web Scraper工具。web

Web Scraperajax

Web Scraper是一个网页抓取工具,不须要复杂的安装配置,是以Chrome 插件的形式运行在Chrome浏览器上。不用担忧抓取的网页是否异步加载或者有JS混淆之类的,是所见即所得的抓取方式,熟练状况下抓取数据只须要花10-20分钟完成配置就能开始抓取(写代码可能须要数小时乃至数天)。很是适合一次性/短时间/非爬虫专业选手爬数据的需求。浏览器

演示一下,好比咱们要抓这个网站URL下面的商店名称和用户评论。网络

如何安装和配置Web Scraper?异步

1.Chrome浏览器里的插件商店里搜索Web Scraper便可安装,若是你不能访问Chrome插件商店,在猿人学Python公众号回复 Web Scraper ,能够在本地安装Chrome插件,怎么操做就再也不赘述了。工具

2.安装好Web Scraper插件后,打开Chrome浏览器的开发者工具,能看到Web Scraper选项表明安装成功。网站

3.配置抓取规则url

配置也很简单,先科普下,咱们在写程序抓取网页时,一般须要一个入口页面(这个页面一般是一个频道页,列表页之类的),程序抽取入口页面的URL,接着访问这些URL再抽取里面咱们须要的详细信息。插件

好比,要抽取点评网上的私房菜分类下的店名和小店里面的评论。咱们首先须要一个入口页面(即 私房菜频道的URL),抽取该页面里的小店URL,程序访问这些小店URL,再抽取小店里面的店名,评论等信息。

配置Web Scraper也是同样的道理,须要一个入口页面(Start URL),而后配置抽取入口页面的URL规则,配置好后紧接着再配置抽取详细页信息的规则。详细的Web Scraper教程能够查看原文,我在猿人学网站上写了个简单的Web Scraper配置教程。

好比你要抓取点评网私房菜频道里的小店和点评评论。

第一步把私房菜频道的URL当着Start URL。

若是你想翻页的话,检查一下点评网的翻页规则,它的翻页是这样:

第二页

www.dianping.com/shanghai/ch…

第三页

www.dianping.com/shanghai/ch…

就能够把翻页规则写成这样

www.dianping.com/shanghai/ch…

表示从第1页翻到第5页

第二步建立一个抽取入口页面里URL的规则,即抽取小店URL,看gif最直观:

彻底是可视化操做,Type里选择Link,Selector上选择Select,而后鼠标先选几下页面上的小店,自动把抽取小店url的xpath规则就写好了。点击Data preview能够检查和预览抽取规则是否生效。

第三步常见抽取小店详细页信息的规则,好比抽取评论:

熟练的话,10-20分钟就能配置好一个抓取规则,固然更复杂的数据抽取规则你能够看它官网的文档。

www.webscraper.io/documentati…

使用Web Scraper这种抓取方法一次抓取上千条数据不成问题,适用想少许抓取用来数据分析,或者补充抓取数据。固然再配合使用切换代理ip软件的话,也能够作到长时间大量抓取数据用,只是效率没那么高。

总结Web Scraper的优势:

1.能够抓取动态加载的数据,好比经过ajax翻页的数据;

2.抓取的数据能够CSV文件格式导出到本地;

3.抓取须要登陆的数据较方便,由于这个插件是运行在浏览器上的;

4.不用担忧JS/CSS混淆数据;

5.配置简单,可视化配置抽取规则。

相关文章
相关标签/搜索