今天说一个不用写代码,怎么来抓取数据的方式,这种方式能知足至关部分人群的需求。html
爬数据一般要用程序写一段网络请求代码来获取网页,遇到有些网页是异步加载或者用JS混淆了,又要耗费精力去分析。尤为是不少爬虫选手是非专业选手,写起代码其实挺吃力的,在个人了解来看大部分公司或者爬数据的需求都是一次性的,并且获取数据的量级很小,万或数十万条数据这样的规模,并且是一次性的。这能够不用去开发程序,使用一些工具就能办到,好比Web Scraper工具。web
Web Scraperajax
Web Scraper是一个网页抓取工具,不须要复杂的安装配置,是以Chrome 插件的形式运行在Chrome浏览器上。不用担忧抓取的网页是否异步加载或者有JS混淆之类的,是所见即所得的抓取方式,熟练状况下抓取数据只须要花10-20分钟完成配置就能开始抓取(写代码可能须要数小时乃至数天)。很是适合一次性/短时间/非爬虫专业选手爬数据的需求。浏览器
演示一下,好比咱们要抓这个网站URL下面的商店名称和用户评论。网络
如何安装和配置Web Scraper?异步
1.Chrome浏览器里的插件商店里搜索Web Scraper便可安装,若是你不能访问Chrome插件商店,在猿人学Python公众号回复 Web Scraper ,能够在本地安装Chrome插件,怎么操做就再也不赘述了。工具
2.安装好Web Scraper插件后,打开Chrome浏览器的开发者工具,能看到Web Scraper选项表明安装成功。网站
3.配置抓取规则url
配置也很简单,先科普下,咱们在写程序抓取网页时,一般须要一个入口页面(这个页面一般是一个频道页,列表页之类的),程序抽取入口页面的URL,接着访问这些URL再抽取里面咱们须要的详细信息。插件
好比,要抽取点评网上的私房菜分类下的店名和小店里面的评论。咱们首先须要一个入口页面(即 私房菜频道的URL),抽取该页面里的小店URL,程序访问这些小店URL,再抽取小店里面的店名,评论等信息。
配置Web Scraper也是同样的道理,须要一个入口页面(Start URL),而后配置抽取入口页面的URL规则,配置好后紧接着再配置抽取详细页信息的规则。详细的Web Scraper教程能够查看原文,我在猿人学网站上写了个简单的Web Scraper配置教程。
好比你要抓取点评网私房菜频道里的小店和点评评论。
第一步把私房菜频道的URL当着Start URL。
若是你想翻页的话,检查一下点评网的翻页规则,它的翻页是这样:
第二页
第三页
就能够把翻页规则写成这样
表示从第1页翻到第5页
第二步建立一个抽取入口页面里URL的规则,即抽取小店URL,看gif最直观:
彻底是可视化操做,Type里选择Link,Selector上选择Select,而后鼠标先选几下页面上的小店,自动把抽取小店url的xpath规则就写好了。点击Data preview能够检查和预览抽取规则是否生效。
第三步常见抽取小店详细页信息的规则,好比抽取评论:
熟练的话,10-20分钟就能配置好一个抓取规则,固然更复杂的数据抽取规则你能够看它官网的文档。
www.webscraper.io/documentati…
使用Web Scraper这种抓取方法一次抓取上千条数据不成问题,适用想少许抓取用来数据分析,或者补充抓取数据。固然再配合使用切换代理ip软件的话,也能够作到长时间大量抓取数据用,只是效率没那么高。
总结Web Scraper的优势:
1.能够抓取动态加载的数据,好比经过ajax翻页的数据;
2.抓取的数据能够CSV文件格式导出到本地;
3.抓取须要登陆的数据较方便,由于这个插件是运行在浏览器上的;
4.不用担忧JS/CSS混淆数据;
5.配置简单,可视化配置抽取规则。