介绍一些比较方便好用的爬虫工具和服务

工具&服务列表

Chrome 扩展

  • Web Scraper:http://webscraper.io/git

  • Data Scraper:https://data-miner.io/github

  • Listly:https://listly.io/web

  • Mercury:https://mercury.postlight.com/算法

框架

  • Scrapy:https://scrapy.org/数据库

  • PySpider:https://github.com/binux/pyspider编程

  • Apify:https://sdk.apify.com/api

商业服务

  • Parsehub:https://www.parsehub.com/框架

  • Dexi.io:https://dexi.io/机器学习

  • Octparse:https://www.octoparse.com/scrapy

  • Content Grabber:http://www.contentgrabber.com/

  • Mozenda:https://www.mozenda.com/

  • ScraperAPI:https://www.scraperapi.com/

  • Diffbot:https://www.diffbot.com/

  • Import.io:https://www.import.io/

  • Embed.ly https://embed.ly/

  • ScrapeStorm https://www.scrapestorm.com/

  • Shenjianshou https://www.shenjian.io/

  • Zaoshu https://zaoshu.io/

下面来对这些工具和服务进行简单的介绍和总结。

Web Scraper

它是一个独立的 Chrome 扩展,安装数目已经到了 20w。它支持点选式的数据抓取,另外支持动态页面渲染,而且专门为 JavaScript、Ajax、下拉拖动、分页功能作了优化,而且带有完整的选择器系统,另外支持数据导出到 CSV 等格式。另外它们还有本身的 Cloud Scraper,支持定时任务、API 式管理、代理切换功能。

图片Web Scraper

官网:https://www.webscraper.io/

Data Scraper

Data Scraper 一样是一个 Chrome 扩展,它能够将单个页面的数据经过点击的方式爬取到 CSV、XSL 文件中。在这个扩展中已经预约义了 5w 多条规则,能够用来爬取将近 1.5w 个热门网站。

不过这个扩展的使用是有限制的,免费版本每月只能爬取 500 个页面,更多则须要付费。image.png

Data Scraper

官网:https://data-miner.io/

Listly

这一样是一个 Chrome 插件,它能够快速地将网页中的数据进行提取,并将其转化为 Excel 表格导出,操做很是便捷。好比获取一个电商商品数据,文章列表数据等,使用它就能够快速完成。另外它也支持单页面和多页面以及父子页面的采集,值得一试。image.png

Listly

官网:https://listly.io/

Mercury

这是一个开源的提供自动化解析的工具,使用 JavaScript 编写,同时还提供了 Chrome 扩展工具。利用它咱们能够完成页面的智能解析,如自动提取文章标题、正文、发布时间等内容。

另外它开放了源代码,放在了 GitHub,咱们能够直接安装使用,使用命令行便可完成页面的智能解析,速度还很是快。image.png

Mercury

官网:https://mercury.postlight.com/

Scrapy

这多是 Python 爬虫学习者使用最多的爬虫框架了,利用这个框架咱们能够快速地完成爬虫的开发。并且框架自己性能卓越、可配置化极强,另外开发者社区十分活跃,而且 Scrapy 具备配套的各类插件,几乎能够实现任何站点的爬取逻辑,强烈推荐。image.png

Scrapy

官网:https://scrapy.org/

PySpider

PySpider 是一个基于 Python 开发的爬虫工具,它带有可视化的管理工具,而且能够经过在线编程的方式完成爬虫的建立和运行。另外它还支持分布式爬取,并支持存储到各类数据库。因为是代码来实现编程,所以其可扩展性仍是很强的,简单易用。image.png

PySpider

GitHub:https://github.com/binux/pyspider

Apify

它是一个基于 Node.js 开发的爬虫库,因为是 JavaScript 编写,所以它对 JavaScript 渲染页面的爬取是彻底支持的,对接了 Puppeteer、Cheerio。另外其可定制化也很是强,支持各类文件格式的导出,而且支持和 Apify Cloud 的对接实现云爬取。image.png

Apify

官网:https://sdk.apify.com/

Parsehub

ParseHub 是一个基于 Web 的抓取客户端工具,支持 JavaScript 渲染、Ajax 爬取、Cookies、Session 等机制,该应用程序能够分析和从网站获取数据并将其转换为有意义的数据。它还可使用机器学习技术识别复杂的文档,并能导出为 JSON、CSV、Google 表格等格式的文件。

Parsehub 支持 Windows,Mac 和 Linux,并且可用做Firefox扩展。另外它还支持一些高级功能,如分页,无限滚动页面,弹出窗口和导航。另外还能够将 ParseHub 中的数据可视化为 Tableau。

固然这个也收费的,免费版本限制为 5 个项目,每次限制爬取 200 页。若是付费订阅能够得到 20 个私有项目,每次抓取 10000 个页面,并且支持高级版的 IP 代理切换等功能。

图片image-20190225162051914

官网:https://www.parsehub.com

Dexi.io

Dexi.io,以前称为 CloudScrape。它是一个爬虫的商业服务,它支持可视化点击抓取,并且配有天然语言解析工具使得解析更为精准,全部的抓取配置都在网页端完成,而且能够经过控制台来完成任务的运行和调度。另外它还提供许多代理 IP,还与第三方记性了集成,包括 Box.net、Google Drive 等工具。

这也是收费的,收费标准版是 119 美刀一个月,支持一个 Worker 和基础服务,另外还有更高级别的服务。不过支持免费试用。

图片Dexi.io

官网:https://dexi.io/

Octparse

也是一个可视化爬虫工具,支持在网页上进行可视化点选,而且也支持常见的 JavaScript 渲染、Ajax 爬取等等,一样是在云端运行和控制,另外提供了代理服务。

免费版支持建立 10 个爬取,可是提供了最基础的服务,若是想要提供更多的服务如代理切换,则须要购买付费版本,标准版是 75 美金一个月。

图片Octparse

官网:https://www.octoparse.com/

Content Grabber

Content Grabber 一样也是一个可视化的爬虫工具,一样支持可视化点选,支持 JavaScript 渲染、Ajax 爬取等功能,另外还有验证码识别等解决方案,并使用 Nohodo 做为 IP 代理。数据支持导出经常使用格式,也支持 PDF 格式导出。

图片Centent Grabber

官网:http://www.contentgrabber.com/

Mozenda

Mozenda 相似,也是基于一个云端爬虫服务,一样支持可视化点选操做。它由两个部分组成,一部分是用来完成数据提取功能,另外一部分是 Web 控制台来运行和控制各个爬虫服务。另外它还提供了 FTP、亚马逊 S三、Dropbox  等的支持。

图片Mozenda

官网:https://www.mozenda.com/

ScraperAPI

这个站点提供了简易的页面渲染服务,站如其名,其爬取结果都是经过 API 来操做的。该站点提供了许多渲染引擎,咱们经过调用提供的 API 并传以不一样的参数就能够完成页面的渲染,相似于 Splash。

图片ScraperAPI

官网:https://www.scraperapi.com/

Diffbot

Diffbot 是一个提供智能化解析的站点。例如一个新闻页面,咱们再也不须要规则便可完成对其中内容的提取,例如标题、正文、发布时间等等。它经过一些机器学习算法、图像识别、天然语言处理等方案综合解析,能够说是目前业界首屈一指的页面智能解析方案提供商。

Diffbot

官网:https://www.diffbot.com/

Import.io

Import.io 能够说不只仅是一个提供爬虫服务的网站了,它提供了从数据爬取、清洗、加工到应用的一套完整解决方案,涉及到零售与制造业、数据爬取与加工、机器学习算法、风控等等方案。

Import.io

官网:https://www.import.io/

Embed.ly

其实 Embed.ly 是提供了自动获取图像,视频,民意调查,幻灯片,音乐,实时视频,表格,GIF,图表等功能的服务,其中和爬虫相关的就是页面解析了。它提供了智能化页面解析方案,相似 Diffbot,能够自动完成页面的解析。

图片Embed.ly

官网:https://embed.ly/

ScrapeStorm

这个网站提供了一个可视化爬虫工具,支持 Mac、Windows、Linux,工具十分强大,支持自动识别翻页、自动识别内容,另外支持 JavaScript 渲染,另外支持模拟登陆爬取等等。

然而我下载下来以后使用了一下,里面竟然是后裔采集器?看来是这个站点盗用了了后裔采集器的源码吧。

图片ScrapeStorm

官网:https://www.scrapestorm.com/

Shenjianshou

神箭手,这能够说是国内作的首屈一指的爬虫平台了,后台的爬虫使用 JavaScript 编写,支持可视化点选、代码编写,另外提供云端爬取,提供了验证码识别、分布式爬取、JavaScript 渲染等功能。

另外神箭手还提供了规则市场、数据标注还有数据 API 服务,,目前还上市了机器学习相关的服务,目前也正朝着智能化发展中。

另外神箭手旗下有一款后裔采集器,就是上文介绍的 ScrapeStorm 所采用的爬取工具,功能很强大,支持智能解析,值得一试。

图片Shenjianshou

官网:https://www.shenjian.io

Bazhuayu

八爪鱼采集器,能够说是国内比较知名的一款采集器了,功能相似后裔采集器,能够经过可视化点选完成爬虫的相关配置,部分功能比后裔采集器更增强大。

另外官方也提供了规则市场,获取规则以快速完成数据的爬取而不用关心爬取的逻辑。

图片Bazhuayu

官网:http://www.bazhuayu.com/

Zaoshu

是一家数据爬取服务提供商,不过目前已经不面向于我的用户,主要是提供企业数据服务,其也提供了可视化点选数据爬取服务,也能够经过一些配置完成复杂页面的采集。

图片Zaoshu

官网:https://zaoshu.io/

相关文章
相关标签/搜索