【大数据教程】大数据挖掘分析工具集

JS
python

  大数据时代须要大数据挖掘,我习惯把大数据分红四个领域:数据科学、网络科学、空间地理科学和可视化技术。程序员

  最近的主要兴趣在空间地理领域,学习如何获取POI,Polygon,经纬度,空间匹配算法和可视化,一个全新领域有带来诸多大数据分析工具的思考和整合。web

  恰巧看到一篇国外博客列举了大数据领域的分析工具,今天就接着把数据分析主要是大数据挖掘的工具集写下来,顺势俺再总结一下。正则表达式

  我了解和喜欢的大数据挖掘工具主要分红:提取,存储,清洗,挖掘,可视化,分析和集成语言领域。算法

  Part 1spring

  数据存储和管理数据库

  若是你要使用大数据,你须要考虑如何存储它。大数据我的通常玩起来经常是几百兆、或G;固然企业级就可能不是这个侧面了,T或P级,一个好的数据存储提供商应该为您提供一个基础架构,在其上运行全部其余分析工具以及存储和查询数据的地方。编程

  Hadoopjson

  Hadoop已经成为大数据的代名词。它是一个用于在计算机集群上分布式存储大型数据集的开源软件框架。这意味着能够上下扩展数据,而无需担忧硬件问题。Hadoop为任何类型的数据提供大量的存储,巨大的数据处理能力和处理虚拟无限并发任务或做业的能力。Hadoop不适合数据初学者。要真正利用它,真的须要知道Java编程。api

  Cloudera

  Cloudera本质上是一个Hadoop的品牌名称。它们能够帮助企业构建企业数据中心,以便您组织中的人员更好地访问您存储的数据。

  虽然它是开源,Cloudera主要仍是企业解决方案,帮助企业管理他们的Hadoop生态系统。基本上,利用它管理Hadoop不少艰苦的工做。还可提供必定量的数据安全性,若是您存储任何敏感或我的数据,这是很是重要的。

  MongoDB

  MongoDB的是现代,流行的非结构化数据库,但又可视为关系数据库的替代品。它适用于管理常常更改的数据或非结构化或半结构化的数据。

  


  常见应用包括存储移动应用程序的数据,产品目录,实时个性化,内容管理和跨多个系统提供单个视图的应用程序。MongoDB也不适合数据新手,与任何数据库同样,您须要知道如何使用编程语言进行查询。

  Talend

  Talend是另外一个伟大的开源数据库,提供了大量的数据产品。这里咱们专一于他们的主数据管理(MDM-元数据管理)产品,它将实时数据,应用程序和过程集成与嵌入式数据质量和管理相结合。

  


  它是开源的,Talend是彻底免费的,Talend都是一个很好的选择。它能够节省您构建和维护本身的数据管理系统 ——这是一个很是复杂和困难的任务。

  若是你是大数据的新手,数据库可能不是最好的开始。它们相对复杂,而且须要必定量的编码知识来操做(与下面提到的许多其余工具不一样)。

  然而,若是你真的想在大数据中工做,那么知道数据库的基础知识而且可以智能地谈论它们是必须的。咱们须要全面了解大数据的技术,包括数据库和存储的历史,关系数据库和文档数据库之间的差别,大数据的挑战和必要的工具,以及Hadoop的介绍。

  不过从我的玩大数据的角度,我我的推荐:PostgreSQL、MySQL,以及JSON、GeoJSON等数据存储形式,固然我的主要是CSV格式的数据包或数据集。

  特别强调,对于数据库来说重要的是须要掌握SQL查询语言。

  Part 2

  数据清洗

  在您能够真正挖掘所谓大数据并能获取洞察信息建模以前,您须要清理它。拥有或创造一个干净,结构良好的数据集有时是不可能的。数据集能够有各类形状和大小的(有些好,有些不太好!),特别是当你从网络上得到它。下面的数据清洗软件工具将帮助您细化数据并将其重塑为可用的数据集。(部分工具都有特征工程的技术)

  OpenRefine

  OpenRefine(原GoogleRefine)是一个开源工具,专门用于清理杂乱的数据。咱们能够轻松,快速地探索巨大的数据集,即便数据有点非结构化。

  


  就数据软件而言,OpenRefine是很是用户友好的。虽然,良好的数据清洗的原则和基础知识确定有帮助。OpenRefine的好处是它有一个巨大的社区,有不少贡献者意味着软件不断变得愈来愈好。你能够问(很是有帮助和患者)社区的问题,若是你陷入困境。你能够看看他们的Github上库在这里你还能够找到OpenRefine维基。

  DataCleaner

  数据处理是一项长期而艰苦的任务。数据可视化工具只能读取结构良好,“干净”的数据集。DataCleaner为咱们作艰苦的工做,并将凌乱的半结构化数据集转换为全部可视化软件能够读取的干净可读的数据集。

  DataCleaner还提供数据仓库和数据管理服务。该公司提供30天免费试用,而后是每个月订阅费。

  说明:我主要用于清洗的工具是refine。

  Part 3

  数据挖掘

  这里不要与数据提取(后面讨论)混淆,数据挖掘是在数据库中发现洞察,而不是将数据从网页提取到数据库中的过程。数据挖掘的目的是对你手头的数据进行预测、建模和决策。

  RapidMiner

  RapidMiner是预测分析一个奇妙的工具。它是强大的,易于使用,并有一个开源社区背后。甚至能够经过其API将本身的专用算法集成到RapidMiner中。图形界面,这意味着你不须要知道如何代码。

  IBM SPSS Modeler

  在IBM SPSS Modeler中提供了一整套专用于数据挖掘解决方案套件。这包括文本分析,实体分析,决策管理和优化。他们的五个产品提供了一系列先进的算法和技术,包括文本分析,实体分析,决策管理和优化。

  


  SPSS Modeler是一个重型解决方案,很是适合大公司的需求。它能够运行在几乎任何类型的数据库,能够与其余IBM SPSS产品,如SPSS协做与部署服务和SPSS分析服务器集成。

  KNIME

  它也是一个开源的数据挖掘软件,主要推荐理由:1-开源,2-拥有60多个案例,3-有社区和Labs,4-可以集成R和Python等

  


  商业上真正的数据挖掘工具都会融入Oracle、TeraData等数据库产品中。

  Kaggle

  若是你被困在一个数据挖掘问题,或想尝试解决世界上最棘手的问题,Kaggle是世界上最大的数据科学社区。公司和研究人员发布他们的数据和统计人员和来自世界各地的数据挖掘者竞争产生最好的模型。

  我主要用的挖掘软件工具:Modeler和Knime。

  Part 4

  数据分析

  尽管数据挖掘是挖掘先前未知的知识,是一种自下而上的发现知识的过程,也称为KDD。数据分析每每是自上而下的基于理论假设下的探索过程和推断未知。Google Analytics(分析)是关于提出具体问题并在数据中找到答案。能够问关于将来会发生什么的问题!

  Qubole

  Qubole简化,速度和规模与存储在AWS上(亚马逊云计算)、谷歌数据大数据分析工做云计算平台。一旦IT策略到位,任何数量的数据分析人员均可以随着Hive,Spark,BigQuery等众多数据处理引擎的强大功能自由协做“点击查询”

  


  Qubole是一个企业级解决方案,它们提供了一个免费试用。

  BigML

  BigML试图简化机器学习。它们提供了一个强大的机器学习服务,具备易于使用的界面,您能够导入数据并获取预测。您甚至可使用他们的模型进行预测分析。

  


  对模型的良好理解固然有帮助,但不是必要的,若是你想从BigML中得到分析,他们有一个免费版本的工具,容许您建立不到16mb的任务,以及有一个付费计划和虚拟私有云知足企业级的要求。

  Statwing

  Statwing将数据分析提升到一个新的水平,提供从美丽的视觉效果到复杂的分析。它使用起来很简单,你能够在5分钟内开始使用Statwing。

  虽然它不是无偿使用,订价计划是至关优雅。基本套餐是每个月50美圆,您能够随时取消。这容许您使用每一个大小不超过50mb的无限数据集。还有其余企业计划,让您可以上传更大的数据集。

  Part 5

  数据可视化

  数据可视化公司将使您的数据变得生机勃勃。对于任何数据科学家面临的挑战的一部分是从传送的数据的洞察到你的公司的其余部门。对于大多数人来讲,MySQL数据库和电子表格依然会用。但可视化是传达复杂数据洞察的一种明亮而简单的方法。大部分可视化都不须要任何编码!

  Tableau

  Tableau是一个主要专一于商业智能数据可视化工具。您能够建立地图,条形图,散点图等等,而无需编程。他们最近发布了一个Web链接器,容许您链接到数据库或API,从而使您可以在可视化中获取实时数据。

  


  SILK

  silk是一个简单得多的数据可视化和比的Tableau的分析工具。它容许您经过构建交互式地图和图表,只需点击几下鼠标,带来您的数据。Silk还容许您与任意数量的人员进行可视化协做。

  


  像不少这个名单上的可视化的公司,Silk不要求你是一个专家程序员。若是你是新的可视化数据,这是开始,由于他们的地方最新的功能试图无需你作任何事情会自动显示数据。

  CartoDB

  CartoDB是一个地图数据可视化工具,专门制做地图。它们使任何人均可以轻松地可视化位置数据,而无需任何编码。CartoDB能够管理数据文件和类型无数,他们甚至有样本数据集,

  若是你有位置数据,CartoDB绝对值得一看。它可能不是最简单的系统使用,但一旦你获得它的悬念,它是使人难以置信的强大。

  Chartio

  Chartio可让你在浏览器中的数据源相结合,执行查询。您只需点击几下便可建立强大的仪表板。Chartio的视觉查询语言容许任何人从任何地方获取数据,而没必要知道SQL或其余复杂的模型语言。它们还容许您计划PDF报告,以便您能够将PDF文件导出为仪表板并经过电子邮件发送给任何您想要的人。

  


  Chartio的另外一个很酷的事情是,它一般不须要数据仓库。这意味着您将更快地启动和运行,而且您的实施成本将更低,更可预测。

  Plot.ly

  若是你想创建一个图和嵌入程序中Plot.ly是不错的选择。您能够创造惊人的2D和3D图表,全部不须要编程知识。

  


  免费版本容许您建立一个私人图表和无限公共图表,或者您能够升级到企业包以制做无限的私人和公共图表,以及为您提供矢量导出和保存自定义主题的选项。

  DataWrapper数据包

  咱们最终的可视化工具是Datawrapper。它是一个开源工具,在几分钟内建立可嵌入的图表。由于它是开源的,它将不断发展,由于任何人均可以贡献。他们有一个真棒图表库,你能够检查出的那种东西的人都与Datawrapper作。

  


  它有一个免费工具和一个付费选项,付费选项是一个预先设置,自定义的Datawrapper包。

  说明:俺提建议主要用百度的开源产品Echarts,部分考虑D3.js。

  Part 6

  数据集成

  数据集成平台是每一个程序之间的粘合剂。若是你想链接你使用Import.io与Twitter中提取的数据,或者您但愿在Facebook上分享你用的Tableau或丝绸自动进行可视化,下面是集成服务工具。

  Blockspring

  Blockspring是相似在熟悉的如Excel和谷歌sheet的方式。您只需撰写Google Sheet公式,便可链接到整个主机的第三方程序。您能够从电子表格发布社交博客,查看您的关注者关注者,以及链接到AWS,Import.io和Tableau等等。

  


  Blockspring能够无偿使用,但它们也有一个包,容许您建立和共享私有函数,添加自定义标签,以方便搜索和发现,并为您的整个组织一次性设置API令牌。

  Pentaho

  Pentaho提供大数据集成所需的零编码。使用简单的拖放UI,您能够集成许多工具与最小的编码。他们还提供嵌入式分析和业务分析服务。

  


  Pentaho是一个企业解决方案。

  Part 7

  数据语言

  虽然今天的挖掘工具变得愈来愈强大和更容易使用,有时学会编程仍是必要的,特别是工程和产品层面。即便你不是一个程序员,理解这些语言如何工做的基础知识将使你更好地了解这些工具备多少功能以及如何最好地使用它们。

  R语言

  R是用于统计计算和图形的语言。若是上面列出的数据挖掘和统计软件不能作你想要的,学习R是好方式。事实上,若是你打算成为一个数据科学家,知道R是必须的。

  它能够在Linux,Windows和MacOS上运行,你能够下载开源R。有一个巨大的统计学家社区,人气很旺。

  Python

  另外一种在数据社区愈来愈受欢迎的语言是Python。建立于20世纪80年代,从Monty Python的Flying Circus命名,它一直在世界排名前十的最流行的编程语言。若是数据收集工具没法获取他们须要的数据,许多记者使用Python编写自定义的爬虫。

  人们喜欢它,由于与英语的类似之处。它使用诸如'if'和'in'这样的词语,你能够很容易地阅读脚本。

  说明:俺主要用Jupyter或Ipython Notebook。

  RegEx

  RegEx或正则表达式是一组能够操做和更改数据的字符。它主要用于与字符串的模式匹配,或字符串匹配。

  XPath

  XPath是一种查询语言,用于从XML文档中选择某些节点。而RegEx操纵和更改数据组成,XPath将提取准备好RegEx的原始数据。

  XPath最经常使用于数据提取。

  说明:若是你须要编写爬虫或者抓取web网页,都须要学习正则表达和xpath,同时学习json数据格式,还要有必定的API接口技术。

相关文章
相关标签/搜索