数据在当今世界意味着金钱。随着向基于app的世界的过渡,数据呈指数增加。然而,大多数数据是非结构化的,所以须要一个过程和方法从数据中提取有用的信息,并将其转换为可理解的和可用的形式。python
数据挖掘或“数据库中的知识发现”是经过人工智能、机器学习、统计和数据库系统发现大数据集中的模式的过程。c++
免费的数据挖掘工具包括从完整的模型开发环境如Knime和Orange,到各类用Java、c++编写的库,最多见的是Python。数据挖掘中一般涉及到四种任务:算法
分类:将熟悉的结构归纳为新数据的任务数据库
聚类:在数据中以某种方式查找组和结构的任务,而不须要在数据中使用已注意的结构。编程
关联规则学习:查找变量之间的关系api
回归:旨在找到一个函数,用最小的错误来模拟数据。网络
下面列出了用于数据挖掘的免费软件工具架构
数据挖掘工具app
1.Rapid Miner框架
Rapid Miner,原名YALE又一个学习环境,是一个用于机器学习和数据挖掘实验的环境,用于研究和实际的数据挖掘任务。毫无疑问,这是世界领先的数据挖掘开源系统。该工具以Java编程语言编写,经过基于模板的框架提供高级分析。
它使得实验能够由大量的可任意嵌套的操做符组成,这些操做符在XML文件中是详细的,而且是由快速的Miner的图形用户界面完成的。最好的是用户不须要编写代码。它已经有许多模板和其余工具,让咱们能够轻松地分析数据。
2. IBM SPSS Modeler
IBM SPSS Modeler工具工做台最适合处理文本分析等大型项目,其可视化界面很是有价值。 它容许您在不编程的状况下生成各类数据挖掘算法。 它也能够用于异常检测、贝叶斯网络、CARMA、Cox回归以及使用多层感知器进行反向传播学习的基本神经网络。
3.Oracle Data Mining
Oracle。 做为“高级分析数据库”选项的一部分,Oracle数据挖掘功能容许其用户发现洞察力,进行预测并利用其Oracle数据。您能够构建模型来发现客户行为目标客户和开发概要文件。
Oracle Data Miner GUI使数据分析师、业务分析师和数据科学家可以使用至关优雅的拖放解决方案处理数据库内的数据。 它还能够为整个企业的自动化、调度和部署建立SQL和PL / SQL脚本。
4. Teradata
Teradata认识到,尽管大数据是使人敬畏的,但若是您实际上并不知道如何分析和使用它,那么它是毫无价值的。 想象一下,有数百万的数据点没有查询的技能。 这就是Teradata所提供的。它们提供数据仓库,大数据和分析以及市场营销应用程序方面的端到端解决方案和服务。
Teradata还提供一系列的服务,包括实施,业务咨询,培训和支持。
5. Framed Data
这是一个彻底管理的解决方案,这意味着你不须要作任何事情,而是坐下来等待看法。 框架数据从企业获取数据,并将其转化为可行的看法和决策。 他们在云中训练、优化和存储产品的电离模型,并经过API提供预测,消除基础架构开销。他们提供了仪表板和情景分析工具,告诉你哪些公司杠杆是驾驶你关心的指标。
6. Kaggle
Kaggle是全球最大的数据科学社区。 公司和研究人员张贴他们的数据,来自世界各地的统计人员和数据挖掘者竞相制做最好的模型。Kaggle是数据科学竞赛的平台。 它帮助您解决难题,招募强大的团队,并扩大您的数据科学人才的力量。
3个步骤的工做 :
上传预测问题
提交
评估和交流
7. Weka
WEKA是一个很是复杂的数据挖掘工具。 它向您展现了数据集、集群、预测建模、可视化等方面的各类关系。您能够应用多种分类器来深刻了解数据。
8. Rattle
Rattle表明R分析工具轻松学习。 它提供数据的统计和可视化汇总,将数据转换为能够轻松建模的表单,从数据中构建无监督模型和监督模型,以图形方式呈现模型的性能,并对新数据集进行评分。
它是一个使用Gnome图形界面在统计语言R编写的免费的开源数据挖掘工具包。 它运行在GNU / Linux,Macintosh OS X和MS / Windows下。
9. KNIME
Konstanz信息采集器是一个用户友好、可理解、全面的开源数据集成、处理、分析和探索平台。它有一个图形用户界面,帮助用户方便地链接节点进行数据处理。
KNIME还经过模块化的数据流水线概念集成了机器学习和数据挖掘的各类组件,并引发了商业智能和财务数据分析的注意。
10. Python
做为一种免费且开放源代码的语言,Python一般与R进行比较,以方便使用。 与R不一样的是,Python的学习曲线每每很短,所以成了传奇。 许多用户发现,他们能够开始构建数据集,并在几分钟内完成极其复杂的亲和力分析。只要您熟悉变量、数据类型、函数、条件和循环等基本编程概念,最多见的业务用例数据可视化就很简单。
11. Orange
Orange是一个以Python语言编写的基于组件的数据挖掘和机器学习软件套件。它是一个开放源码的数据可视化和分析的新手和专家。数据挖掘能够经过可视化编程或Python脚本进行。它还包含了数据分析、不一样的可视化、从散点图、条形图、树、到树图、网络和热图的特征。
12. SAS Data Mining
使用SAS Data Mining商业软件发现数据集模式。 其描述性和预测性建模提供了更好的理解数据的看法。 他们提供了一个易于使用的GUI。 他们拥有自动化的数据处理工具,集群到最终能够找到正确决策的最佳结果。 做为一个商业软件,它还包括可升级处理、自动化、强化算法、建模、数据可视化和勘探等先进工具。
13. Apache Mahout
Apache Mahout是Apache软件基金会(Apache Software Foundation)的一个项目,用于生成主要集中在协做过滤、聚类和分类领域的分布式或其余可伸缩机器学习算法的免费实现。
Apache Mahout主要支持三种用例:建议挖掘采起用户行为,并尝试查找用户可能喜欢的项目。 集群须要 文本文档,并将它们分组为局部相关的文档。 分类从现有的分类文档中学习到特定类别的文档是什么样子,并可以将未标记的文档分配给(但愿)正确的类别。
14. PSPP
PSPP是对采样数据进行统计分析的程序。 它有一个图形用户界面和传统的命令行界面。它用C语言编写,使用GNU科学图书馆的数学例程,并绘制UTILS来生成图表。它是专有程序SPSS(来自IBM)的免费替代品,能够自信地预测接下来会发生什么,以便您能够作出更明智的决策,解决问题并改进结果。
15. jHepWork
jHepWork是一个免费的开放源代码数据分析框架,它是为了使用开放源代码软件包和可理解的用户界面建立一个数据分析环境,并建立一个与商业程序相竞争的工具。
JHepWork显示数据集的交互式2D和3D图,以便更好地分析。 Java中实现了数字科学库和数学函数。 jHepWork基于高级编程语言Jython,但Java编码也可用于调用jHepWork数值库和图形库。
16. R programming Language
为何R是这个名单上免费数据挖掘工具的超级巨星?它是免费的、开源的,而且很容易为那些没有编程经验的人挑选。实际上,有数以千计的库能够集成到R环境中,使其成为一个强大的数据挖掘环境。它是一个免费的软件编程语言和软件环境,用于统计计算和图形。
在数据采矿者中普遍使用R语言进行统计软件和数据分析。近年来,易用性和可扩展性大大提升了R的知名度。
17. Pentaho
Pentaho为数据集成,业务分析和大数据提供了一个全面的平台。 有了这个商业工具,你能够轻松地融合任何来源的数据。 深刻了解您的业务数据,为将来作出更准确的信息驱动决策。
18. Tanagra
TANAGRA是一个用于学术和研究目的的数据挖掘软件。有探索性数据分析,统计学习,机器学习和数据库领域的工具。Tanagra包含一些监督学习,但也包括其余范例,如聚类,因子分析,参数和非参数统计,关联规则,特征选择和构建算法。
19. NLTK
天然语言工具包,是一套用于Python语言的符号和统计天然语言处理(NLP)的库和程序。 它提供了一个语言处理工具库,包括数据挖掘,机器学习,数据报废,情感分析和其余各类语言处理任务。 构建python程序来处理人类语言数据。