干货 :18个免费的探索性数据分析工具

每一个人都有各自的天赋,发现它们并开始相信咱们本身只是时间的问题。咱们都有局限,可是咱们应该止步不前吗?答案是不。html


当我开始用R编程的时候,我很纠结。有时候不止一我的曾经这么想过。由于我在这一辈子中从未编码过。个人状况就像是一个历来没学过游泳的人在被强行踹进深海后用尽力气让本身不沉下去可是却喝了好多口咸咸的海水。python


如今,当我回过头看,我笑了。你知道为何吗?由于,我本能够选择不须要会编程就可使用的数据分析工具并避免那些痛苦。程序员


数据挖掘是预测建模不可缺乏的一部分。除非你知道过去发生了什么不然你没法作出预测。掌握数据挖掘最重要的技能就是好奇心,它是免费的却不是每一个人都拥有的东西。面试


我写这篇文章是为了帮助大家了解可用于探索性数据分析的各类免费工具。时下,在市场中能够找到很是多的免费且有趣的工具来帮助咱们工做。这些工具不须要你较精确仔细地编写代码,只须要你点点鼠标就能完成工做。算法


无需编程便可用来数据分析的工具/软件数据库


1 Excel / Spreadsheet编程

http://www.openoffice.org/download/windows

不管你正准备步入数据科学领域仍是已经在这个领域小有建树,你会知道过去这么多年以来,excel 一直以来都是数据分析领域不可缺乏的一部分(最经常使用的工具之一)。哪怕是在今天,有很大一部分须要数据分析的项目都依赖与excel去完成。因为来自于社区,辅导教程,免费资源的帮助愈来愈多,学习excel已经变得愈来愈简单。api


excel 基本上支持了最经常使用的数据分析功能:用来概述(总结)数据特征,数据可视化,对数据转型(去除噪音数据)从而获得新的数据集用来分析等。这些工具足够强大到让咱们能够从新从多个方面审视数据。不管你知道有多少其它的数据分析工具,你必定要学会用excel。尽管Microsoft excel这个软件是付费的,但你能够用其替代品,例如open office, google docs!浏览器


2 Trifacta

https://www.trifacta.com/start-wrangling/

Trifacta的Wrangler工具正在挑战传统的数据清理和操做方法。由于excel在数据大小上有限制,但这个工具没有这样的局限,您能够安全地用它处理大数据集。这个工具备使人难以置信的特性,如图表推荐、内置算法、分析洞察力,您可使用这些特性在任什么时候间内生成报告。这是一种智能工具,专一于更快地解决业务问题,从而使咱们在与数据相关的练习中更有效率。


这些开源工具的提供让咱们感到更加自信和支持,世界各地也有优秀的人在为使咱们的生活更好而努力工做。


3 Rapid Miner

https://rapidminer.com/

这一工具做为高级分析的领导者出如今2016Gartner Magic Quadrant。是的,它不只仅是一个数据清理工具。它在创建机器学习模型方面的具备专业性。是的,它包含了咱们常用的全部ML算法。不只仅是GUI,它还对使用Python&R构建模型的人提供了支持。


它以其非凡的能力继续吸引着全世界的人们。最重要的是,它能闪电般的快速水平上提供分析经验。他们的生产线上有几个为大数据、可视化、模型部署而构建的产品,其中一些产品(企业)包括订阅费。简而言之,咱们能够说,它对于任何从数据加载到模型部署的须要执行AI操做的业务,都是一个完备的工具。


4 Rattle GUI

https://cran.r-project.org/bin/windows/base/

若是你试着使用R语言,但却找不到诀窍的状况下,Rattle应该是你的第一选择。这个GUI基于R语言构建,经过在R语言中键入安装包("rattle") ,而后输入库(rattle),而后键入RTACK(),便可启动。所以,要使用Rattle,您必须安装R语言。它也不只仅是数据挖掘工具。Rattle支持各类ML算法,如树算法、支持向量机算法、Booting算法、神经网络算法、生存算法线性模型算法等。


如今它已经被普遍使用。据克拉恩,rattle每个月被安装10000次。它提供了足够的选项来探索、转换和建模数据,只是不多有人点击。然而,它在统计分析方面的选择比SPSS少。可是,SPSS是一个付费工具。


5 Qlikview

http://global.qlik.com/us/landing/go-sm/qlikview/download-qlikview

QlikView是全球商业情报行业更受欢迎的工具之一。这个工具所作的就是得到商业洞察力并以一种极具吸引力的方式将其呈现出来。有了它较先进的可视化功能,你会惊讶于你在处理数据时所获得的控制量。它有一个内置的推荐引擎,能够不时地更新有关较佳可视化的信息。


然而,这不是一个统计软件。QlikView在探索数据、趋势、洞察力方面是难以想象的,但它没法从统计学上证实任何事情。在这种状况下,您可能须要查看其余软件。


6 Weka

https://www.analyticsvidhya.com/learning-paths-data-science-business-analytics-business-intelligence-big-data/weka-gui-learn-machine-learning/

使用Weka的一个优势是它很容易学习。做为一个机器学习工具,它的界面是足够直观的,你能够迅速完成工做。它为数据预处理、分类、回归、聚类、关联规则和可视化提供了选择。您所想到的建模过程当中的大部分步骤均可以使用Weka来完成。它创建在Java之上。


它最初是为瓦卡托大学的研究目的而设计的,但后来被世界各地愈来愈多的人所接受。然而,这么久了我还没看到一个能像R和Python同样热情的weka交流社区。下面列出的教程将帮助您更多。


7 KNIME

https://www.knime.org/knime-analytics-platform

与RapidMiner相似,KNIME提供了一个开放源码的分析数据的平台,之后可使用其余支持KNIME的产品进行部署。该工具在数据融合、可视化和先进的机器学习算法等方面具备丰富的特色。是的,你也可使用这个工具创建模型。虽然,关于这个工具的讨论还不够多,可是考虑到它的设计技术,我认为它很快就会很快就会引发人们的注意。


此外,在他们的网站上有快速培训课程,可让你如今就开始使用这个工具。


8 Orange

http://orange.biolab.si/

这个工具正如它听起来很酷那样,它的目的是产生交互式数据可视化和数据挖掘任务。YouTube上有足够的教程来学习这个工具。它有一个普遍的数据挖掘任务库,包括全部的分类、回归、聚类方法。同时,在数据分析过程当中造成的多功能可视化使咱们可以更紧密地理解这些数据。


要构建任何模型,您将须要建立流程图。这颇有趣,由于它将帮助咱们进一步了解数据挖掘任务的确切过程。


9 Tableau Public

https://public.tableau.com/s/

Tableau是一个数据可视化软件。咱们能够说,Tableau和QlikView是商业智能海洋中最强大的鲨鱼。优点的比较是永无止境的。这是一个让咱们快速探索数据的可视化软件,每一次观察均可使用各类可能的图表。它是一种由本身计算出数据类型、可用的较佳方法等的智能算法。


若是您想实时理解数据,tableau能够完成这个工做。从某种意义上说,tableau赋予了丰富多彩的数据生活,让咱们与他人分享咱们的工做。


10 Data Wrapper

这是一个闪电般的快速可视化软件。下一次,当您的团队中有人被分配到BI工做时,他/她对该作什么毫无头绪的话,能够考虑选择这个软件。可视化桶由线条图、条形图、列图、饼图、叠加条形图和地图组成。所以,这是一个基本的软件,没法与像Tableau和QlikView这样的巨人相提并论。此工具启用浏览器,不须要任何软件安装。


11 Data Science Studio (DSS)

http://www.dataiku.com/dss/trynow/

它是一个旨在链接技术,业务和数据的强大工具。它可分为两部分:编码和非编码。它对任何旨在发展,创建,在网络上部署和扩展模型的组织来讲都是一个完整的软件包。DSS也足够强大去建立智能数据应用程序来解决现实世界的问题。它包含了一些特性,这些特性促进了项目上的团队集成。在全部特性中,最有趣的部分是,您能够在DSS中再现您的工做,由于系统中的每一个操做都是经过集成的GIT存储库进行版本化的。


12 OpenRefine

http://openrefine.org/download.html

它开始于谷歌的精益求精,但彷佛谷歌由于不清楚的缘由而大幅缩减了这个项目。可是,这个工具仍然可用,更名为Open Refine。在众多开放源码的工具中,Open Refine专门研究混乱的数据;为预测建模目的而清理、转换和塑造数据。有趣的是,在在建模过程当中,分析师80%的时间都用于数据清理。不是那么愉快,但这是事实。使用Open Refine进行改进,分析人员不只能够节省时间,还能够将其用于生产工做。


13 Talend

http://openrefine.org/download.html

现在,决策主要是由数据驱动的。管理者和专业人士再也不作基于直觉的决定。他们须要一种能迅速帮助他们的工具。Talend能够帮助他们探索数据并支持他们作出决策。确切地说,它是一种数据协做工具,可以清理、转换和可视化数据。


此外,它还提供了一个有趣的自动化特性,您能够在新的数据集上保存和重作之前的任务。这个特性是独特的,在许多工具中尚未找到。并且,它能自动发现,为用户提供加强数据分析的智能建议。


14 Data Preparator

http://www.datapreparator.com/downloads.html

这个工具创建在Java上,可以帮助咱们进行数据的开发、清理和分析。它包括用于离散化、数字、缩放、属性选择、缺失值、离群值、统计、可视化、平衡、抽样、行选择的各类内置包,以及几个其余任务。它的GUI可以直观简单地理解。一旦你开始使用这个,我相信你不会花不少时间来弄清楚该如何使用。


这个工具的一个独特的优势是,用于分析的数据集不会存储在计算机内存中。这意味着您能够在大型数据集上工做,而不会出现任何速度或内存问题。


15 DataCracker

https://www.datacracker.com/Plans

这是一个专门研究调查数据的数据分析软件。许多公司确实进行了调查,但他们很难对其进行统计分析。调查数据从不清楚。它包含了大量的缺失和不恰当的内容。这个工具减小了咱们的痛苦,加强了咱们处理凌乱数据的经验。该工具的设计使得它能够从全部主要的互联网调查程序(如surveymonkey, survey gizmo等)中加载数据。有几个有助于更好地理解数据的交互功能。


16 Data Applied

http://www.data-applied.com/Web/TryNow/Overview.aspx

这个强大的交互工具被设计用来构建、共享、设计数据分析报告。在大型数据集上建立可视化有时会很麻烦。可是这个工具在使用树状地图可视化大量数据方面是很强大的。与上面全部其余工具同样,它具备数据转换、统计分析、异常检测等功能。总之,它是一个多用途的数据挖掘工具,可以自动从原始数据中提取有价值的知识(信号)。您会惊讶地发现,这种非编程工具在数据分析方面不差于R或Python。


17 Tanagra Project

http://eric.univ-lyon2.fr/~ricco/tanagra/en/tanagra.html

由于老式的UI,你可能不喜欢它,但这个免费的数据挖掘软件是设计出来创建机器学习模型的。Tanagra项目是做为学术研究的免费软件启动的。做为一个开源项目,它为您提供了足够的空间来设计本身的算法和贡献。


除了有监督的学习算法外,它还具备聚类、阶乘分析、参数和非参数统计、关联规则、特征选择和构造等范例。它的一些局限性包括:没法得到普遍的数据源、直接访问数据仓库和数据库、数据清理、交互利用等。


18 H2o

http://www.h2o.ai/download/h2o/choose

H2O是当今分析行业最流行的软件之一。在短短的几年里,该组织成功地在世界各地分析界传播开来。这个开源软件带来了照明快速分析的经验,这是API编程语言的进一步扩展使用。不只是数据分析,并且您能够在任什么时候候创建先进的机器学习模型。基于强劲的社区支持,学习这个工具是不担忧的。


额外奖励

除了上面那些很棒的工具以外,我还发现了一些我认为您可能感兴趣的工具。然而,这些工具并非免费的,但您仍然能够试用它们:

  • Data Kleenr http://chi2innovations.com/datakleenr/

  • Data Ladder http://dataladder.com/

  • Data Cleaner https://datacleaner.org/

  • WinPure http://www.winpure.com/cleanmatch.html


最后说明

一旦您开始使用这些工具(你选择的),你就会明白,了解预测建模的编程并非什么好事。您可使用这些开源工具完成相同的任务。所以,若是你直到如今还对本身缺少非编码感到失望的话,如今是你将你的热情注入到这些工具上的时候了。


我观察到这些工具(其中一些)的限制是缺少社区支持。除了不多的工具,他们中的几个没有一个社区来寻求帮助和建议。不过,值得一试!


关注公众帐号

飞马会


往期福利
关注飞马会公众号,回复对应关键词打包下载学习资料;回复“入群”,加入飞马网AI、大数据、项目经理学习群,和优秀的人一块儿成长!

回复 数字“1”下载从入门到研究,人工智能领域最值得一读的10本资料(附下载)

回复 数字“2”机器学习 & 数据科学必读的经典书籍,内附资料包!

回复 数字“3”走进AI & ML:从基本的统计学到机器学习书单(附PDF下载)

回复 数字“4”了解人工智能,30份书单不容错过(附电子版PDF下载)

回复 数字“5”大数据学习资料下载,新手攻略,数据分析工具、软件使用教程

回复 数字“6”AI人工智能:54份行业重磅报告汇总(附下载)

回复 数字“7”TensorFlow介绍、安装教程、图像识别应用(附安装包/指南)

回复 数字“8”大数据资料全解析(352个案例+大数据交易白皮书+国内外政策汇篇)

回复 数字“9”干货 | 荐读10本大数据书籍(初级/中级/高级)成为大数据专家!

回复 数字“10”麦肯锡160页报告:2030年全球将可能8亿人要被机器抢饭碗

回复 数字“11”50本书籍大礼包:AI人工智能/大数据/Database/Linear Algebra/Python/机器学习/Hadoop

回复 数字“12”小白| Python+Matlab+机器学习+深度神经网络+理论+实践+视频+课件+源码,附下载!

回复 数字“13”大数据技术教程+书籍+Hadoop视频+大数据研报+科普类书籍

回复 数字“14”小白| 机器学习和深度学习必读书籍+机器学习实战视频/PPT+大数据分析书籍推荐!

回复 数字“15”大数据hadoop技术电子书+技术理论+实战+源代码分析+专家分享PPT

回复 数字“16”100G Python从入门到精通!自学必备全套视频教程+python经典书籍!

回复 数字“17”【干货】31篇关于深度学习必读论文汇总(附论文下载地址)

回复 数字“18”526份行业报告+白皮书:AI人工智能、机器人、智能出行、智能家居、物联网、VR/AR、 区块链等(附下载)

回复 数字“19”800G人工智能学习资料:AI电子书+Python语言入门+教程+机器学习等限时免费领取!

回复 数字“20”17张思惟导图,一网打尽机器学习统计基础(附下载)

回复 数字“21”收藏 |7本 Matlab入门经典教程书籍,不可错过!

回复 数字“22”吴恩达新书,教你构建机器学习项目:《Machine Learning Yearning》

回复 数字“23”机器学习:怎样才能作到从入门到不放弃?(内含福利)

回复 数字“24”限时下载 | 132G编程资料:Python、JAVA、C,C++、机器人编程、PLC,入门到精通~

回复 数字“25”限资源 | 177G Python/机器学习/深度学习/算法/TensorFlow等视频,涵盖入门/中级/项目各阶段!

回复 数字“26”人工智能入门书单推荐,学习AI的请收藏好(附PDF下载)

回复 数字“27”资源 | 吴恩达斯坦福CS230深度学习课程全套资料放出(附下载)

回复 数字“28”懂这个技术的程序员被BAT疯抢...(内含资料包)

回复 数字“29”干货 | 28本大数据/数据分析/数据挖掘电子书合集免费下载!

回复 数字“30”领取 | 100+人工智能学习、深度学习、机器学习、大数据、算法等资料,果断收藏!

回复 数字“31”2G谷歌机器学习25讲速成课全集(中文版),限时下载

回复 数字“32”Matlab安装包+教程视频,让你从入门到精通!

回复 数字“33”程序员去阿里面试,没想到过程如此壮烈 (内含资料包)

回复 人工智能下载《FMI人工智能与大数据峰会嘉宾演讲PPT》

回复 AI 江湖下载《十大AI江湖领域》

回复 ML实践下载《机器学习实践经验指导(英文版)》

回复 DL论文下载《深度学习100篇以上论文资料》

回复 算法 下载《数据挖掘十大经典算法》

回复 6.10 下载《6.10饿了么&飞马网项目管理实践PPT》

相关文章
相关标签/搜索