Orange——开源机器学习交互式数据分析工具

Orange为新手和专家提供开源机器学习和数据可视化。使用大型工具箱交互式数据分析工做流程。git

交互式数据可视化


Orange的所有内容都是关于数据可视化,帮助发现隐藏的数据模式,提供数据分析过程背后的直觉或支持数据科学家与领域专家之间的交流。可视化窗口小部件包括散点图,箱形图和直方图,以及特定于模型的可视化,例如树状图,轮廓图和树可视化,仅举几例。许多其余可视化功能可用于附加组件,包括网络,词云,地理地图等的可视化。github

咱们注意使橙色可视化交互:您能够从散点图,树中的节点,树状图中的分支中选择数据点。任何这样的交互都会指示可视化来发出与所选部分可视化对应的数据子集。考虑下面的散点图和分类树的组合。散点图显示全部数据,但突出显示与分类树中选定节点对应的数据子集。编程

在树中选择的数据在散点图中突出显示

丰富的可视化

橙色包括许多标准的可视化。散点图很是适合可视化一对属性之间的相关性,用于显示基本统计数据的框图,用于提供整个数据集概述的热图,以及用于绘制多维数据的MDS等投影图。网络

Orange中的一些基本可视化

除了数据挖掘套件中的可视化以外,Orange还包含一些其余软件包中可能没有的额外功能。其中包括用于分析聚类结果的轮廓图的小部件,用于发现特征交互的马赛克和Sieve图以及用于分类树和森林的毕达哥拉斯树可视化。并发

一些不那么标准的可视化

探索性数据分析

交互式可视化支持探索性数据分析。能够直接从图表,图表和数据表中选择有趣的数据子集,并将它们挖掘到下游的小部件中。例如,从层次聚类树状图中选择一个聚类并将其映射到MDS图中的二维数据表示。或者检查数据表中的值。或者观察其特征值在箱形图中的传播。一次打开全部这些窗口,看看选择中的更改如何影响其余小部件。或者,又例如,在数据集上交叉验证逻辑回归并将一些错误分类映射到二维投影。将Orange变成一种工具很容易,即便领域专家缺少对基础统计数据或机器学习的看法,领域专家也能够探索他们的数据。机器学习

选定的错误分类在散点图中突出显示

智能可视化

有时候有太多的选择。好比说,当数据具备许多特征时,咱们应该在散点图中将哪些特征对形象化以提供大多数信息?智能可视化来拯救!在Orange的散点图中,这称为分数图。当提供课程信息时,Score Plots会找到具备最佳课程分类的投影。考虑棕色选择的数据集(带有橙色)及其79个功能。有3,081(79 * 78/2)个不一样的特征对,手动检查它们的方式太多,但只有少数特征组合会产生很好的散点图。分数图找到他们所有,并容许咱们浏览它们。工具

散点图可视化的排名

报告

最后,咱们只需单击一下便可将关于模型的最重要的可视化,统计数据和信息归入报告。Orange包含巧妙的报告,您能够直接从报告中访问每一个窗口小部件和可视化的工做流历史记录。学习

报告能够包括来自数据分析工做流程的可视化

可视化编程


对于初学者以及专家型数据科学家来讲,Orange是一款出色的数据挖掘工具。因为其用户界面,用户能够专一于数据分析而不是费力的编码,从而简化复杂数据分析流水线的构建。网站

基于组件的数据挖掘

在Orange中,数据分析是经过将组件堆叠到工做流中完成的。每一个组件(称为小部件)都嵌入了一些数据检索,预处理,可视化,建模或评估任务。在工做流中组合不一样的小部件可让您随时构建全面的数据分析模式。有了一个大型的小部件库,你不会被选中。其余小部件可经过附加组件得到,并容许进行更专一和面向主题的研究。编码

数据分析工做流程

交互式数据探索

橙色的小部件相互沟通。他们接收有关输入的数据并发送过滤或处理的数据,模型或小部件在输出中执行的任何操做。比方说,从一个File小部件开始,它读取数据并将其输出链接到另外一个小部件,例如数据表,而且您有一个正常工做的工做流程。改变一个小部件的任何变化,这些变化即时经过下游工做流传播。更改File小部件中的数据文件将触发全部下游小部件中的响应。若是这些小部件是开放的,而且您能够当即看到该数据中的任何更改的结果,交互式可视化中的方法或选择的参数,那么这很是有趣。例如,在下面的简单工做流程中,在电子表格中选择数据传播到散点图时,

表中选择的数据在散点图中突出显示

经过选择合适的小部件及其链接,很容易为各类数据分析任务构建复杂的工做流程。

智能的工做流设计界面

即便是彻底新手,橙色也很容易使用。从File小部件开始,Orange将自动建议能够链接到它的下一个小部件。例如,Orange知道在设置Distances小部件后,您可能须要Hierarchical Clustering。小部件中的全部其余默认设置也能够进行简单分析,即便不了解统计信息,机器学习或探索性数据挖掘的大量状况。

橙色只能链接兼容信号通道的小部件

 

 

界面概览


在“文件”小部件中加载和编辑您的数据。

 

分类器的交叉验证和评分。

 

在散点图中的数据选择在箱形图中可视化。

 

交互式梯度降低。

 

数据能够包含对图像的引用。

 

绘制一个二维数据集。

 

操做特征(ROC)分析。

 

预测文本类别。

 

用分类树进行探索性分析。

 

在机器学习的过程当中,少不了须要准备几个称手的工具,以辅助分析时用,开源且这么易用的工具不常见,推荐给你们。 

官方网站:https://orange.biolab.si/
开源地址:https://github.com/biolab/orange

相关文章
相关标签/搜索