TipDM数据挖掘建模平台是由广东泰迪智能科技股份有限公司自主研发、基于Python引擎、用于数据挖掘建模的开源平台。平台提供数量丰富的数据分析与挖掘建模组件,用户可在没有编程基础的状况下,经过拖拽的方式进行操做,将数据输入输出、数据预处理、挖掘建模、模型评估等环节经过流程化的方式进行链接,帮助用户快速创建数据挖掘工程,提高数据处理的效能。平台的界面如图1所示。python
图1 平台界面图
TipDM数据挖掘建模平台主要有如下几个特色。算法
(1) 平台算法基于Python引擎,用于数据挖掘建模。Python是目前最为流行的用于数据挖掘建模的语言之一,高度契合行业需求。数据库
(2) 用户可在没有Python编程基础的状况下,使用直观的可视化图形界面,经过拖拽的方式构建数据挖掘流程,无需编程。编程
(3) 提供公开可用的数据挖掘示例工程,一键建立,快速运行。支持挖掘流程每一个节点的结果在线预览。提供实时日志查看功能,出现问题快速定位。浏览器
(4) 提供十大类数十种算法组件,包括数据预处理、统计分析、分类、聚类等经常使用数据挖掘算法。同时提供Python脚本与SQL脚本,粘贴代码便可运行。网络
(5) 平台将每一个功能模块封装成接口,接口基于标准RESTful设计,能够经过浏览器在线浏览、测试各个接口,方便用户进行二次开发。函数
平台主要分为模板、数据源、工程和系统组件四个模块。测试
登陆平台后,用户便可看到系统提供的示例工程(模板),如图2所示。大数据
图2 示例工程(模板)
【模板】主要用于经常使用大数据挖掘案例的快速建立和展现。经过【模板】,用户能够建立一个无需导入数据及配置参数就可以快速运行的工程。同时,用户能够将本身搭建的数据挖掘工程生成为模板,显示在【首页】,供其余用户一键建立。网站
【数据源】主要用于数据挖掘工程的数据导入与管理,根据状况用户可选择【CSV文件】或者【SQL数据库】。【CSV文件】支持从本地导入CSV类型的数据,如图3所示;【SQL数据库】支持从DB二、SQL Server、MySQL、Oracle、PostgreSQL等关系型数据库导入数据,如图4所示。
图3 数据来源于CSV文件
图4 数据来源于SQL数据库
数据上传成功后,用户可使用数据分享功能,如图5所示,将搭建工程涉及到的数据分享给其余用户。其余用户可在【共享数据源】内查看到分享给本身的数据,如图6所示,并使用该数据进行分析挖掘。
图5 数据源分享功能
图6 【共享数据源】
【工程】主要用于数据分析与挖掘流程化的建立与管理,如图7所示。经过【工程】,用户能够建立空白工程,进行数据挖掘工程的配置,将数据输入输出、数据预处理、挖掘建模、模型评估等环节经过流程化的方式进行链接,达到数据分析与挖掘的目的。
图7 平台提供的示例工程
【系统组件】主要用于数据分析与挖掘经常使用算法组件的管理。组件包括输入/输出、统计分析、预处理、脚本类组件、聚类、分类、回归、时序模型、模型评估和模型预测,共十大类,如图8所示。
(1) 【输入/输出】提供配置数据挖掘工程的输入和输出组件,包括:输入源、输出源。
(2) 【统计分析】提供对数据总体状况进行统计的经常使用组件,包括:数据探索、纯随机性检验、相关性分析、单样本T检验、正态性检验、双样本T检验、主成分分析、频数统计、全表统计、平稳性检验、因子分析、卡方检验。
(3) 【数据预处理】提供对数据进行清洗的组件,包括:特征构造、表堆叠、记录选择、表链接、新增序列、数据集划分、类型转换、缺失值处理、记录去重、异常值处理、数据标准化、数学类函数、排序、分组聚合、修改列名。
(4) 【脚本】提供一个代码编辑框,用户能够在代码编辑框中粘贴已经写好的程序代码,直接运行,无需再额外配置成组件,包括:Python脚本、SQL脚本。
(5) 【分类】提供经常使用的分类算法组件,包括:CART分类树、ID3分类树、最近邻分类、朴素贝叶斯、支持向量机、逻辑回归、多层感知神经网络。
(6) 【聚类】提供经常使用的聚类算法组件,包括:层次聚类、DBSCAN密度聚类、K-Means聚类。
(7) 【回归】提供经常使用的回归算法组件,包括:CART回归树、线性回归、支持向量回归、最近邻回归、LASSO回归。
(8) 【时间序列】提供经常使用的时间序列算法组件,包括:ARIMA、GM(1,1)、差分。
(9) 【模型评估】提供对经过分类算法或回归算法训练获得的模型进行评价的组件。
(10) 【模型预测】提供对经过分类算法或回归算法训练获得的模型进行预测的组件。
图8 平台提供的系统组件
经过开源TipDM数据挖掘建模平台官网(http://python.tipdm.org),如图9所示,进入Github或码云开源网站,如图10所示,同步平台程序代码到本地,按照说明文档进行配置部署。
图 9 TipDM数据挖掘建模平台官网
图10 平台程序代码(码云)
平台官网提供了数量丰富的不一样行业的解决方案,主要介绍使用平台搭建数据挖掘工程的不一样行业的案例,包含【电子商务】【智能设备】【金融保险】等,如图11所示,用户能够根据步骤提示,动手搭建数据挖掘工程。
图 11 【解决方案】
平台官网还提供了详细的帮助资料,包含【操做文档】【常见问题】【操做视频】,如图12所示,用户能够根据这些资料,轻松入门平台的使用。
图12 【帮助中心】
完整步骤,你们能够
进入http://python.tipdm.org,点击“下载文档”查看操做文档。
登录http://python.tipdm.cn,体验TipDM工程。
联 系 方 式电话:13902464353(施工)交流Q群:197738983