数据具备许多形式,散乱无章。 不管咱们谈论的是 缺失数据、非结构化数据, 仍是缺少常规结构的数据, 都须要采用某些方法对数据执行清理, 才能处理数据以改进数据质量。 这个系列教程探索了处理实际数据的重要问题, 以及能够应用的一些方法。算法
这个系列教程分为3个部分:处理散乱数据,从干净的数据集中获取宝贵洞察和可视化数据。编程
第一部分:处理散乱数据。发现为执行验证和处理而清理数据的相关常见问题及其解决方案。您还将找到一个自定义工具,该工具用于执行数据清理和合并数据集以供分析。主要包含如下几个部分:jsp
第二部分:从干净的数据集中获取宝贵洞察。了解 VQ 和 ART 算法。VQ 能够快速高效地对一个数据集进行聚类,而 ART 能够根据该数据集来调节聚类次数。主要包含如下几个部分:编程语言
第三部分:可视化数据。探索可视化数据的一些更有用的应用,以及一些可用来建立这种可视化的方法,包括 R 编程语言、gnuplot 和 Graphviz。主要包含如下几个部分:工具
赶快点击“阅读原文”get 完整文章, 玩转数据作精准洞察!教程