眼前的困难和问题,极可能是过去没有准备的结果;而如今的失败,每每是过去草率行事的结果。一样,工业大数据浪潮来了,却会发现积累了多年的数据无法用。我总结了一下,大致有三种缘由:html
一、数据对应不上数据结构
围绕同一个对象或过程的数据都有记录,但串不起来。好比,一个产品是某设备生产的。产品信息却没法与设备生产的时间对上。大数据
二、数据结构杂乱htm
围绕特定事件或产品的信息不少,但数据没有被结构化地组织起来,想找的时候却找不到。对象
三、错用分析方法blog
许多传统分析方法其实很是有效,如方差分析、回归分析、决策树。不少人知道这些方法,却只会生搬硬套。硬套不行就责怪方法不行,转而去找些时髦的方法。事件
前两个问题根源是收集数据时指导思想的浮躁:只要把数据都收集上来就好了,觉得数据“全”了就能用。第三个问题的根源则在于对学问的浮躁:不少人觉得本身懂了,用很差就怪基本方法。另外,学术界为了发文章,过分推崇新方法也是致使浮躁的重要诱因。get
由此观之,从事分析工做以前,应复习一下小学老师的教诲:戒骄戒躁。产品