工业大数据的理论体系

时间 2019-12-18

标签工业数据理论体系繁體版

原文原文链接

　　工业大数据的理论体系算法

　　一、工业大数据的意义：从DIKW体系的角度看学习

　　我用DIKW体系的观点解释大数据的意义：将人类带入智能社会。大数据够把人类带入智能社会的核心优点在于“知识”的生产和应用。咱们把智能理解为“感知、决策和执行”的统一，则大数据能很好地提供“感知”和“决策”所须要的知识。大数据

　　二、大数据与业务系统的关系：概念。设计

　　不少人把数据和大数据混淆起来。一个典型的表现是把业务系统（如MES、ERP）的功能说成大数据的应用，彷佛只要数据都是大数据。在我看来业务系统看数据，侧重数据用于完成特定业务的一次利用。数据做为信息的载体，数据的生命周期相对较短。blog

　　大数据则侧重数据的二次利用或重复利用，数据主要做为知识的载体。固然：大数据主要由业务系统（如ERP、MES）产生、积累，并最终服务于业务系统。生命周期

　　三、大数据的特征：甲乙方的视角深度学习

　　甲乙双方看待大数据的特征是不一样的。数据分析

　　其中，甲方就是但愿经过大数据创造价值、改进业务的业务人员，而乙方是帮助甲方实现目标的IT技术人员。数学

　　大数据的甲方视角：有三个特征（样本=全体等，后面详细展开），都与获取知识相关。而获取了知识才能创造价值。大数据的乙方视角即“4V特征”。这四个特征关注的是IT技术人员数据处理的困难。产品

　　显然，乙方的工做应该服从甲方的业务需求。从这个意义上讲，乙方可能遇到4V涉及的困难、也可能遇不到，视甲方的实际状况而定。我讲的课主要是甲方视角，而IT专业人士讲的课主要是乙方视角。

　　四、大数据与知识获取的可行性（甲方视角、大数据特征）

　　（从甲方看）大数据的价值在于产生知识。人们常常提到的大数据的几个特征（样本=全体、相关非因果、混杂性），均可以归结为便于得到知识。

　　l样本=全体。解决知识的存在性问题。人类的一切知识都来源于历史；若是大数据可以完整地记录历史，就会蕴含知识。这一点强调的是样本分布的完整性。

　　l不拘泥于因果。通常说法的是“相关关系而非因果关系”，而我将其改成“不拘泥于因果”。人类的知识有不少种，一种是说不出来的“默会知识”、一种是说的清楚的知识；而说得清楚的知识又包括理论知识和经验知识。其中，理论知识是讲究因果的；若是有把知识拘泥于因果则是不完备的。因此，“不拘泥于因果”解决了知识完的整性问题。

　　l混杂性。本质是知识的可得到、可验证性，保证知识的质量。得到知识的一个本质要求是区分偶然联系和非偶然联系。混杂性能够用于解决这个问题。

　　换句话说，这三个特色保证了知识的存在性、完整性和可得到性。这就是大数据的意义所在。咱们知道：智能制造须要知识才能造成闭环、互联网可让知识的价值放大。因此，在智能制造、工业互联网的背景下，大数据的价值猛增。

　　五、知识类型的角度：多角度观察

　　我一直认为，大数据的价值在于得到、存储和运用知识的能力。而“知识”能够分类——能够从多个维度来看：

　　l默会知识、经验知识、理论知识。

　　默会知识就是说不清楚、难以变成程序代码的感性知识。例如，从图像中人是一我的、下棋时对“势”的理解，都是感性知识。

　　感性知识以外的经验知识。这些知识说得清楚怎么作，不必定须要说明缘由。如某种方法较好、哪条路走的快等——实际上好就是好了，不必定须要解释。

　　理论知识就是说得清楚缘由、能够解释、甚至可计算的知识。

　　如前所述，大数据的优点在于能够更容易地得到默会和经验知识——这在过去是很难的。过去计算机用到的知识，每每须要人们写成代码——但这只是人们大脑中的一部分知识。单纯依靠理性知识，难以实现智能化。

　　l正向知识（建模得到）、逆向知识（根因分析）。

　　从缘由到结果的知识，我称其为正向知识。数学建模过程就是创建正向知识。从结果到缘由的知识，我称为逆向知识。就是所谓的根因分析。

　　l联系型知识、设计型知识。

　　因果知识、感性知识等体现的都是信息之间的联系。而设计型的知识指的是产品、工艺设计等。设计型知识占用的计算机存储量很大。在大数据时代，设计型知识容易存储、处理了。

　　六、大数据得到知识的途径：承载知识和提炼知识

　　用大数据得到知识有两种方式：一种就是数据自己就承载知识；一种是数据承载的是信息、须要从数据提炼出知识。

　　第一种典型的就是产品设计数据、各类标准、成功案例等。快速响应、个性化定制的前提和手段，就是这种知识的共享。

　　对于这些知识，有时候会面临的困难之一是如何找到它们。而找到这些知识自己就多是须要得到的知识。典型的就是谷歌搜索。AI算法对解决这个问题多是有用的。

　　第二种知识就是前面说的、经过建模或根因分析获得的知识。工业上对知识是有明确需求的、以致于难以达到；但机理倒是相对明确的。我谈的不少方法论，其实就是在这两个方面的。下面还会提到。

　　七、经过大数据得到价值：转型升级才能创造蓝海

　　从某种意义上说，大数据创造价值就是促进知识创造价值。这些知识要用在提升质量、效率，下降成本等具体问题上，才能创造价值。

　　人们遇到的真正困惑，或许是如何找到这些“问题”。这些问题大概能够分红两类：一类是现有业务的痛点；第二类是转型升级之后面临新的要求。

　　对于业务痛点，每每是：“该作的都作了，剩下的每每是难以作的。”因此，难以找到合适的问题。对于这类困惑，大数据只是手段之一。每每要综合运用各类手段，大数据才能给创造价值。

　　对于第二类困惑，每每是业务自己或外部变化引起的。例如，采用了新的生产方式或技术手段、用户对质量要求提升了、数字化水平提升了、企业的业务重心转移了（创新和服务的比重增大了）等等。这些变化，我统称为“转型升级”。对于这类新的问题，大数据方法比较容易发挥做用。

　　数据分析曾经被认为是“没有办法的办法”。我把最近忽然变热的缘由，归结到智能制造相关技术引起的企业转型升级。这时，大数据技术进入了一个蓝海。大数据进入蓝海的缘由，不只是得到知识更方便等缘由，更是知识的放大：把知识变成计算机可执行的代码、实现人机知识的共享，知识在互联网上实现共享，都会让知识的价值倍增。从而让“知识生产”的经济性大大提高。

　　整体上看，转型升级是战略问题，大数据应用是战术问题。战略重点的改变，才能给大数据的应用创造条件。不然，再好的技术均可能成为屠龙之技。

　　八、大数据建模分析的方法论：算法只是细节问题

　　谈到大数据分析与建模，不少人立刻想到各类算法。在我看来，对数据分析与建模问题来讲，算法问题实际上是战术问题——也就是说，还须要有个战略问题，用来决定分析什么问题、分析问题的次序和路径等。CRISP_DM就是这个层面上的逻辑。我还想将其逻辑进一步简化：

　　一、明确业务需求；肯定需求是真实的、一旦分析成功则具备可行性。

　　二、数据分析方法：解决问题的次序和切入点的问题。

　　三、分析问题的具体算法。如回归、决策树、深度学习等。

　　其中，前面两步作得好的话，后面的算法会比较简单。我总以为，学术界把算法看得过重、过分重视算法技巧。技巧易于发论文，但不符合工程逻辑。

　　９、总结

　　人们关注工业大数据的终极目标是创造价值；方向是提高智能化；核心问题是知识的获取和应用。用好大数据的关键搞清楚战略和战术的关系，也就是作什么事情、作事的次序和切入点等问题。单纯从分析方法或数据角度看问题，是看不清楚问题全貌的。