只有数据最懂公司的痛点,指导企业决策走向算法
在2018中国大数据高峰论坛上,数澜科技CEO风剑分享了对数据资产化的理解、大数据平台的建设、大数据落地过程当中的挑战,以及数据应用在将来的机遇与挑战。具体全文摘录以下:架构
“数据资产化是数澜一直秉持的概念并持续在作的事情”。app
风剑曾经在负责阿里巴巴集团大数据业务的时候,见过不少应用场景。他以为目前大多数的人对数据的认知并不够,也不能理解数据从哪里来,有怎样的价值,以及对将来业务的支撑在哪里?ide
举一个例子,若是咱们是一个手机加工厂,咱们拥有各个领域和类型的数据,且天天都在产出数据,但除了产出数据外,企业还但愿数据可以直接做用于业务领域,优化业务效果。这就是认知上的差别,即数据到底能带来什么价值,把原始的数据,变成业务上可以使用的数据的过程就是数据资产化。oop
世界上全部的资产,只有数据资产是越用越有价值的。由于它的产生和业务之间是若即若离的关系,若是你不使用它,它就会变成了一堆数字,若是你常用它,那它就愈来愈有价值。大数据
咱们本身在实践过程中有两个关键的技术点:第一点是将数据打通整合。不少家企业都有不一样厂家提供的几十套业务系统,怎么把这些数据,包括邮件、视频、语音等给链接、打通是目前整个行业都在解决的问题。优化
第二点是在数据打通以后把这些数据真正有效的组成业务上可以看见的、可识别的、可以使用的数据,这是整个行业都在面临的特别大的挑战。操作系统
咱们把从数据打通到数据组织到数据标签化,再到数据内部体系化的过程叫数据资产化。视频
若是从另外一个角度举一个有关数据资产化的例子,就能够了解到平台是如何搭建的。blog
如今的shopping mall都有探测技术,当顾客来了就会知道这个顾客是谁,这些数据是颇有价值的,但它们只是数据资产,并非数据资产化。什么才是数据资产化呢?当有人进出的时候,把这样的行为的人、物、场景的关系匹配,拉到历史的维度上,刻画到历史的每个时间节点上,这就是一个基于时空维度产生的事件。在全部的时空维度上这个过程自己就是资产化,它可以带来的结果就是一我的全部的行为都出现了,好比这我的过去常常一我的到shopping mall吃饭、看电影、逛街。突然有一天变成了两我的共同进出,又有一天这我的看完电影去了母婴店,这就是一个场景下的数据资产化的过程。能够看到原生的数据只有三个,可是所带来的数据资产会丰富到几百几千几万个维度,甚至能够刻画出一我的买东西是货比三家仍是犹豫不决的购物心理,从数据视角看起来,价值是巨大无边的,这就是数据资产化。
咱们有一系列的方法论来支撑完成数据资产化,第一点须要把这些数据基于场景、基于时空维度串起来,不然就没有参考价值了。
第二点咱们的大数据平台数栖能够对客户的数据进行加工、开发、建模等,从业务平台层面来说就是数据data-mapping,怎么把mapping好的数据作成profile,就是把探测数据到人的整个维度作一个全系的画像。这就是数据开发。
数据开发的过程不须要改变客户的知识结构,也不须要改变以往的数据存储结构,数栖平台是一个全系的、全维度的数据开发平台。有了这个还不够,还要有大量的数据须要作成标签体系,但怎么能快速生成应用,目前仍是一个须要解决的问题。
好比作营销,或者风控还多是作消费者洞察画像的,咱们把这些叫作数据应用。咱们要作一个用户画像来洞察这些人是坏人仍是好人,利用的就是我的数据资产加数据技术,而后经过算法和模型计算,把这我的画出来,这就是用户画像能力。咱们把这种能力封装进入一个实体,称之为数据引擎。数据加数据技术构成了数据引擎,而后把各类数据引擎呈如今平台里面,客户用的时候特别方便。
以风控引擎举例,风控引擎里有不少场景,好比金融、企业、我的等,数据引擎的应用能够随场景变化而变化,在场景里把数据基于场景特征进行收敛和聚焦,经过标签加数据引擎快速生成应用。
有了开发平台、数据引擎和自有的数据资产以后,还要打造一个数据应用平台和服务平台,这中间包含三项核心能力,包括data-mapping、data-profile、data-service。若是把这三点结合起来,一个数据平台基本上就成型了。咱们整个平台的构建也是依据这个数澜自有的理论,把判断的数据放进来,可以将时空及场景链接起来,基于开发平台把它作成一套profile,再基于一套数澜自有的数据技术把它分割成一些数据服务,不管是to B面向实体店铺或者企业,仍是to C面向消费者,都有合适的应用场景,并最终经过数据平台让数据活起来、用起来,固然这是咱们一直想要实现的理想。
这里的挑战在于认知data-mapping,数据如何作mapping,实际上在于数据的认知。
咱们在作地产行业的数据服务时发现如何利用大数据提高业主的满意度,这是一个很是须要数据认知的过程。
在你们想象中,提高业主满意度特别简单,经过业主有无投诉,有无报修等数据来作分析便可。可是传统的满意度分析中使用的都是单一的数据,为业主满意度提高带来的价值特别有限。地产公司找到咱们时但愿可以用大数据提高业主满意度,那时候咱们提出一个假设,整个地产公司五大服务体,业主、物业公司、供应商、承建商、服务商。若是能把这五大主体之间的关系构建起来,那提高满意度就能够找到切入点了,好比带着全家人看一套房子,一共五我的去看,三我的满意,两我的不满意,到底是满意仍是不满意,这里面是没有量化的标准,也没有对与错之分。可是当我把这五个关系之间的实体构建起来,找到任何一个事件的相关数据,这个事件出发交点在哪里,那咱们就能了解了。这就是咱们把这种事件驱动起来的能力—数据认知的能力。
举个例子:好比我买了一个新房子,我不太满意,我会打电话过去投诉而且报修不少问题。业主会在一个电话中把全部问题都描述清楚,这个过程会产生不少的非结构化的数据,好比业主是否有家人,有小孩,有老婆,有老人等,哪一个水龙头漏水、进而关联水龙头是谁生产的、谁服务的、物业公司是谁、服务周期、供货周期、服务质量等,把全部的数据都串起来之后就会知道这是一个批量问题,仍是个性化问题。
再举个例子,好比业主说“你必须把马桶给我往左移五公分”,物业公司就会说这个房子是精装修交付的,全部的楼层,甚至整个小区都是这样的。但业主为何要移呢?他会说“我小孩的浴盆放不进去,你说要不要移?”物业可能会说那我给你移,可是这个工程特别巨大,这里面给出的信息就是他有小孩,要放一个浴盆给小孩洗澡,这才是问题产生的根结所在。数据要被深度的、多维的洞察,才能逼近事实本质,光靠采样分析是发现不了这样的问题。
我把这种能力称之为基于事件的mapping能力,大量的数据常常都是这样。不断地移动每个时间节点的事件,对到这个时间轴上而后抽取这类事件的共性数据,咱们把这种方法,总结称为时光倒流理论。
不少企业面临着不知道本身的数据价值在哪里,以及数据怎么用的问题。这是数据的产品化应用问题,不少企业会想固然的作出来一个产品而后告诉客户这个产品能够解决哪些痛点。我跟数澜的员工讲,咱们任何人跟客户谈,尽可能不要给客户讲咱们的产品能解他的业务痛点,由于咱们不懂他的业务。地产行业客户作了几十年,他们业务的痛点不是咱们能够很快了解的。可是数据能够,数据最能懂公司的痛点,甚至判断公司后续的决策方向。
就像我前面举的例子,在作地产领域的时候,我把它们的投诉、工单信息打通以后,咱们能够作到用大数据提高业主的满意度,结果客户发现本身还能够作好多事情,好比资金管理,供应商能力管理,服务商管理等。业主满意不满意,只有数据可以知道,咱们把这个过程叫基于数据资产化的场景化驱动。咱们喜欢跟客户讲道理告诉他我不懂你的业务,可是你的数据能懂你的业务,若是你给我机会让我把你的数据资产化,你基于这个数据资产来作数据业务的时候你会发现他的发挥的价值会很是高。
咱们先倒过来以客户的业务作牵引,把客户的数据所有资产化交付给客户来知足客户的业务场景。这种应用特别普遍,我举一个标签提示的数据资产给到他,他能够作无数的数据资产应用来分析这个店铺的流量都去了哪里,它对个人贡献有多大,哪一些作资产,哪一些作客户分析,其实这里仍是一个认知的问题。
我估计在将来两到三年内,就是国内大部分大数据应用的最大障碍就是对数据的认知和场景化的认知问题。
数澜目前仍是会倾向于传统公司,由于传统公司作了几十年、上百年后,他们很清楚本身短板在哪里,应该付出什么。咱们作客群的时候只作传统公司,地产,汽车,零售、化工,咱们都有涉及。
在数据时代的浪口,有不少的传统公司遇上来了。互联网时代不少东西他们已经完全错过了,大数据时代它们不但愿再错过数据时代。不聚焦的公司初期能够能还能够,但到后面就会丧失竞争力。咱们目前主要聚焦在零售和地产,可是也许明年咱们的金融事业部就会成立。
最近跟不少人讨论过这个话题,咱们是这样理解的,咱们如今会比较谨慎的提大数据,咱们把这个时代叫数据时代。在IT时代的时候,IBM也好、Oracle也好,那个年代全部的核心都是围绕需求来驱动的,可是数据时代是以场景为驱动的。
判断一家公司是否是大数据公司就一个标准,你提供的产品是需求驱动仍是场景驱动,若是卖一个成熟的产品那就是典型的需求驱动,只能知足客户的一部分需求。可是数据时代的到来就特别奇怪,它恰恰就是以场景做为驱动的,你的数据产品能不能给我提供支撑,咱们选择的时候也比较谨慎,咱们这两天讨论的有一个结论就是在数据时代的初期阶段咨询服务是特别重要的环节,就是一套理论一套方法论不断地总结、讨论,不断地告诉他应该这样作,才可能慢慢地往数据操做系统层面走。
咱们认为在将来的两到三年可能会出现一个拐点,不少参考都是大数据咨询业务占优点,业务产品不管作得多好,都是单点业务之外的,包括AI的产品,风控产品作到极致。更大范围仍是咨询为主,在将来的两到三年。咱们有3331计划,在将来的三到五年以内有一大波具备初级,就是通用型的数据产品会出来,它可能以拐点方式来驱动数据的应用,可是不知道这种数据是怎么样的,咱们也一直在探索这个数据形态。
关于风剑
数澜科技创始人、董事长兼CEO,顶尖数据应用科学家、国际领先大数据理念的倡导者、国内大数据应用实践的先行者。
甘云锋(风剑),中国国籍,数澜科技创始人、董事长兼CEO。曾在华为、金蝶、阿里巴巴担任过数据架构师、数据科学家、数据业务负责人等职位。2012年即开始负责建立阿里集团最核心的数据互联技术(ID-MAPPING)、数据资产体系(TCIF)、数据价值营销系统(DMP)、城市智慧大脑(AI项目)等;沉淀国际领先的大数据思想及前沿技术研究,奠基大数据应用建设的基础理论构架,并在此基础上构建了国内首个较为系统全面的大数据应用平台; 2015年即做为国内首批将大数据理念思想及大数据技术能力灵活应用到各专业领域特别是传统行业的大数据应用实践者,得到超过20多个行业领域客户及资本市场的承认和青睐。
想要深刻了解大数据的小伙伴能够加入数澜社区唷,这里有最全的数据中台/可视化/Hadoop等相关文章~