数据智能时代:数据体系建设的实质、思路和方式

二十一世纪,互联网新科技层出不穷。伴随着大数据、云技术以及整个算力的发展,人工智能技术的研究及应用也迅速壮大,在语音、图像和天然语言方面取得了卓越的成绩。更为重要的是,政府也在大力发展数字经济,包括党的十九届四中全会首次增列了“数据”做为生产要素,这也进一步反映了随着经济活动数字化转型的加快,数据对提升生产效率的乘数做用凸显,成为最具时代特征新生产要素的重要变化。个推做为专业的数据智能服务商,于2010年成立至今,在大数据技术的发展过程当中,收获了一些成果,也获得了本身的经验和体会。安全

2019年3月,个推(每日互动,300766.SZ)在创业板上市,主打数据智能。公司在该领域积极布局,并在实践中探索总结了数据沉淀、数据挖掘和数据应用的“三步走”数据智能方法论。关于底层,个推提供了消息推送、用户画像、应用统计、一键认证四种开发者服务,同时沉淀了海量数据;中间层是个推引擎层,经过对数据脱敏、筛选、清洗、整理,并经深度挖掘后建模,自主构建“个推大数据平台”。最上层为数据应用层,提供品牌营销、风控服务、人口空间规划、公共服务等多种大数据服务,增能诸多垂直领域。架构

本文将结合个推实践,主要围绕三个方面进行展开:数据智能时代的特征、企业面临的实际挑战、数据智能体系建设思路。运维

数据智能时代的特征
数据智能时代已经来临,如同《大数据时代》中阐述的那样,咱们发现并印证了大数据对咱们思惟、商业、管理等方面存在着巨大的影响。机器学习

思惟变革工具

在思惟变革方面,咱们认为数据智能时代的特征能够概括为三点:更多、更繁杂、更相关。更多,意味着人们再也不依赖于一小部分数据,而是使用所有数据,并从第三范式向第四范式跃进。布局

那么,第三范式和第四范式的区别是什么呢?以“雾霾造成的缘由”为例进行说明。第三范式的雾霾研究过程是:首先,提出问题。好比说,想了解雾霾是什么?怎么预防?其次,提出理论。根据已有的机理认识,雾霾天气的造成不只与源头、大气化学成分相关,还与气象因素,包括地形、风向、温度、湿度等有关。而参数之多,超过了咱们常规监测的能力范围。学习

为此,咱们只能去除一些看起来不怎么重要的参数,保留一些简单的参数,提出一个理论。而后收集数据、模拟计算,并根据计算结果对理论进行修正。最后获取可信度比较高的结果,对雾霾天气进行预测。大数据

相对应地,第四范式的研究方法是怎样的呢?它的第一个环节与最后一个环节跟第三范式相同,但在中间两个环节二者顺序是相反的,即在第四范式中,咱们要先进行数据收集再造成理论。人工智能

在第一步问题提出后,咱们首先去作的并非建立一个理论模型,而是把全部可能有用的数据收集起来,而后在此基础上经过机器学习的方法,或者说人工智能的方法,找出对于雾霾造成影响较大的因素,进而提出有关理论。最后,进行预测,验证结果。得益于大数据的出现,第三范式才能向第四范式跃进,这也带来了整个思惟方式和方法论的变革。spa

思惟变革的第二个特色是更繁杂,即从精确性向几率性的转变。精确性做为信息缺少时代和模拟时代的产物,要求数据保证质量、减少偏差。而大数据时代,海量的数据使咱们没法一一验证数据的准确性。更多状况是,咱们经过整个数据的分布,找出数据背后的几率性,而后找到有用的数据,剔除没用的数据。

思惟变革的第三个特色是更相关。数据之间不是因果关系,而是相关关系,核心是创建在相关关系分析法上的预测。
总结起来,大数据时代思惟变革的特色能够概括为:

  1. 改变操做方式,使用收集到的全部数据,而不是样本;
  2. 不把精确性做为重心;
  3. 接受混乱和错误的存在;
  4. 侧重于分析相关关系,而不是预测背后的缘由。

商业变革

在商业变革方面,数据智能时代的特色主要有三:一切皆可量化、无限的创新可能、数据的选择价值。

“一切皆可量化”指的是随着数据智能时代的发展,咱们会发现身边全部的东西都在产生数据,也就是说咱们所处的现实世界,与信息世界存在着对应关系。将来,咱们物理世界里的每一种事物都将与数字孪生世界里的一一对应。

数据的真实价值犹如冰山,首要价值只是上面看得见的部分,而背后蕴藏着“无限的创新可能”。数据在完成直接的业务用途以后,看似好像没有用了,可是一旦跟别的行业数据结合,咱们会发现其协同效应很是强,能够创造出巨大的使用价值。也就是说,目前看似没有价值的业务数据或许在之后能发挥出重要做用。所以咱们建议数据较为丰富的企业或者公司,最好能从如今开始,把业务数据经过某种方式予以保存,譬如采用数据湖的方案。

数据的价值是其全部可能用途的总和,面对这些无限可能的潜在用途就像是在选择,这些选择的总和即是数据的价值,即数据的选择价值。

总结起来,在商业变革方面,数据智能时代的特色主要能够归纳为:

  1. 数据的选择价值意味着无限可能;

2.数智时代要求咱们对待数据有别于传统资产;
3.数据的创新意味着很大的不肯定性。

咱们面临的实际挑战
数智时代咱们面临挑战的本质在于数据组织及管理要求(侧重稳定性)与业务的创新需求(侧重灵活性)的冲突。

使用数据核心要解决的几个问题
数据不可知:用户不知道大数据平台有什么样的数据,也不知道这些数据和业务的关系是什么。虽然用户意识到了大数据的重要性,但不清楚平台中是否存在能解决业务问题的关键数据以及该如何寻找相关数据。

数据不可控:数据不可控是从传统数据平台开始就一直存在的问题,在大数据时表明现得尤其明显。缺少统一的数据标准致使数据难以集成,缺少质量控制致使许多数据因质量太低而难以被利用。

数据不可取:用户即便知道本身业务所须要的是哪些数据,也不能自助便捷地拿到数据。实际上,数据获取须要很长的开发过程,漫长的需求响应与大数据时代须要快速出具问题解决方案的目标相违背。

数据不可联:大数据时代,企业虽然拥有海量数据,但企业数据知识间的关联还比较弱,还没有把数据和知识体系关联起来。此外,企业员工难以作到数据与知识之间的快速转换,没法对数据进行深刻探索和挖掘,这致使数据的深层价值难以凸显。

咱们在公司内部对数据问题进行收集,发现存在几大困难点:业务响应速度慢、数据质量问题频发、数据使用难且取数慢、开发效能低、试错成本高以及数据能力重复建设等。

数据智能技术体系建设思路
整体目标
1.敏捷地支撑业务部门的创新需求,打造快速响应商业需求的服务能力;
2.把不一样领域的数据实时打通,体现数据的最大价值;
3.把数据做为资产进行管理。

大多数状况下,咱们经过业务的需求,反过来推动公司数据智能体系的建设,其直接的价值体现是成本节约、效率提高和质量提高。

建设思路和原则
1.主要面向内部客户,特别是公司的研发人员及建模人员,以提升业务开发效率为目标;
2.作好元数据、血缘关系管理,提升数据治理程度,以保证数据的质量和安全;
3.提炼公共服务能力等复用程度高的能力优先建设,如:数据提取分析速度、数据治理平台、数据开发平台;
4.数据能力原则上由相应领域熟悉业务,有必定技术积累的团队一块儿参与建设;
5.能力建设须要重点考虑几大标准:稳定、易运维、可运营、可审计。

在能力建设方面,公司能够设立三层结构:底层是技术中台;中层是数据中台;上层是业务系统。须要注意的是,有了平台并不意味着问题就解决了。咱们认为最理想的方式是平台与人的能力相结合。平台沉淀证实了的、可复用的能力;而人更多地去应对创新需求,利用知识创造工具和完善平台。这也是一个螺旋上升的过程。平台须要专门的人进行运营、推广;业务须要有会使用平台的、能快速产生解决方案的人,来保证与平台人员的良好沟通与协做。

基于这样的想法,个推在公司的组织保障上构建了这样一个体系:上层目前是虚拟的数据中台部,在合适的时候会成为一个实体部门。架构组与技术组参与建设数据中台。此外,咱们把部分与数据相关的技术人员派驻到业务部,这样不只能更好地把数据应用于业务,还能让他们把业务部门的使用效果及问题予以反馈,以此造成一个闭环,咱们把它称之为DO(Data Owner)。

互联网的发展将你们带入了大数据时代,而数据智能时代是大数据时代一个重要的发展阶段,机会与挑战并存。个推将积极把握机会、应对挑战,不断探索数据智能与行业应用的结合点,以创新的技术为开发者提供增能服务、为移动互联网和品牌营销等各垂直领域提供定制化的大数据解决方案。将来,个推将持续用数据的力量,携手更多的行业伙伴,建立数据智能双赢生态!

相关文章
相关标签/搜索