简介:阿里巴巴提出的OneData方法论帮助企业捋清了数据全生命周期的管理思路,更将其植入到产品Dataphin(智能数据构建与管理)中,经过阿里云为企业提供服务。架构
Dataphin 智能数据构建与管理平台运维
面向各行各业大数据建设、管理及应用诉求,一站式提供从数据接入到数据消费全链路的智能数据构建与管理的大数据能力,包括产品、技术和方法论等,助力打造标准统1、融会贯通、资产化、服务化、闭环自优化的智能数据体系,以驱动创新。oop
Dataphin产品直达:https://www.aliyun.com/product/dataphin大数据
阿里巴巴从2008年开始建设自有的大数据体系,致力于构建好数据服务多样的业务。一路上,经历了各类各样的困难。优化
技术陷在临时取数不可知:阿里内部曾经经过建设专门的“临时取数需求管理系统”,给每一个业务线分配临时取数的时间额度,每次还没到月底,额度已经为零,业务同窗追着数据技术同窗加班取数的状况时有发生......为了改变这一局面,专门创建了“业务人员SQL技能培训”,但愿用这样的方式让业务人员本身掌握临时取数技能,美其名曰“赋能”。而这背后的本质是:资源。阿里云
数据口径定义有差异:曾经就由于数据口径差别,差点形成商家损失。商家在后台看到的数据预测,显示能够达到活动报名要求,因而提早备货,准备大干一场,可是最终报名却没有经过,缘由是小二侧的数据口径与商家侧的数据口径不一致,小二系统评估商家的数据未达标,致使不经过。虽然最终经过协调解决了问题。但这背后的本质是:标准。编码
加班作报表,汇报还被骂加班取数是常态,一般取数花费2-3小时,而以后的核对差别则要花费巨大精力,动辄1-2天;最后的汇报环节,也会由于一些口径差别及数据质量问题形成尴尬,甚至会出现错误数据致使决策失误的状况。这背后的本质是:质量。spa
除了上述这几个典型的场景,阿里巴巴也曾因业务增加而出现数据量爆发增加,对数据不治理无论理,意味着数据的存储和计算成本不断攀升。成本,也是大数据领域面临的困难之一。对象
探索中前行,实战中沉淀带着克服困难的决心,阿里巴巴开始了B2B业务数据建设、电商业务数据建设、阿里系业务数据建设。过程当中,边探索、边沉淀、边前行,经过更体系化的数据建设提高数据质量,下降数据重构的风险,提高数据服务的效率。经历近十年的打磨,基于实战,阿里巴巴沉淀了OneData大数据建设的方法论(OneModel+OneID+OneService)。OneModel经过对数据体系化架构、数据元素规范定义、数据指标结构化拆解,对数据进行统一的构建及管理;OneID经过创建实体对象、对象相关的行为数据及标签构建方法,对企业的核心商业要素进行资产化;对数据资产进行统一的主题式数据单元构建,配置构建数据API并提供API服务,以提高数据资产消费的便捷性,提高数据资产价值。生命周期
克服痛点 创造领先的大数据能力
随着全球数字化进程的加速,企业面临着更加严峻的市场竞争,而数智化转型所遇到的困境也曾是阿里巴巴最初之痛。因而,阿里云数据中台应运而生,与各行各业的企业在数据领域开展了合做,解决企业凸显的数据问题:
●数据标准问题:烟囱式开发及局部业务服务支撑,致使指标同名不一样口径问题频发;历史上不一样业务系统逐步迭代上线,相同对象属性编码不一致等问题突出;
●数据质量问题:重复建设致使任务链冗长、任务繁多,计算资源紧张,数据时效性很差;口径梳理定义的文档沉淀到开发代码实现之间存在脱节,数据准确性保障风险高;
●需求响应问题:烟囱式开发周期长、效率低,面向应用的服务化不足,致使业务响应速度慢,业务不满意的同时技术又以为没有沉淀与成长;既懂业务又懂数据的人才不足,需求理解到开发实现涉及大量沟通,服务效率较差;
●成本资源问题:烟囱式开发的重复建设浪费技术资源;上线难下线更难,源系统或业务变动不能及时反映到数据上,加之数据不标准,研发维护难上加难的同时,大量无用计算和存储形成资源浪费。
阿里巴巴提出的OneData方法论帮助企业捋清了数据全生命周期的管理思路,更将其植入到产品Dataphin(智能数据构建与管理)中,经过阿里云为企业提供服务。 Dataphin除了大数据处理全链路涉及到的数据集成、开发、发布、调度、运维能力,同时提供了数据规范定义、逻辑模型定义、代码自动化生成、数据主题式服务能力,高效地完成好数据的构建。
Dataphin产品核心模块
Dataphin自2018年问世以来,已发展出了丰满的大图,到目前为止经历了多轮大版本升级,产品核心的能力模块清晰显现。
一、环境适配
最底层为Dataphin的环境适配能力。Dataphin支持不一样的云环境,为不一样规模以及不一样部署要求的客户提供不一样的选择,包括公共云多租户、公共云VPC、专有云企业版及敏捷版,以及本地IDC部署。
二、引擎支持
在云环境之上,根据不一样的云环境能够支持不一样的计算引擎。离线的计算引擎包括阿里云MaxCompute,Hadoop生态引擎包括阿里云E-MapReduce、CDH五、CDH六、以及即将支持的FusionInsight、CDP等。实时计算引擎支持阿里云Blink和Flinkvvp。开源版本的Flink也即将支持。
三、数据构建
基于不一样的云环境和计算引擎,Dataphin提供了大数据处理全链路涉及的数据集成、开发、发布、调度、运维能力,提供了数据规范定义、逻辑模型定义、代码自动化生成、主题是查询的数据构建能力。
四、资产
Dataphin提供了配套的资产地图、资产血缘、资产质量管理和监控、资源成本管理和提效的资产管理能力,并提供了配置化的资产服务研发和管理能力,可将数据资产快速服务业务、反哺业务。
本文内容由阿里云实名注册用户自发贡献,版权归原做者全部,阿里云开发者社区不拥有其著做权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。若是您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将马上删除涉嫌侵权内容。