前言:
-更多关于数智化转型、数据中台内容请加入阿里云数据中台交流群—数智俱乐部 (文末扫描二维码或点此加入)html
(做者:数据从业者 )算法
我是阿里数据部门的一名数据技术专家,如今主要在对外部客户的一些数据中台项目中,作技术以及产品的支持。
我原来在阿里内部其实作了5年的数据开发,如今在作一些外部项目的时候,常常会和一些生态合做伙伴公司一块儿去交付项目,在这些合做伙伴的数据开发中,不论是新人仍是老人,都能看到我曾经的一些影子,因此我想借助这篇文章,讲述一下我在阿里当数据开发的一些经历 ,但愿在我的发展上对他们有一点帮助。后端
我是13年加入阿里的,在进阿里前,原来是作银行的数据仓库建设,用的是TERADATA的LSDM那套3NF建模的方法,技术也主要围绕TERADATA和后来的GREENPLUM为主,因此进到阿里后,会有一个在业务和技术上适应的过程。
首先是技术上,我进到阿里后,那时候阿里正处于底层的数据处理平台更换的阶段,从GREENPLUM替换到HADOOP平台,所以我进入部门后,首先对HADOOP大数据平台并非很熟悉,由于那时候银行里面都尚未开始用HADOOP平台,因此一开始对HADOOP这套计算架构就很是的不适应,好比为何跑个SQL这么慢,执行个SQL还要打开网页运行(由于咱们原来用的是在云端),这是一个慢慢熟悉和适应的过程。架构
另一方面是业务方面的适应,须要从原来熟悉的银行业务,过分到互联网业务。业务变了,对应的数据也都发生了很大的变化,我到了ICBU后,被分配到负责流量和广告相关的业务,会接触到大量的日志数据,好比页面浏览,点击,曝光,还有P4P点击广告相关的日志,面对这么多非结构化的日志数据,我一开始都不清楚为何须要这些日志的数据, 可是经过后面不断对互联网业务的熟悉,才知道流量分析对网站的重要性,这个阶段我也熟悉了不少流量相关的业务知识,好比SEM,PPC,SEO,联盟等等。工具
这个阶段除了提升新的技术和业务能力外,主要的工做就是不断的接需求作报表。团队里面有专门的数据PD,他们的职责就是"接活",天天接业务方的需求,而后经过需求沟通和分析,每月排定咱们数据开发的资源,因此时间长了之后你就会以为你就仅仅是一个资源,我的价值没法获得体现。学习
因此后来咱们进行了改革,就是让数据开发本身到前面,接业务的需求,而后本身沟通和分析,数据PD就都去作PD应该作的数据产品设计。说实话,这是一个很好的让开发成长的措施,由于作数据的,要想真正了解数据,你首先要了解对应的业务,否则你开发出来的数据,就只是那几张硬生生的报表。也正由于这个阶段,我学会了一些如何和业务“谈”需求的方法,好比WBRD,问需求方十个问题,像需求基于什么样的业务背景,业务的痛点是什么,指标中的模糊词汇如何定义,等等,将这些都问题清楚,你才能知道你为了什么而开发这个需求,并且你才能知道哪些需求该重点优先去排本身的时间作,这就是去作正确的事情。大数据
另外这阶段也学到了一些数据分析的方法,由于我作出来的报表须要直接面向个人最终用户的,原来是开发好后,就丢给数据PD,因此如今业务方会直接来找我说,某某,你这个数据不对啊,这个时候,我才知道业务原来是这样分析数据的,由于我所在的是流量线,我也知道了原来流量是如何作相应的数据监控,才能及时的发现问题,排查问题,定位缘由以及解决和预防问题。优化
因此,这是一个“往前迈一步”的阶段,这个阶段让我学会了需求分析和数据分析的一些方法,让我以为我的的价值仍是有必定的体现的,有时候被业务方点赞和承认,本身内心仍是很暗爽的~~~网站
后来,阿里进行了登月项目,这个你们不少人都知道,就是将阿里全部部门的数据平台都迁移到ODPS,而后统一使用ONEDATA建模方法论去进行建模工做。可是我后面的工做重心并非在ONEDATA建模上,而是在ODPS资源优化上。由于自从登月之后,ODPS的计算和存储是使用量不断提升,出于降本增效的目的,当时的CTO就成立了专门的数据管理委员会,而且基于统一的数据资产管理平台,进行全集团的数据治理。参加过咱们培训的人应该知道,主要的治理也是包括计算和存储两方面,对应的有计算健康分和存储健康分,若是达不到必定分数的人到时候就不能使用ODPS,因此那时候,我接到的副业就是,作为接口人,帮助整个B2B的同窗一块儿进行优化。ui
因此,这一阶段,个人工做就是组织全BU的人,学习ODPS的优化方法,包括一些后端和算法部门会使用到ODPS的同窗,将一个个有问题,好比消耗资源TOP的几个SQL,抓出来教他们进行优化,可是你要教他们首先你得会一套有体系的优化方法,这个首先还得依赖咱们阿里强大的产品能力,一些优化的方法论其实都体如今产品上,经过对数据管理平台中优化方法的学习和沉淀,那段时间我几乎天天都在和这些问题SQL打交道。并且后来我还接了整个数据开发部门慢报表的治理的工做,就是看部门哪一个报表慢,哪一个报表30天没人访问了,该下的下,该优化的优化。因此也正由于这个阶段的刻意训练吧,我熟悉了ODPS的底层的一些原理,以及处理MYSQL,ADB一些慢SQL的方法,以及针对不一样的分析场景须要采用什么样的数据存储,是MYSQL仍是ADB。
因此,假如你是一名合格的数据开发人员,你开发出来的报表查询时间不能低于3秒,开发的ODPS任务不能出现像数据倾斜,或者分区裁剪失效等问题,并且你要知道具体优化的方法。
接着后来作完这些工做后,我又往前走了一步,就是和团队的产品PD,一块儿搞了一些数据产品,好比一些应用计算的组件平台,还有核心指标库,以及一些业务的数据门户。由于你作到后来你会发现,正在能带来价值的仍是产品,并且一方面你能够将你的一些方法论沉淀在产品上。这个阶段也从产品PD那里学了一些产品设计的方法,至少用AXURE画个产品的DEMO应该没问题吧。
另外这个阶段我也懂得了一个方法,就是你要学习一个技术,或者一个事情吧,你能够先从它对应的产品学起,由于产品每每是业界对应的方法论的沉淀,你能够经过产品,很快地掌握这件事情的方法,就好比咱们的DATAPHIN产品,若是你要学习数据中台相应的方法论,你能够经过DATAPHIN产品学,包括数据建模,数据资产,数据质量等等方法论,都会在产品中体现。
至于后来为何我开始支持对外的项目,是由于我看到了更多的社会价值,经过阿里云,咱们输出原来阿里沉淀的一些数据中台建设的方法论,能够帮助外部的企业进行数字化转型,我以为我更倾向于选择支持外部。
写在最后,我以为你们都是在将本身的能力最大化,价值最大化的过程当中前进,因此有时候“往前迈一步”,可能会有更好的风景。
数据中台是企业数智化的新基建,阿里巴巴认为数据中台是集方法论、工具、组织于一体的,“快”、“准”、“全”、“统”、“通”的智能大数据体系。目前正经过阿里云数据中台解决方案对外输出,包括零售、金融、互联网、政务等领域,其中核心产品有:
官方站点:
数据中台官网 https://dp.alibaba.com