摘要:2019杭州云栖大会大数据企业级服务专场,由斗鱼大数据高级专家张龙带来以 “混合云模式下 MaxCompute+Hadoop 混搭大数据架构实践” 为题的演讲。本文讲述了从 Apache Hadoop 阶段到 Cloudera CDH 阶段斗鱼大数据架构的发展历程。提出了上云过程当中斗鱼遇到的问题和跳战,包括数据安全、数据同步以及迁移任务。归纳了混合云模式给斗鱼带来资源效率更高和资源成本更低的变化。
如下为精彩视频内容整理:网络
在2014年中期,斗鱼就开始使用大数据,最开始使用的是简单的HBase和Hadoop。在2015年,开始使用CDH运维大数据集群,主要针对可视化运维。在2017年的下半年,斗鱼开始接触阿里云大数据的一些产品,而且与其余产品作了对比。最终选择了阿里云的MaxCompute。架构
Apache Hadoop阶段运维
因为业务场景比较简单,组件较少,而且使用的人也少,但能够灵活的操做,同时集群规模较小,运维要求低,能够自由的利用开源,培养了许多人才。但在发展过程当中也遇到了一些阻碍,例如:组件增多,运维成本高,业务增加快,集群扩容操做繁琐,人员增长,数据安全要求高,物理机操做,环境安全难保障。工具
Cloudera CDH阶段oop
斗鱼为什么选择Cloudera CDH?缘由主要有:首先,它能知足业务发展须要,多组件运维成本低,集群扩容操做简单,数据安全及环境安全有保障。其次,CDH在国内被普遍使用。最主要的一点是斗鱼的团队内部有CDH人才。测试
Cloudera CDH给斗鱼带来了许多便利,包括支持丰富的组件,不用考虑兼容性,能够经过CM统一管理,进行Web化管理,同时支持中文。另外,支持安全管理,以及对Kerberos安全认证。大数据
自建集群遇到了发展瓶颈,涉及到资源效率问题和资源成本问题。资源效率问题包括资源预算审批慢、机器采购周期长以及机房部署效率低。资源成本问题包括机器资源成本高、机房成本高还不稳定以及闲时资源空置较多。阿里云
上云面临的挑战主要是如何保证数据安全,由于数据是企业核心的资源,安全性是很是关键的。其次是如何保持数据同步,是由于云上云下存在着海量数据。最后,由于云下存在大量的历史业务,那该如何将业务安全迁移到云上也是一个问题。spa
对于数据丢失的问题,阿里使用原始数据进行备份,这是很关键的。对于核心数据泄露问题,概率是很小的,由于泄露数据以后所要承担的风险远大于战胜竞争对手所提供的收益。对于云环境面向外网,如何保证安全访问的问题,能够增长帐号访问IP白名单及审计,设置公司内部才可访问。
因为天天会产生PB级历史数据和TB级数据增量。如何快速准确同步数据问题,可使用数据同步工具,主要是基于DataX的改造。同时提升网络专线能力,增长多根专线,自动地进行异常切换,与云上平台业务进行隔离。利用数据校验工具,校验数据同步任务以及数据量。
业务的安全迁移须要作到三个要求:1.不能引发故障,保证迁移可行性验证。2.迁移成本不能过高,业务侧尽可能少改动。3.能上云也要能下云,尽可能保证云上云下操做一致性。
为了作到不引发故障,要作到三个须要:须要作业务场景测试,保证业务场景所有覆盖到,而且可以识别可以迁移的业务场景。须要数据质量检验,确保相同业务云上云下产出数据的一致性。须要数据效率验证,确保云上任务数据产出时间,同时不影响业务。
斗鱼在IDC中运行的任务主要分两部分,第一部分是Java任务,占比很小,特色是基于封装的HiveClient工具进行查询计算。第二部分是XML配置化任务,特色是基于自定义XML文件,支持HiveSQL统计后导入其余存储。针对这些任务的特色,斗鱼也作了相应的改造。针对封装OdpsClient,能够将HiveClient改为OdpsClient,而且改Hive URL为云环境。针对加模板改URL,能够引入MaxCompute参数模型,改Hive URL为云环境。
为了保证能上云也能下云,第一,须要数据能上能下,就是前面提到的数据同步中心。 第二,须要完善的配套工具,云上云下环境尽可能透明化使用。第三,多使用通用功能,经过SQL+UDF能覆盖大部分场景。
混合云模式带来的变化主要针对资源效率低,难以跟上业务发展,以及资源成本高,企业财务压力大两方面。在资源效率方面,从自建集群到MaxCompute有一些变化,包括提早半年或一年提预算变成按量付费,采购耗时1到3个月变成资源能够无限使用,机房上架1周以上变为无机房概念。相比于IDC自建集群,MaxCompute每一年大概节约1000w成本,保障集群零故障。同时也有一些附加的收益,包括阿里云的专业服务,当遇到技术问题时能够请教阿里的专家来帮助解决,以及计算资源能够量化,能够知道钱花在哪些业务了,以及与阿里专家交流,帮助解决业务难题。
在自建机房时,斗鱼也作了一些开发,下图所示为数据开发,包括基于Hue的查询计算和云上的DataStudio数据开发,而后将Hue的API和DataStudio的API集中起来造成斗鱼的大数据开放平台,做用是能够提供给数据部门的人使用,也能够提供给业务部门的分析人员使用。
此外,斗鱼也作了一些实践,称为多活数据中心,以下图所示。斗鱼经过确立自建机房的数据和阿里云数据在这两个数据中心的角色,保证能够在多活数据中心的状态下支撑更多的业务。
混合云带来的变化总结起来,资源成本和资源效率是最大的两个变化,还有可量化的成本、增值服务、额外的专业服务等,不只能够给咱们本身部门人员用,还能够给其余业务部门的人来用,而且他们对使用成本也是直接可见的。以上就是我今天的分享,谢谢你们。
更多MaxCompute产品与技术信息请访问产品官网 >>>
阿里云双11亿元补贴提早领,进入抽取iPhone 11 Pro:https://www.aliyun.com/1111/2...
本文做者:晋恒
本文为云栖社区原创内容,未经容许不得转载。