优酷背后的大数据秘密

时间 2019-12-05

标签优酷背后数据秘密繁體版

原文原文链接

在本文中优酷数据中台的数据技术专家门德亮分享了优酷从Hadoop迁移到阿里云MaxCompute后对业务及平台的价值。算法

本文内容根据演讲视频以及PPT整理而成。sql

你们好，我是门德亮，如今在优酷数据中台作数据相关的事情。很荣幸，我正好见证了优酷从没有MaxCompute到有的这样一个历程，由于刚恰好我就是入职优酷差很少5年的时间，咱们正好是在快到5年的时候，去作了从Hadoop到MaxCompute的这样一个升级。这个是2016年5月到2019年如今的5月优酷的发展历程，上面是计算资源，下面是储存资源。你们能够看到整个用户数，还有表的数据，其实是在呈一个指数式增加的。可是在2017年5月，当优酷完成了整个Hadoop迁移MaxCompute后，优酷的计算消耗，还有储存的消耗其实是呈降低趋势的，整个迁移获得了一个很是大的收益。
缓存

下面说一下优酷的业务特色。安全

第一个特色从大数据平台整个的用户复杂度上面，不止是数据的同窗和技术的同窗在使用，还会包括一些BI同窗，测试同窗，甚至产品运营均可能去使用这个大数据的平台。服务器

第二个特色就是业务复杂，优酷是一个视频网站，它有很是复杂的业务场景，从日志分类上，除了像页面浏览，还会有一些播放相关的数据、性能相关的数据。从整个的业务模式上，有直播、有会员、有广告、有大屏等这样一些很是不同的场景。架构

第三个特色，就是数据量是很是巨大的，一天的日志量会达到千亿级别，这是一个很是旁大的数据量，并且会作很是复杂的计算。并发

第四个是比较有意思的，不论是小公司、大公司，对成本的意识是很是高的。优酷也是有很是严格的预算，包括在阿里集团内是有很是严格的预算系统的，可是咱们也常常会去作一些重要的战役，像双十一战役，像咱们暑期的世界杯战役，还有春节也会搞各类战役。这样的话，其实对计算资源的弹性要求是很是高的。less

基于上面的优酷的业务特色，我整理了MaxCompute能够完美的支持咱们业务的几个特色。
运维

第一个，简单易用。
第二个，完善的生态。
第三个，性能很是强悍。
第四个，资源使用很是弹性。机器学习

第一个特色，简单易用。MaxCompute有一个很是完整的链路，不论是从数据开发，仍是数据运维，包括数据集成，数据质量的管控，还有整个数据地图，数据安全。当年优酷从Hadoop迁到MaxCompute以后，咱们最大的体会是本身不用半夜常常起来去维护集群了，不用去跑任务了，写一个任务，别人以前提一个需求过来，我可能要给他排几周，而如今我能够告诉他，我给你立刻跑一下，就能够出来了。包括以前像分析师BI还要登陆客户端，写脚本，本身写调度，常常会说个人数今天为何没出来？包括高层看的数，可能要到12点钟才能出来。而如今基本上全部重要的数据都会在7点钟产出，包括一些基本的业务需求，其实分析师或者产品，他们本身均可以实现了，不须要全部需求都提到数据这边。

第二个特色，完整的生态。优酷在2017年以前是彻底基于Hadoop的生态，迁到MaxCompute以后，是基于阿里云提供的Serverless大数据服务的生态。你们能够在开源上看到的组件，在整个的MaxCompute上都是有的，并且比开源的要更好用、更简单。从架构图上能够看到，咱们中间是MaxCompute，左侧依赖的Mysql、Hbase、ES、Redis这些都是由同步中心去作一个双向的同步。右侧会有资源管理、资源监控、数据监控，包括数据资产，还有一些数据规范。咱们下层的数据输入，包括一些集团的采集工具，再往上边，有提供给开发人员用的DataWorks，包括一些命令行的工具；有提供给BI人员用的QuickBI及数据服务。

第三个特色，强悍的性能，MaxCompute支撑了优酷EB级的数据存储，千亿级的数据样本分析，包括千亿级的数据报表，10W级实例的并发、任务。这些在以前维护Hadoop的时候，是想都不敢想的。

第四个特色，资源使用的弹性。咱们在2016年迁移以前，其实优酷的Hadoop集群规模已经达到了一千多台，这个当时仍是一个比较大的规模。当时咱们遇到了不少问题，包括像NameNode 这种内存的问题，机房没有办法再扩容的问题，当时是很是痛苦的，包括一些运维管理上面的问题。咱们不断的去问运维要资源，运维告诉说，说大家已经花了多少多少资源，花了多少多少钱。咱们面临的问题是计算资源如何按需使用，夜里的时候做业不少，到了下午以后，个人整个集群都空下来了，没有人用，形成了浪费。其实MaxCompute完美的解决了这个问题。

第一个，它是按用量计费的，不是说给你多少台机器，而后就收你多少钱的，真的是你用了多少资源收多少钱的，这个在成本上来讲，比本身去维护集群，多是一个砍半（降50%）这样的收益。

第二个，实际上MaxCompue计算资源是能够分时的，好比说生产队列，凌晨的时候会调高一些，保证报表可以尽快出来。到白天时候，让开发的计算资源高一些，可让分析师、开发去临时跑一些数据，会更顺畅一些。

第三个，MaxCompute快速的扩容能力，好比说忽然有一个比较强的业务需求，发现数据跑不动了，计算资源不够，全部的队列都堵死了，这个时候其实能够直接跟运维说一声，帮忙一键扩容，他两秒钟敲一个命令就搞定了。这样的话，全部的资源能够迅速的消化下去。

上面是优酷为何采用MaxCompute，下面是在优酷的业务场景下，咱们一些典型的方案、应用。这张图其实是优酷，包括可能如今阿里集团内部一些很是典型的技术架构图。中间能够看到，MaxCompute在中间核心的位置，左侧主要是一个输入，右侧是一个输出的趋向，绿色的线是一个实时的链路，包括如今咱们从整个的数据源上，好比DB也好或者服务器的本地日志Log也好，咱们经过TT&Datahub存储到MaxCompute上面作分析。固然如今很是火的Flink实时计算，实际上是做为一个实时处理的链路。

包括DB的同步，除了实时的链路，DB也会去经过按天/按小时，把数据同步到MaxCompute，数据计算结果也能够同步到Hbase、Mysql这种DB上面。再经过统一的服务层对应用提供服务。下面这个是机器学习Pai作的一些算法训练，再把训练的结果经过OSS传到一个算法的应用上面去。

这张图可能也是业界比较流行的一个数仓分层的图，由于咱们这边是数据中台，全部的数据都是统一从ods层cdm层，而后ads层，去一层一层的往上去作精细，再到最上面，经过接口服务、文件服务、SQL服务，去提供多样化的服务。再往上面，提供对内的一些数据产品，对高管、对小二，可能还有一些对外的，好比说像优酷的播放数，包括热度这些对应用的数据。

这张图其实就是咱们从Hadoop迁到MaxCompute平台上以来，两个很是经典的案例。咱们经过数据中台对不一样场景的用户打通，来去赋能到两个不一样的场景，提高业务价值。

第二个，多是内部的，咱们经过优酷，还有集团内部的一些BU去作换量，咱们经过统一的标签去作样本放大，把优酷的量导给其它的BU，把其它BU的量导给优酷，这样去达到一个双赢的效果。

这张图大部分互联网公司不太会涉及到，就是关于反做弊的问题。这个是咱们在MaxCompute作的一个反做弊的架构，经过原始的数据去提取它的特征，而后再经过算法模型，包括机器学习、深度学习、图模型去支持流量反做弊、渠道反做弊等等。再经过业务场景上反做弊的监控工具，把监控到的做弊信息去打一个黑白样本，再把这个黑白样本跟特征一块儿来不断的迭代优化算法模型。同时针对算法模型，作一个模型的评价，不断来完善反做弊体系。

最后一点，其实仍是跟成本相关，在平常使用中，必定是有小白用户或者一些新来的用户去错误的使用或者不在意的使用一些资源，好比常常会有一些实习生或者是非技术的同窗，如分析师，一个SQL消费比较高，这个实际上是很是浪费资源，并且可能他一个任务，让其余全部人的任务都在这儿等着排队，实际上咱们会去对整个的资源作一个治理。

从节点的粒度上，经过大数据来治理大数据，咱们能够算出哪些表产出来以后，多少天没有被读取的，包括它的访问跨度可能没有那么大的，咱们会去作下线或者去作治理，有一些业务场景可能并非很是的重要或者它的时间要求没有那么高，好比一些算法训练，能够去作一些错峰的调度，保证水位不要过高。从MaxCompute任务的角度，能够算出哪些任务有数据倾斜、哪些数据可能会有类似计算，哪些任务须要去作MapJoin，哪些任务须要去作一些裁剪，而后来节省它的IO。还有哪些任务会去作暴力扫描，扫一个月、扫一年的数据，哪些数据可能会有这样一个数据膨胀，好比说它作了CUBE之类的这种复杂计算，一些算法模型的迭代；咱们经过数据计算出来的这些迹象，去反推用户，来去提升它的这样一个数据的质量分，来去达到咱们下降整个计算资源的目的。

在计算平台的角度，咱们也持续的在使用MaxCompute推出的一些很是高级的用法，好比咱们这边的HBO、Hash Cluster、Aliorc；

第一个，HBO就是咱们基于一个历史的优化，这样避免了用户不知道怎么调参，我可能为了本身任务快一点，就调一个特别大的参数，这样的话，对集成的资源是很是浪费的。经过这个功能，用户就不用去调参数，集群自动调好，用户就写好本身业务逻辑就行了。

第二个，可能就是最近两年推出的Hash Cluster，当时在使用Hadoop的时候常常会出现，两个大表Join的时候计算不出来，这个Hash Cluster实际上是一个优化的利器。大表跟小表Join，能够作一些分发，作一些优化。大表跟大表就涉及到一个排序的问题。这个Hash Cluster，实际上就是提早把数据排好，中间省掉不少计算环节，来达到效率提高的目的。

第三个，Aliorc，在一些固定的场景上面，能够稳定的提高20%的计算效率。

第四个，Session。对一些比较小的数据，直接就放到SSD或缓存里面，一个节点下游有100个叶子场景，是很是友好的，由于低延迟秒出结果。同时，优酷也在使用Lightning解决计算加速，这个是在一个计算架构方案上的优化，它是一个MPP的架构。

最后一页是存储的优化，由于像一些关键的原始数据或者是须要审计的数据是不能删的，永久不能删的。实际上就会形成咱们数据存储的趋势是一直往上不减的，计算会在某一个时间点达到一个平衡。当前用这么多的计算资源，再日后，其实应该也不会再大涨了，好比说旧的业务逻辑下掉了，会换新的业务逻辑，这样会保持在一个相对平稳的波动上面。可是储存，由于它有一些历史的数据是永远不能删的，可能会出现一直在增加，并且是指数级的。因此咱们也会持续关注存储的状况，仍是经过大数据来治大数据，去看哪些表的访问跨度比较小，来去作生命周期的优化，来去控制它的增速。还有刚才提到的Aliorc，实际上也是作压缩的。咱们会去作一些大字段的拆分，来提升压缩的比例。

OK，这个是优酷在MaxCompute中的一些应用场景，感谢你们的聆听。

本文做者：隐林

原文连接

本文为云栖社区原创内容，未经容许不得转载。