打开一篇篇 IT 技术文章,你总可以看到“大规模”、“海量请求”这些字眼。现在,这些功能强大的互联网应用,都运行在大规模数据中心上,然而,对于大规模数据中心,你又了解多少呢?实际上,除了阅读一些科技文章以外,你很可贵到更多关于数据中心的信息。数据中心每一个机器的运行状况如何?这些机器上运行着什么样的应用?这些应用有有什么特色?对于这些问题,除了少数资深从业者以外,普通学生和企业的研究者很难了解其中细节。算法
2015 年,咱们尝试在阿里巴巴的数据中心,将延迟不敏感的批量离线计算任务和延迟敏感的在线服务部署到同一批机器上运行,让在线服务用不完的资源充分被离线使用以提升机器的总体利用率。通过 3 年多的试验论证、架构调整和资源隔离优化,目前这个方案已经走向大规模生产。咱们经过混部技术将集群平均资源利用率从 10% 大幅度提升到 45%。另外,经过各类优化手段,可让更多任务运行在数据中心,将“双11”平均每万笔交易成本降低了 17%,等等。服务器
那么,实施了一系列优化手段以后的计算机集群到底是什么样子?混部的状况究竟如何?除了文字性的介绍,直接发布数据可以更加拉近咱们与学术研究、业界同行之间的距离。为了让有兴趣的学生以及相关研究人员,能够从数据上更加深刻地理解大规模数据中心,咱们特别发布了这份数据集。数据集中记录了某个生产集群中服务器以及运行任务的详细状况。在数据集中,你能够详细了解到咱们是如何经过混部把资源利用率提升到 45%;咱们天天到底运行了多少任务;以及业务的资源需求有什么特色,等等。如何使用这份数据集,彻底取决于你的须要。架构
刚刚发布的 Alibaba Cluster Data V2018 包含 6 个文件,压缩后大小近 50GB(压缩前 270+GB),里面包含了 4000 台服务器、相应的在线应用容器和离线计算任务长达 8 天的运行状况,具体信息你能够在 GitHub 中找到。oop
经过这份数据,你能够:学习
只看上面这几点,没有接触过相似数据的朋友,可能对于这份数据的用处仍是没有概念,下面我举几个简单的例子:优化
实际上,学者们甚至能够用这些数据做出更加精彩地分析。spa
2017年,咱们曾开放的第一波数据(Alibaba Cluster Data V2017),已经产生了多篇优秀的学术成果。如下是学者们在论文中引用数据(Alibaba Cluster Data V2017)的例子,其中不乏被 OSDI 这样顶级学术会议收录的优秀文章。咱们期待,将来你也能与咱们共同分享你用这份数据产生的成果!资源
<strong>"</strong><span data-type="color" style="color:rgb(36, 41, 46)"><strong>CharacterizingCo-located Datacenter Workloads: An Alibaba Case Study, Yue Cheng, Zheng Chai,Ali Anwar. APSys2018</strong></span><strong>"</strong>部署
新版本 V2018 与 V2017 存在两个最大的区别:数据分析
咱们加入了离线任务的 DAG 任务信息,据了解,这是目前来自实际生产环境最大的 DAG 数据。
什么是 DAG? 离线计算任务,例如 Map Reduce、Hadoop、Spark、Flink 中经常使用的任务,都是以有向无环图(Directed Acyclic Graph,DAG)的形式进行编排的,其中涉及到任务之间的并行、依赖等方面。下面是一个 DAG 的例子。
上一版数据包含了约 1300 台机器在约 24 小时的内容数据,而新版 Cluster Data V2018 中包括了 4000 台机器 8 天的数据。
关注WX【阿里系统软件技术】回复关键词“数据集”得到下载连接!