后摩尔时代 京东智联云如何解决数据中心的冷与热?

今年,以数字化技术为核心的 " 新基建 " 首次被写入政府工做报告,引发了人们普遍关注。新基建包含5G 基站、特高压、工业互联网、城际高速铁路和城际轨道交通、新能源车充电桩、人工智能、大数据中心七个方向。其中,数据中心既是新基建的重要组成部分,也是新基建发展的核心IT基础设施,对数字经济的腾飞起到底层支撑做用。服务器

京东智联云硬件研发总监陈国峰曾任开放数据中心委员会“天蝎”项目的总架构设计师,是国内第一批参与整机柜实践过程的行业“老兵”,日前做客E企研究院主办的“开放新基建”访谈节目,从超大规模数据中心角度分享了当前 IT 发展新趋势对数据中心基础设施的影响与京东智联云的下一代服务器前沿技术。网络

今年受新冠疫情影响,人们的工做和生活方式都发生了巨大变化,居家办公成为常态,不少事情都被迫搬到了线上,如视频会议、线上网课、直播卖货等等。幸运的是以互联网、云计算为主的数字化技术为人们带来了巨大助力,让社会没有由于疫情影响而停滞。架构

人们对视频的依赖致使视频的数据量呈现指数级增加,这对提供视频服务的服务商基础设施提出了巨大挑战。不管是计算、存储、网络传输带宽,都提出了更高要求。数据中内心最显赫的主角莫过于提供强大算力的服务器,面对应用场景的多样化,服务器的需求也出现了层次化。运维

过去很长一段时间里,传统x86 通用服务器基本上能知足大部分计算的诉求,但在视频、AI 领域大火以后,场景化的计算愈来愈多,某些场景对计算能力或是计算特性都会有固定的要求。因为这类场景是固化的,并且有足够庞大的市场,再用通用计算去知足效率上就不必定是最佳的。模块化

这种状况下,催生出了一个新概念——“多元计算”。为了知足新应用场景的需求,更适合编解码、视频处理、AI 的计算单元被开发出来,市场中出现了更多的参与者去作相关的处理器。用专用芯片确定会比通用芯片效率更高,这也是将来技术发展的必然方向。性能

在专用芯片发展如火如荼之时,通用芯片却遭遇了史无前例的挑战。过去,受摩尔定律影响,每 18 个月晶体管的密度就会翻一番,但受制程工艺的制约,如今已经很难继续维持下去,芯片行业进入后摩尔定律时代。大数据

既然单核运算性能已没法继续大幅提高,芯片制造商们纷纷开始采用多核方式提升性能。AMD 提供了 64 核128 线程处理器,ARM 提供 80 核的 Ampere 处理器。在工艺受限的状况下,要想实现计算能力的叠加,就只能靠堆核。但核数增长后内存通道也会相应增长,这就意味着单台服务器的总体功耗会成倍增加。云计算

之前一台服务器的功耗总体上 300 瓦就足够了,如今可能一个 CPU 就接近 300 瓦,功耗的上升对于系统散热设计的挑战愈来愈大。通过咱们的分析,1U 服务器能给 CPU 散热的极限就是这个 CPU 的功耗不能超过 250 瓦,一旦 1U 的空间里处理器功耗超过这个值,风冷就很难知足散热需求,某种程度上散热已经制约了服务器和数据中心的发展。人工智能

京东智联云在过去一年里作了大量研究,认为在目前状况下,Cold Plate方式是最经济最实用的散热方式。在京东智联云推出的下一代服务器架构中,经过风液混合散热的方式解决功率密度的问题。它和其余的浸没式液冷方案不太同样,不会让 CPU 直接去接触这些液体,而是经过Heat Sink的方式来传导。spa

除了用液冷方式解决散热,不少厂商还考虑过定制的整机柜解决方案。长期以来,包括谷歌、脸书以及国内的BATJ等在内的顶级互联网厂商,常常采用整机柜甚至模块化数据中心,目的就是追求系统效率的最大化。

整机柜服务器自概念被提出至今已经历了 3 个阶段:

  • 第一阶段是概念炒做阶段;
  • 第二阶段是落地标准阶段,国内对整机柜服务器的理解统一到天蝎的设计,国外统一到 OCP(Open Compute Project)标准。两种标准对整机柜服务器的产品形态都是一致的,空间都是 21 英寸 1U,但愿给 IT设备提供更多的内部空间;
  • 第三阶段是云时代,云的本质是强依赖基础设施的,只有成本足够低,云的竞争力才会好,整机柜服务器的关注点也天然放到了生态和经济效益上。

21 英寸 1U 设计有一个前提是当时的服务器单机功耗还不高,今天再回头看这个设计的局限性就变得愈来愈大。若是 CPU 功耗已经达到 200 瓦以上,1U 空间的散热效率就会变得极低。

早年整机柜的设计初衷就是下降 TCO,所以一切前提都是围绕着 TCO 展开的。单个机柜的功率密度不可能无限大,那么在单个机柜固定的状况下,是经过多塞机器仍是提升单机性能来实现最优 TCO 呢?很明显在目前散热效能极低的状况下,多塞机器对于整个机柜的 TCO 来讲是极不合适的。相比之下,2U 服务器的计算能力要远远大于 2 台 1U 服务器,能够保证更好的散热效能,反而会得到更好的总体 TCO。

为了面向更普遍的市场,针对整机柜的改进必不可少。结合用户的需求及痛点,京东智联云提出以“标准化、模块化、弹性化”实现全场景灵活部署的设计理念,更好地支撑用户在云计算、大数据时代的业务运营和增加。

京东智联云的下一代服务器主流应用都将回归到 2U,整机柜方案采用 42U 19 英寸标准机柜为设计单位,节点独立散热,通用性强,实现了整机柜和标准机架服务器任意切换。这样带来的好处是高灵活性,由于用户的需求不可预测,用户场景复杂,租用机房较多,每一个机房基础设施条件不同,同时业务类型复杂,资源调配迁移需求比较多,而目前主流的整机柜与通用机相比,不管从 21 英寸的尺寸仍是集中的散热方式都有很大的差别,形成了整机柜部署的局限性,很难实现灵活迁移,混合部署。19 英寸能够最大程度知足不一样场景的需求。

当功率密度提升以后,风扇转速就会更高。因为硬盘的存储密度不断上升,对于外部环境的振动、噪声的敏感度就愈来愈高。所以,京东智联云在设计上针对硬盘和风扇振动采用了“硬盘前置,风扇后置”的系统架构,最大程度拉开风扇和硬盘之间的距离,有效下降了震动对硬盘的影响。

同时,京东智联云下一代服务器采用节点前 IO 设计,机柜后部无任何线缆,全部运维工做都可在冷通道进行,单边维护效率更高,环境更友好。同时经过模块化设计,可实现先后 IO 灵活切换,集中供电和单机供电模式灵活切换。

京东定制服务器的历史,最先能够追溯到2014年,当时京东与英特尔合做,设立了创新实验室,定制了两款面向电商行业的双路服务器。早期的尝试更可能是一种基于自身业务的“投石问路”,而今对于京东智联云来讲,下一代服务器交付的再也不只是软件和基础设施,而是一整套服务器交付的标准和落地。京东智联云将会围绕着下一代服务器打造公有云、私有云、混合云、全方位的云产品。

image.png

点击"阅读原文",了解更多京东云物理服务器

相关文章
相关标签/搜索