数字化转型之基础设施篇 | 超融合系统的选型与实践

时间 2020-05-31

原文原文链接

据 IDC 最新报告预测，2022 年中国 50% 以上的组织都将成为数字化坚决者，依靠新的商业模式、数字化产品与服务实现业务增加。后端

面对数字化转型的时代浪潮，青小云为你们准备了一份硬核大礼 —— 《数字化转型之路》，包含基础设施、业务架构、解决方案到行业实践、将来探索五个部分，该系列是对数字化转型理论与具体实践路径的系统梳理，但愿帮助读者全面准确把握数字化转型发展趋势与前沿技术，促进企业与组织可以在变革的数字化世界中创造更大的价值，实现更强健的生命力。缓存

今天与你们分享的是《数字化转型之路》中基础设施篇——超融合系统的选型与实践。服务器

如下是分享正文：网络

数据中心趋势

2019 年数据中心有四大趋势，高密度服务器须要更强的计算能力，英特尔 9282 CPU 达到 58 核心，一颗 CPU 58 颗核心，两台有 100 多个核心。除了英特尔，如今很火的是国产 CPU，你们看到飞腾、华为也在发布 CPU，每一个 CPU 64 核。AMD 最新的也是 64 个核心。在 2U 服务器里能够很轻松拥有 128 个核心，这是至关夸张的计算量。过去 8 部服务器也就达到 64 个核心的程度，如今核心数足够知足高密度的部署需求。多线程

有了核心，如何解决内存？架构

在英特尔最新的第二代至强处理器里，如今能达到 6TB 内存，一个 2U 服务器能够达到 6TB 内存，这个内存存储量是过去小型机或者必须是 8 台服务器才可能达到的存储量。服务器性能足够强大带来的好处就是，咱们能够把计算、网络、存储都放在一台服务器融合解决。并发

融合后解决了单个服务器的计算问题，那如何解决网络？分布式

前面提到超融合出现的主要缘由在于万兆以太网价格降低了。2019 年，25G 价格和万兆以太网是同样的价格，不要惊讶，这就是事实。oop

咱们知道全部的产品技术，10G 芯片、25G 芯片无非是流片，流片出来后芯片用的人多，分摊的成本越低。25G 以太网从 2018 年 Q3 正式在中国大型互联网公司部署开始，只有大型互联网公司开始部署高带宽网络后，它才能给整个供应链带来巨大的需求。到如今为止 25G 网络已是主流，给咱们带来的好处是 25G 网络比原来 10G 网络还便宜。性能

更低延时，25G 网络基本都是配上低延迟网络使用，其中包括 RDMA、RoCE V2 和 iWarp 这三种技术，都是低延迟的网络。如今 25G 网络，能买到的 25G 的网卡都都有 RDMA 和 RoCE 功能，其成本很是低。

高速存储，PCM 存储就 Optane 和 AEP 这两种。它跟原来闪存最大的区别是延迟达到 1 个微秒和 10 个微秒级别，速度仅次于内存。这两个产品的出现给咱们服务器的配置带来新的玩法，看怎么利用 AEP 和傲腾下降写延迟，经过 AEP 方式下降内存成本。

NVMe 闪存比较常见，大概是 90 微秒左右的延迟，可是软件定义网络很重要的一点在于你全用 CPU 计算，CPU 能力耗了很是多，并且 CPU 不大适合作软件的工做，它要求高转发效率。转发效率要求 CPU 主频高，58 核心的 CPU 不可能超过 4G 主频，越高的核心数意味着主频下降。你选择超融合时但愿有更高核心数时，你必定买不到主频很高的 CPU，中间是矛盾的。这时咱们要怎么作？

须要咱们在网卡上作工做，咱们新的数据中内心全部的网络再也不走 CPU，而是走网卡实现。因此要求网卡具备软件定义网络的功能，有无状态卸载能力，经过卸载增强网络包转发能力。

上一代服务器内存配置

相信不少人熟悉这张图，这是英特尔上一代 CPU 的架构，对应 CPU 平台是 E5 V3 V4。

它的内存怎么放的？

每个 CPU 放多少个，这是 12 个内存条。两路服务器通常是 24 个内存条，每一个 CPU 会有三个并发 Channel，它有三个 Channel。两个 CPU 经过 QPI 互联，这边有 012 三个 Channel，每个内存通道上有一个内存，最多在上一代 CPU 里每一个内存通道里能插三个内存。你们作 PC 机的就知道，最先有 DDR 概念，单 CPU DDR 必定会配成对的内存，才能用多通道的能力。

这种架构里至少须要每一个内存通道都要插一个内存，你会发如今上一代 CPU 里，若是你的内存数量是 8 的倍数，性能很好。意味着上一代 CPU 配置里应该是 128，16G 应该是 8 乘 16，12八、25六、512，这样的比例能够获取上一代 CPU 最强的性能。

上一代 CPU 的缺点是当你的内存离 CPU 最近时，它可能性能最高，时间低包括主频。当你把 24 个内存插满时，整个内存会降频。通常在上一代里这样的配置，24 个内存条插满，它的内存性能从 2133 会降到 1600，损失很大的内存性能。在上一代 CPU 里，通常咱们最优的性能是插 8 根或者 16 根内存条。

Intel purely 平台内存配置

最新的 Purely 平台发生了巨大变化，每一个 CPU 内存通道变成 6 个，但它仍是放 12 个内存，每一个通道上能够插 2 个内存，2 乘 16 仍是 16 个。在这一代里，你们一推理就知道这一代必定是 12 代的倍数最好。为了性能平衡，两边数量必定是对称开放的。

咱们在超融合项目里常常有客户要求配 5 根 16G 内存或者 5 根 32G 内存，很是浪费 CPU 内存通道。5 根意味着什么？意味着一边放三个，另外一边放两个，彻底不平衡。不平衡的话性能会达到什么样的差距？如下表为例。

以 Purely 为例，若是每个 CPU 配 1 根内存，你能够看到你得到的性能只有 18%。你花了大价钱买了英特尔最新的平台，你用的内存只有 18%。当你有 4 根内存条的时候，你这么放有 35% 的性能。有 6 根时有 51% 的性能，8 根的时候是上一代我最喜欢的 8 乘 16G（128G）的时候，你只能得到 67% 的性能。

这也是为何不少客户那边 CPU 换了最新一代，内存还要求跟上一代同样 128，最后一测特别是用于跑 Redis 等须要内存性能的，包括内存带宽特别敏感时，发现怎么不如上一代？

那么最佳配比是怎样的？往下看。

这页出现了两个最佳配比，一个方案是 2 个 CPU 各配 6 个内存，每一个内存通道嵌入 0-5 都用上，这是一个彻底平衡的方案，两个 CPU 彻底平衡。这时候能够达到 97% 的性能。在这一代 CPU 里最高的性能是你把全部内存通道插尽是百分百的性能，从成本考虑 12 根够了。

在这一代 CPU 上，最佳内存配比是 192G、384G。若是有的用户对这个了解能够推算各大云厂商的配置，你会发觉这一代不管是阿里云、腾讯云仍是青云，它的虚拟机内存和最大规格恰好是这个的配比，这就是缘由所在。

云计算对 I/O 的挑战

云计算没法像传统存储那样为不一样的应用划分不一样的卷，过去咱们学存储时，它的数据存储空间必定是 8K 随机或者 4K 随机，这种随机的场景用 NFS 分卷可能更好，传统存储能够这么作。超融合不能这么作，全部的应用都是放在一样的配置和服务器上，有大块小块，也有随机的 IO。用传统 HDD 确定没法知足，不管你怎么优化。

咱们从 2014 年到 2016 年花了三年时间想尽办法把 SAS 盘的性能用到极致。2014 年上线时青云的 IO 性能在纯机械盘状况下也是最好的，咱们当时是 8 万 IOPS，到如今为止青云在 IO 这一项依然是业界领先的。缘由是什么？

最先咱们经过机械键盘进行优化，那时候咱们用了开源技术，随机顺序化得到比较好的收益。机械盘最大的问题是响应时间长，72000 转、15000 转，如今你们都不用 15000 转了，服务器也不提供 15000 转。缘由在于 2016 年时 15000 转每 GB 成本高于 SSD，不必，15000 几乎停产。如今能看到的是 7200 转和 10000 转。主流是 10000 转，在不少客户那里都是这样，可是青云不是，青云在 2016 年淘汰了全部 10000 转 SAS 硬盘。

IOPS 性能方面，须要解决云计算的要求，这张表把容量跟延迟标注了出来。

SRAM，谁也买不起，这是以兆计算，一个 CPU 里多少 K 指令级缓存，那么点钱就那么点空间，很是贵。新的技术是 DRAM，内存是你们经常使用的。新的技术是英特尔 AEP，它介于内存和 SSD 之间。大量状况下你能够用 AEP 内存当 DRAM 使用。

如今最新的服务器上，咱们最新推出的公有云实例是 E2 ，有一个超大内存的实例。每个 VM 容许你挂 256G 内存，这是过去不敢想象的。这个主机利用了 AEP 的技术。AEP 和咱们用 128G AEP 和 32G 内存作搭配，系统会自动把这个内存当作 AEP Cache 使用。在这种状况使用，咱们通过测试，AEP 10% 的内存使用后，性能只会相对于全 DRAM 场景降低不到 10%。对大部分场景来讲，若是你有大的内存需求，AEP 加上 DRAM 是很是好的帮你下降成本的方案。

从容量方面来看，咱们有 1U2PB 的存储产品，这在过去是不敢想象的。为何 1U 能作 2PB 呢？如今业界最大的单盘容量是 64TB，这个设备 1U 里有 32 个硬盘插槽，因此能够提供 2PB 的存储空间。它能提供带宽和性能是传统 SSD 没法对比的。

从图中右侧的性能来看，传统认为 1 个 SATA SSD 跟 15000 转和 72000 转比，能够看到 SATA SSD 至关于 1100 多块 SAS 机械盘，至关于 5000 块大容量 3.5 寸 SATA 机械盘的性能。1 个 PCI-E 的产品能够作到将近 10 倍的 SATA 性能，从性能来看至关于机械盘的将近 1 万倍。

这就避免了用户用机械盘形成争抢，延迟大、带来很差的体验。从 2016 年咱们就下定决心作把公有云上海 1 区全部磁盘换成 PCI-E SSD。那时候很贵，可是要给用户带来体验。青云的存储，不管是公有云仍是私有云性能都是很是强劲的。

NAND Flash 成本大幅下跌

谈到性能你们还会关心一点，成本，怕这个东西很好可是太贵了。以前给你们展现过 SSD 和机械盘的成本，此次不以我本身观察的数据为例，举一个公开的例子。

这是 TrendForce 对 NAND 价格的预测，能够看到 2017 年经历了内存的涨价，三星、美国和东芝联合涨价，发改委出面说大家这有垄断性质，2018 年开始价格飞流直下。如今能够看到降低趋势很抖，几乎到 45 度。

2018 年科技大量过剩，致使产量产能很是多。供应链上层的电子元器件价格下降了，有愈来愈多的 Controller，有国产的 Controller，也有国外的 Controller，价格也下降了。加上容量从原来 MLC 变 TLC，如今 QLC 出现了。一样的平米上，原来是盖别墅的，如今改一两百层的楼。这会致使原来一样面积上有更多的容量出来，价格降低了。

价格降低到什么程度？不说别的，咱们看京东。找英特尔，还不是咱们的国产，如今英特尔的价格是多少？历史趋势简直是跳水，2348 元 = 1.92 元 / TB。东芝 1.2 TB 价格一直波动，1 万转硬盘几年的价格差很少都这样。容量 S4510 是 1.2 元 1GB，机械盘要 1.49 元 / GB，请问还选它干吗？

因此不少表示“须要拿 SSD 用 SAS 机械盘的 Cache”的用户，学过数学你就知道这是无厘头，你这是在拿便宜的产品当贵的产品。懂的人还好，不懂的人特别喜欢用 SATA SSD 作 Cache，SATA SSD 顺序写入性能还不如机械硬盘。

咱们遇到一个真实的案例，这个案例在某一个国企里，用户很是倔，我要跑 Hadoop，你必定要用 Cache 盘，配完了写的性能从 2GB 直接降到 0.5GB。为何？SATA 接口 6GB 而已，SATA 机械盘 S4510 是读密集型的盘，其写的性能差很少 340 兆左右，绝对干不过 10 个机械硬盘。10 个机械硬盘组一个 Read 能够干掉 1GB 的顺序写带宽。

在这种场景下根本没有意义，这种方案纯粹浪费钱，你还要考虑缓存命中率的问题。实际可用性能更差，一旦有 Cache，最大问题是用户体验很很差。你 Cache 命中了 IOPS 很高，Cache 不命中的时候一降低到比机械盘还差。

在有 Cache 状况下，一旦没有缓存命中第一件事要作的是 Cache Miss。首先一个 IO 去查没有命中，再读机械硬盘或者写机械硬盘，性能很是差，还不如纯机械盘的场景。SAS+SATA SSD 或者 PCI-E SDD 根本没有意义。咱们在超融合的推荐上，通常告诉用户直接闪存。

闪存还有一个什么好处？咱们通常不告诉用户，用户不少时候不大愿意接受这一点。闪存是能够压缩的，咱们提供分布式存储，闪存有 50% 以上的压缩比，实际成本变成 6 毛钱。这是为何咱们从 2016 年上海区开的时候就敢用全闪存，那时候闪存的价格大概是机械盘的 3 倍。

公有云上有一个特色，你们共用，你们的数据可能都差很少。你们知道一个 Windows Image 是多少吗？落到盘上可能不到 1G，若是你不作压缩，占用是 100GB。在公有云上，我只占用 1GB。在公有云上，咱们平均的压缩率达到 40% 左右，1TB 数据写下去大概是 0.4TB 是落盘的，真正须要占用存储空间。咱们才敢在 2016 年完成全闪存，咱们很是开心，由于太便宜了。咱们在公有云上不会再选择机械盘的方案。

网卡 Offload 对网络性能的提高

网络方面采用网卡进行硬件 Offload 的方案。在 KVM 虚拟机上用软件作 SDN ，最大带宽只能达到 11.1GB。但其实咱们用的是 25G 网卡，CPU 才是瓶颈，能够看看咱们公有云的 CPU 型号，已经很是高端了，但仍是跑不到这个网卡的上限。

当咱们开启网卡 Offload 功能后，其带宽几乎增长一倍，对 CPU 占用只增长 0.1 SI。若是是多线程的，到 45.4GB 时，个人 CPU 占用反而下降了 75%，这个 CPU 可让我更多的使用，对公有云来讲，能够下降 VM 的成本。若是开启 Offload，单线程带宽只有八分之一的 CPU 占用，同时 PPS 提高 36%，多线程大概提升 3.8 倍左右的性能，同时 CPU 占用下降 80%。这么简单的功能带来这么可观的收益。

因为各路友商和青云的采购，致使上游供应链成本急遽降低。这样的网卡相对于过去你用没有 Offload 的网卡，好比英特尔 8599 只剩下 100 美金，如今是人民币 700 多块钱。一台服务器怎么产也有 3 万块钱。700 块钱帮你提升这么多性能必定是值的。

咱们在超融合里网卡都是 Mellanox，咱们售前经销商问咱们为何必定要这家网卡？咱们也想有其余家的，但比较遗憾，在业界顶尖的技术每每只有一两家能够供应。业界第一的厂商就是这家以色列公司，他们如今是最靠谱的。

RDMA 对存储性能的提高

过去 RDMA 贵，只在 HPC 高性能计算集群里用，他们须要低延时，那时候用的是专有网络，很贵。如今进入以太网，他用了一个方案是 RDMA over Converged Ethernet，这个产品在 100 英镑的网卡上，你不用再加钱，你这 100 美金既有 Offload 的功能，也会有 RDMA 的功能，花得很值。

有了 RDMA，咱们只须要交换机有一个基础功能——流控，不管你是 DCB 仍是其余的流控，这种状况基本普及。咱们有一家合做伙伴，他们自研芯片都有这个功能。主流的华为、华三包括思科交换机都有这样的功能。在下一代芯片里，交换机流控功能都不须要就能够作到 RDMA 的低延时。

咱们以存储为例，后端是闪存，我要运行程序写副本时会带来什么好处？经过 RDMA 链接之后，性能提升 38%，延迟降到 88% 左右，这是 NeonSAN 的测试。能够从这个测试上看到，延迟低于 1 毫秒的，若是没有 RDMA 网络，这个毫秒立刻变得很高，从 1.2 变成 1.9，将近有 90% 的下降。

均衡扩展以提升性能

在作超融合时，计算、存储、网络必定要综合考虑，千万不要配 100 多核的 CPU，下面网络配 10G。有些用户说要用千兆网，实施人员就很痛苦，用户说我不要求性能，过几天他发现这样的机器上只能跑几个 VM ，而后他就要性能上去，这很难去改。

在选择时必定要注意均衡扩展*超融合**的配置。*

以这个为例，你用最好的 CPU 860 配机械盘能跑多少 VM？大概 12 台 VM。换成 SSD 后，14 台 VM。瓶颈在 1GB 网络，由于它是分布式存储，它必定须要有足够带宽把它的数据副本输到另外一个节点，必定是网络的瓶颈。

用户换到 10GB 网络，提升了 10 倍，VM 数量几乎提升了 1 倍。这时候发现什么问题？它选择的仍是 SATA SSD，SATA SSD 是 6GB 带宽，延时很高，协议致使的。它原来是为机械盘定制的协议，不是给闪存使用的。用这么好的 CPU、网卡，25G 的只跑这一点，其实没达到省钱的目的。

真正的省钱是平衡你的计算、网络和存储。

好的 CPU、NVMe 的存储， 25G 的网络，92% 的利用率，你的 CPU 没有白费，都用上了，能跑 46 台虚拟机。你这么配之后，美金数感受好像提上去了，但其实并不亏。整体来看配低端 CPU 是价格便宜一些，可是每台上面能跑的虚拟机太少了。

从两个角度来讲，硬件角度，你用高端的对用户有利，对咱们没利，由于青云是卖软件的公司，用 3 台服务器解决的我只能卖 3 台服务器的软件。从折旧来看，三五年的折旧在这个方案里也是最好的。

咱们历来不会坑用户，而是本着用户利益为主，用这样的机器不只省了软件、CPU 和许可证的费用，同时你的 VM 数量提升了，这种平衡的配置给你带来整体解决方案的成本是最优的。有了性能，又有了更低的运营成本。在超融合里，你们必定注意，解决方案总体成本比单机成本更重要，必定要采用均衡的 CPU 内存和网络配置。