infiniband, fiber channel,RDMA

时间 2019-11-18

标签 infiniband fiber channel rdma 繁體版

原文原文链接

yxr注：html

1)在研究openpower时，看到mellanox公司是铂金会员，其infiniband产品占据了超算(HPC)互联的40%份额。web

继而研究infiniband技术和fiber channel，以太网，PCIE等等的关系，搜索罗列以下网页编程

RDMA现状以及TOE的网站api

2) Infiniband不一样于以太网，后者以网络为中心,操做系统处理各类网络层协议，而infiniband以应用程序为中心，绕过操做系统和CPU不用负责网络通讯，直接offload了CPU的负荷！服务器

3）没有深刻研究，不知道infiniband的HCA和内存控制器如何相连，之前是Hub link，如今吧呢？猜想仍是PCIE吧网络

没有研究infiniband和PCIE的竞争，价格优劣以及性能优劣，好像低端的超算的使用PCIE。架构

没有评估infiniband和omini-path,cray的技术，市场，价格的。分布式

=================布局

http://www.chinastor.com/a/hpc/111S5M32016.html性能

在最新发布的全球超级计算机Top500榜单中，InfiniBand再次延续了其在互连方案上的绝对领先地位。2016年基于InfiniBand解决方案的终端用户数量较Omni-Path高出近四倍，是Cray Aries的五倍，充分证实InfiniBand持续增加的使用率和市场份额。

InfiniBand互联方案现在加速了65%的超算系统，并在TOP500榜单中的所有千万亿次系统中占据了近半壁江山(46%)。Mellanox持续为全球最快的超算系统提供互连，知足了其对高性能、高可扩展及高效网络的需求。此外，Mellanox以太网解决方案还链接了榜单中首个100Gb以太网系统和全部的40Gb以太网系统。

* 在2016 年TOP500 HPC项目中，65个终端用户选择了InfiniBand，用户数量比 Omni-Path 高出近4倍，与 Cray Aries 相比高出5倍

(yxr注：只有65个终端？）

===============================

http://www.ssdfans.com/?p=767

互联芯片对超算的巨大做用咱们来看看美国田纳西大学计算机学教授杰克·唐加拉对中国超算的评价：虽然”天河一号”的处理器仍主要采用美国产品，但其互联芯片已所有替换为中国研究人员自主研制的产品。他说：”互联芯片主要涉及处理器之间的信息流动，对于超级计算机的总体性能起到关键做用。’天河一号’的互联芯片由中国研制，具备世界最早进的水平。”（《中国超级计算机运算速度夺冠互联芯片自制》，http://info.ec.hc360.com/2010/11/171024365014.shtml）中国作出全球排名第一的天河一号超级计算机，自主研发的互联芯片立了大功。

Intel代号为Knights Landing的第二代Xeon Phi处理器配备了Omni Path高速互联接口。Intel在高速互联领域很在就开始布局，早在2012年就收购了QLogic Infiniband技术和Cray的互联技术。它的最终目标是开发Infiniband和True Scale的替代技术，可以更快，更好，更便宜。因此，Intel推出Omni-Path真是煞费苦心，不是简单的一个接口，而是完整的生态链。

=======

https://www.ibm.com/developerworks/cn/aix/library/1105_luoming_infiniband/index.html

Infiniband 的基本概念

网络是经常被认为是路由器、交换机和插在服务器和存储设备上的电缆的集合。在大部分人的印象里，网络用来链接服务器到其余服务器、存储和其余网络。其实，这是一种广泛存在的对网络的片面见解，它将过多的注意力集中在处于网络底层结构的电缆和交换机上。这是典型的“以网络为中心的”观点：认为网络的构成架构应该决定应用程序的通信模式。

Infiniband 网络则基于“以应用程序为中心”的新观点。它的提出来源于一个简单的问题：如何让应用程序访问其余应用程序以及存储尽量的简单、高效和直接？若是以“应用程序为中心”的观点来思考 I/O 问题，就能获得一种与传统彻底不一样的网络架构。

Infiniband 基于一种很是简单的原则：提供一种易于使用的消息服务。这个服务能够被用来与其余应用程序、进程或者存储进行通讯。应用程序再也不向操做系统提交访问其余资源的申请，而是直接使用 Infiniband 消息服务。Infiniband 消息服务是一个很是高效、直接的消息服务，它摒弃了传统网络和应用程序之间消息传递的复杂结构。直接使用 Infiniband 服务意味着应用程序再也不依赖操做系统来传递消息，这大大提升了通讯效率。如图 1，Infiniband 消息服务能够在两个应用程序之间建立一个管道，来使应用程序之间直接进行通讯，从而绕过了操做系统，大大提升了效率。

========

在http://icon.zhiding.cn/zdnet/itpapers/WP_Scalable_Storage_InfiniBand_Final.pdf中

那么，什么是InfiniBand，为何愈来愈多的存储系统销售商不论是背板仍是网络链接都要用到此链接？InfiniBand是一种在2000年左右出现的，基于标准的网络协
议。InfiniBand整合了NGIO和Future I/O(PCI总线替换技术的竞争技术)这两种技术。

从设计上来讲，InfiniBand具备总线技术的特色，但实际上，PCI Express——最终产生的PCI替换技术，从概述上来讲是InfiniBand的一个子集。
InfiniBand与其余网络的核心区别有两个方面。

首先，其采用的是一种基于信用的流量控制系统（这个和PCIE一致）。即在接收对象未保证充足的缓冲以前，不会发送数据。这样，就使得InfiniBand成为像无损光纤通道网络架构那样的光纤通道。

其次，InfiniBand支持远程直接内存访问（RDMA），具有在彻底卸载CPU和操做系统的方式下，在两个远程系统的存储区域移动数据的能力。做为原始总线设计遗留下来的的理念，如要对分布式系统进行扩展，RDMA是关键。有RDMA的InfiniBand具有多种关键优点。

InfiniBand的物理信号技术一直超前于其余网络技术，使得它都具有比其余任何网络协议都大的带宽。目前以56Gb/s运行的InfiniBand，其发展路线预计达到EDR(100Gb/s)的
时间是一年半左右。InfiniBand这一名称自己即说明了其无限的带宽发展前景。InfiniBand路线图设计的目的就是要保证单个链路的带宽可以保持在大于PCIExpress(PCIe)总线数据速率的水平。这样，系统就可以以其可产生的最快速度，在网络间移动数据，而且不会因出现因网络限制而致使的备份。这样，就可以让 InfiniBand具有无限带宽。

=========================

http://blog.163.com/s_u/blog/static/13308367201231253232968/

yxr注：比较老，可是能看到历史

而InfiniBand弥补了PCI总线的上述缺陷，以一种全新的方式把网络中常见的交换和路由概念引入了I/O子系统当中。在InfiniBand架构中，最主要的硬件部分就是HCA、TCA和IB Link。HCA是Host Channel Adapter的缩写，它是链接内存控制器和TCA的桥梁；TCA是Target Channel Adapter的缩写，它将I/O设备（例如网卡、SCSI控制器）的数字信号打包发送给HCA；IB Link包含了链接HCA和TCA的光纤以及光纤交换机、路由器等整套设备。在现阶段一根光纤的传输速率是2.5Git/s，支持全双工模式，而且能够把多条光纤捆绑到一块儿工做，目前的模式有x四、x12两种。
一言以蔽之，InfiniBand架构的核心就是把I/O子系统从服务器主机中剥离出去，经过光纤介质，采用基于交换的端到端的传输模式链接它们

下面咱们看一下在InfiniBand架构中，数据是如何传输的。如图1所示，InfiniBand架构相比PCI总线的方式更前进了一步，在内存控制器与HCA之间是经过Hub Link方式相连的，目前的标准是Hub Interface2.0。Hub Link是一种串行总线，它的工做频率能够提到很高，而它最大的优点就是良好的可扩展性，主板设计师能够根据须要的总线带宽在内存控制器和HCA之间选择多条Hub Link总线。

从图1中能够看出，数据从网卡或硬盘首先经过各自的I/O控制器送给TCA，再由TCA经过InfiniBand Link通过交换机甚至路由器送到HCA，再经过Hub Link总线送到内存控制器

InfiniBand对数据在传送中的处理几乎照搬了以太网协议的所有思想。和TCP/IP协议集极其类似，InfiniBand就是示分了 6个协议层，从Transport层向下各层数据的封装都是由TCA和HCA本身完成的，不须要占用系统CPU的资源，交换机和路由器工做在 Network层。若是超越了Transport层，HCA会把任务交给系统处理，这一部分的工做须要操做系统的支持，可是对于TCA来讲，它是不须要考虑这些的，只要把物理层的信号打包生成网络层能够识别的packet，它的工做就算完成了。

=========================

http://dylan602.blog.163.com/blog/static/167974276201181934727159/

InfiniBand规范定义了3个基本组件：

一个主机信道适配器（HCA）
一个目标信道适配器（TCA）
一个网络交换机

InfiniBand技术经过链接HCAs、TCAs、交换机和路由器而发挥做用（见图3 ）。位于页节点的InfiniBand设备是产生和使用信息包的信道适配器。

HCA 和TCA能够提供一个无需CPU干预的高可靠端－至－端链接。HCA驻留在处理器节点并提供从系统内存到InfiniBand网络的通路。它也有一个可编程的直接内存访问（DMA）引擎。该引擎具备特殊保护和地址翻译特性，从而使DMA操做能够本地进行或者经过另外一个HCA或TCA远程进行。

TCA驻留在I/O单元，并提供I/O设备（如一个磁盘驱动器）或I/O网络（如以太网或光纤通道）与InfiniBand网络的链接。它实现了InfiniBand协议的物理层、连接层和传输层。

交换机放置在信道适配器之间。它们使几个甚至几千个InfiniBand页节点能够在任意位置互连进一个单一网络，该网络同时支持多个链接。交换机既不产生，也不使用信息包。它们只是根据信息包中路由器报头的目的地地址，将其传送过去。交换机对于节点而言是透明的，同时信息包完整无损地通过交换机网。

=====================、

yxr注：2008的文章，10年前的文章，彷佛很看好IB

从价格的角度，今天的Infiniband是万兆以太网的几分之一。Inifiniabnd有比FibreChannel高5倍的性能，在价格上则已与Fibre Channel在同一个数量级上。
存储是内存的延伸，具备RDMA功能的Infiniband应该成为存储的主流协议。比较一下Infiniband和Fibre Channel咱们能够看到Infiniband的性能是Fibre Channel的5倍，Infiniband交换机的延迟是Fibre Channel交换机的1/10。另外在构筑链接全部服务器和存储器的高速网络时使用Infiniband Fabric能够省去Fiber Channel Fabric,从而给客户带来巨大的成本节省。

　今天在使用Infiniband做为存储协议方面已经有了很大的进展。做为iSCSI RDMA的存储协议iSER已被IETF标准化。

　　不一样于Fibre Channel，Infiniband在存储领域中能够直接支持SAN和NAS。存储系统已不能知足于传统的Fibre Channel SAN所提供的服务器与裸存储的网络链接架构。Fibre Channel SAN加千兆以太网加NFS的架构已经严重限制了系统的性能。在这种状况下应运而生的则是由在Infiniband fabric链接起来的服务器和iSER Infiniband存储的基础架构之上的并行文件系统(诸如HP的SFS、IBM的GPFS等等)。在将来的服务器、存储器网络的典型结构将会是由Infiniband将服务器和Infiniband存储器直接链接起来，全部的IP数据网络将会经过万兆以太网到Infiniband的路由器直接进入Infiniband Fabric。

===========================================

http://weibo.com/p/1001603936363903889917?mod=zwenzhang

两种以太网 RDMA 协议： iWARP 和 RoCE

本文是讲演 How Ethernet RDMA Protocols iWARP and RoCE Support NVMe over Fabrics【1】的摘要。

若是 NVMe 存储系统与主机是分离的，显然须要某种 fabric 把它们链接，这样主机才能使用存储系统。目前，支持远程链接的 fabric 包括：

RDMA 协议：底层能够是以太网（ RoCE 或者 iWARP ）或者 Infiniband
Fibre Channel 协议：底层能够是 FC 网络或者以太网（FCoE）

1、为何须要 RDMA ？

RDMA (Remote Direct Memory Access) 是一种绕过主机 (host-offload/host-bypass) 技术：一个应用（包括存储）<--发送/接收数据-->另一个（远程）应用的内存空间。

Source Application <-- （发送/接收、完成）队列 --> 带 RDMA 功能的网卡 <-- 可靠的网络链接 --> 带RDMA 功能的网卡 <-- （发送/接收、完成）队列 --> Target Application

由上图可知，应用程序能够从一台（物理的或者虚拟的）机器直接传送数据到另一台机器，这既提升了带宽又下降了延迟、抖动和 CPU 消耗。

各类操做系统支持 RDMA ：

Windows Server: 从 Windows HPC Server 2008 开始支持 Network Direct userspace API ；从 Windows Server 2012 开始支持 Network Direct kernel API
Linux: 从2004年开始，由 OpenFabrics Alliance 提供 userspace/kernel API ， RHEL 和 SLES 已经自带， Ubuntu 要本身安装？
FreeBSD 9.0+ 支持 OpenFabrics Alliance userspace/kernel API

具体来讲， RDMA 技术特性带来的好处以下图所示：

NVMe 设备延迟很低，这就要求网络延迟也必须很低， RDMA 正好知足这一点。

2、用 RDMA 发送 NVMe 写命令

以一个 NVMe 写操做为例。 NVMe 主机驱动把写命令及数据（从 NVMe 提交队列取出一项）封装一个与底层传输无关的命令胶囊（capsule）；胶囊被放到主机 RDMA 网卡的发送队列中，由 RDMA_SEND 发送出去；目标主机的 RDMA 网卡在接收队列中收到这个胶囊，解除封装，把 NVMe 命令及数据放到目标主机的内存中；目标主机处理 NVMe 命令及数据；完成后，目标主机封装一个 NVMe 命令完成项，由 RDMA 传输到源主机。

3、两种基于以太网的 RDMA 协议

第一种：以太网->IP->UDP->RoCE (RDMA over Converged Ethernet) v2

第二种：以太网->IP->TCP（去掉 TCP/IP 流量控制和管理）->iWARP

不一样协议的网卡之间并不兼容，也就说支持 RoCE 协议的网卡不能与支持 iWARP 协议的网卡交换数据。

两种协议的供应商上台系统不同，

对底层网络基础设施的要求也不同：

了解更多细节，

【1】How Ethernet RDMA Protocols iWARP and RoCE Support NVMe over Fabrics https://www.brighttalk.com/webcast/663/185909

====================

http://www.tomsitpro.com/articles/nvme-over-fabrics-qlogic-brocade,1-3064.html

2015的文章，彷佛为了证实Fiber Channel仍然有市场。。。。

Fibre Channel Vs Ethernet Battle Continues As Brocade, QLogic Demo FC NVMe Over Fabrics

QLogic and Brocade are showing the first NVMe over Fabrics (NVMeF) demonstration utilizing Fibre Channel as the fabric (FC-NVMe) at the Gartner Data Center, Infrastructure and Operations Management Conference.
NVMeF is shaping up to be the leading protocol employed in future low-latency flash-based storage arrays. The NVMe consortium designed the original protocol to increase performance and scalability while simultaneously reducing latency and CPU overhead for in-chassis nonvolatile memories. It was not long before architects, enamored with the lightweight protocol, envisioned the possibilities of employing NVMe as an end-to-end fabric.

However, FC-NVMe may lead to a Fibre Channel resurgence if it can offer tangible benefits over competing RDMA over RoCE and InfiniBand implementations. There is no doubt that NVMeF is coming to the datacenter on an accelerated time frame - the only question is which interconnect will prove to be the most popular.

=========================

1. InfiniBand RDMA iWARP RoCE
2. Fibre Channel和Fiber Channel
3. Fiber Channel SAN Storage
4. InfiniBand, RDMA, iWARP, RoCE , CNA, FCoE, TOE, RDMA, iWARP, iSCSI等概念
5. What Is InfiniBand and InfiniBand Switch?
6. InfiniBand
7. RDMA
8. InfiniBand 与Intel Omni-Path Architecture
9. XSKY 为Ceph Upstream添加InfiniBand RDMA互联支持
10. 什么是RDMA
更多相关文章...
• RSS 元素 - RSS 教程
• RSS 元素 - RSS 教程
• Flink 数据传输及反压详解