深度: NVMe SSD存储性能有OA盘源码搭建哪些影响因素？

时间 2019-11-11

标签深度 nvme ssd 存储性能源码搭建哪些影响因素栏目存储繁體版

原文原文链接

导读： NVMe SSD的性能时常捉摸不定OA盘源码搭建，须要请搜索dsluntan.com 客服企娥1151880099 V信17061863513，，为此咱们须要打开SSD的神秘盒子，从各个视角分析SSD性能影响因素，并思考从存储软件的角度如何最优化使用NVMe SSD，推动数据中心闪存化进程。本文从NVMe SSD的性能影响因素进行分析，并给出存储系统设计方面的一些思考。前端

NVMe SSD的性能时常捉摸不定，为此咱们须要打开SSD的神秘盒子，从各个视角分析SSD性能影响因素，并思考从存储软件的角度如何最优化使用NVMe SSD，推动数据中心闪存化进程。本文从NVMe SSD的性能影响因素进行分析，并给出存储系统设计方面的一些思考。算法

1、存储介质的变革编程

近几年存储行业发生了翻天覆地的变化，半导体存储登上了历史的舞台。和传统磁盘存储介质相比，半导体存储介质具备自然的优点。不管在可靠性、性能、功耗等方面都远远超越传统磁盘。目前经常使用的半导体存储介质是NVMe SSD，采用PCIe接口方式与主机进行交互，大大提高了性能，释放了存储介质自己的性能。后端

一般NVMe SSD内部采用NAND Flash存储介质进行数据存储，该介质自己具备读写不对称性，使用寿命等问题。为此在SSD内部经过FTL（Flash Translation Layer）解决NAND Flash存在的问题，为上层应用软件呈现和普通磁盘相同的应用接口和使用方式。缓存

如上图所示，随着半导体存储介质的发展，计算机系统的IO性能获得了飞速发展。基于磁介质进行数据存储的磁盘和处理器CPU之间一直存在着棘手的剪刀差性能鸿沟。随着存储介质的演进与革新，这种性能剪刀差将不复存在。性能优化

从整个系统的角度来看，IO性能瓶颈正从后端磁盘往处理器和网络方向转移。以下图性能数据所示，在4KB访问粒度下，NVMe SSD和15K转速磁盘相比，每秒随机读IO处理能力提高了将近5000倍；每秒随机写IO处理能力提高了1000多倍。随着非易失性存储介质的进一步发展，半导体存储介质的性能将进一步提高，而且会具备更好的IO QoS能力。网络

存储介质的革命一方面给存储系统性能提高带来了福音；另外一方面对存储系统的设计带来了诸多挑战。原有面向磁盘设计的存储系统再也不适用于新型存储介质，面向新型存储介质须要从新设计更加合理的存储软件堆栈，发挥存储介质的性能，而且能够规避新介质带来的新问题。面向新型存储介质重构存储软件栈、重构存储系统是最近几年存储领域的热门技术话题。架构

在面向NVMe SSD进行存储系统设计时，首先须要对NVMe SSD自己的特性要很是熟悉，须要了解SSD性能的影响因素。在设计过程当中须要针对SSD的特性经过软件的方式进行优化。本文对SSD进行简要介绍，并从性能影响因素角度出发，对NVMe SSD进行深刻剖析，在此基础上给出闪存存储设计方面的一些思考。并发

2、NVMe SSD成为主流app

2.1 NAND Flash介质发展

目前NVMe SSD主流采用的存储介质是NAND Flash。最近几年NAND Flash技术快速发展，主要发展的思路有两条：

第一，经过3D堆叠的方式增长NAND Flash的存储密度；
第二，经过增长单Cell比特数来提高NAND Flash的存储密度。

3D NAND Flash已经成为SSD标配，目前主流发布的SSD都会采用3D NAND Flash技术工艺。从cell的角度来看，目前单个cell能够表示3bit，这就是一般所说的TLC NAND Flash。

今年单个cell的bit存储密度又提高了33%，能够表示4bit，向前演进至QLC NAND Flash。NAND Flash的不断演进，推进了SSD存储密度不断提高。截止到今天，单个3.5寸SSD盘能够作到128TB的容量，远远超过了磁盘的容量。下图是近几年NAND Flash技术的发展、演进过程。

从上图能够看出，NAND Flash在不断演进的过程当中，一些新的非易失性内存技术也开始发展。Intel已经推出了AEP内存存储介质，能够预计，将来将会是非易失性内存和闪存共存的半导体存储时代。

2.2 软件层面看SSD——多队列技术

从软件接口的角度来看，NVMe SSD和普通的磁盘没有太多的区别，在Linux环境下都是标准块设备。因为NVMe SSD采用了最新的NVMe协议标准，所以从软件堆栈的角度来看，NVMe SSD的软件栈简化了不少。在NVMe标准中，和传统的SATA/SAS相比，一个重大的差异是引入了多队列机制，以下图所示。

何为多队列技术？主机（X86 Server）与SSD进行数据交互的模型采用“生产者-消费者”模型，采用生产者-消费者队列进行数据交互。在原有的AHCI规范中，只定义了一个交互队列，那么主机与HDD之间的数据交互只能经过一个队列通讯，多核处理器也只能经过一个队列与HDD进行数据交互。在磁盘存储时代，因为磁盘是慢速设备，因此一个队列也就够用了。

多个处理器核经过一个共享队列与磁盘进行数据交互，虽然处理器之间会存在资源竞争，可是相比磁盘的性能，处理器之间竞争所引入的开销实在是微乎其微，能够忽略。在磁盘存储时代，单队列有其余的好处，一个队列存在一个IO调度器，能够很好的保证提交请求的IO顺序最优化。

和磁盘相比，半导体存储介质具备很高的性能，AHCI原有的规范再也不适用，原有的假设也已经不复存在，在此背景下NVMe规范诞生了。

NVMe规范替代了原有的AHCI规范，而且软件层面的处理命令也进行了从新定义，再也不采用SCSI/ATA命令规范集。在NVMe时代，外设和处理器之间的距离更近了，再也不须要像SAS同样的面向链接的存储通讯网络。相比于之前的AHCI、SAS等协议规范，NVMe规范是一种很是简化，面向新型存储介质的协议规范。该规范的推出，将存储外设一会儿拉到了处理器局部总线上，性能大为提高。而且主机和SSD处理器之间采用多队列的设计，适应了多核的发展趋势，每一个处理器核与SSD之间能够采用独立的硬件Queue Pair进行数据交互。

从软件的角度来看，每一个CPU Core均可以建立一对Queue Pair和SSD进行数据交互。Queue Pair由Submission Queue与Completion Queue构成，经过Submission queue发送数据；经过Completion queue接受完成事件。SSD硬件和主机驱动软件控制queue的Head与Tail指针完成双方的数据交互。

2.3 深刻理解SSD硬件

和磁盘相比，NVMe SSD最大的变化在于存储介质发生了变化。目前NVMe SSD广泛采用3D NAND Flash做为存储介质。NAND Flash内部有多个存储阵列单元构成，采用floating gate或者charge trap的方式存储电荷，经过存储电荷的多少来保持数据存储状态。

因为电容效应的存在、磨损老化、操做电压干扰等问题的影响，NAND Flash天生会存在漏电问题（电荷泄漏），从而致使存储数据发生变化。所以，从本质上讲，NAND Flash是一种不可靠介质，很是容易出现Bit翻转问题。SSD经过控制器和固件程序将这种不可靠的NAND Flash变成了可靠的数据存储介质。

为了在这种不可靠介质上构建可靠存储，SSD内部作了大量工做。在硬件层面，须要经过ECC单元解决常常出现的比特翻转问题。每次数据存储的时候，硬件单元须要为存储的数据计算ECC校验码；在数据读取的时候，硬件单元会根据校验码恢复被破坏的bit数据。ECC硬件单元集成在SSD控制器内部，表明了SSD控制器的能力。

在MLC存储时代，BCH编解码技术能够解决问题，4KB数据中存在100bit翻转时能够纠正错误；在TLC存储时代，bit错误率大为提高，须要采用更高纠错能力的LDPC编解码技术，在4KB出现550bit翻转时，LDPC硬解码仍然能够恢复数据。下图对比了LDPC硬解码、BCH以及LDPC软解码之间的能力，从对比结果能够看出，LDPC软解码具备更强的纠错能力，一般使用在硬解码失效的状况下。LDPC软解码的不足之处在于增长了IO的延迟。

在软件层面，SSD内部设计了FTL（Flash Translation Layer），该软件层的设计思想和Log-Structured File System设计思想相似。采用log追加写的方式记录数据，采用LBA至PBA的地址映射表记录数据组织方式。

Log-structured系统最大的一个问题就是垃圾回收(GC)。所以，虽然NAND Flash自己具备很高的IO性能，但受限于GC的影响，SSD层面的性能会大受影响，而且存在十分严重的IO QoS问题，这也是目前标准NVMe SSD一个很重要的问题。

SSD内部经过FTL解决了NAND Flash不能Inplace Write的问题；采用Wear Leveling算法解决了NAND Flash磨损均衡问题；经过Data Retention算法解决了NAND Flash长时间存放漏电问题；经过Data Migration方式解决Tead Diatribe问题。FTL是NAND Flash得以大规模使用的核心技术，是SSD的重要组成部分。

NAND Flash内部自己具备不少并发单元，如上图所示，一个NAND Flash芯片由多个Target构成，每一个Target包含多个Die。每一个Die是一个独立的存储单元，一个Die由多个Plane构成，多个Plane之间共享一套操做总线，多个Plane能够组成一个单元并发操做，构建Multi-plane。

一个Plane由若干个Block构成，每一个Block是一个擦除单元，该单元的大小也决定了SSD软件层面的GC回收粒度。每一个Block由多个page页构成，每一个Page是最小写入（编程）单元，一般大小为16KB。SSD内部软件（固件）须要充分利用这些并发单元，构建高性能的存储盘。

一块普通NVMe SSD的物理硬件结构简单，由大量的NAND Flash构成，这些NAND Flash经过SOC（SSD控制器）进行控制，FTL软件运行在SOC内部，并经过多队列的PCIe总线与主机进行对接。为了提高性能，企业级SSD须要板载DRAM，DRAM资源一方面能够用来缓存数据，提高写性能；另外一方面用来缓存FTL映射表。企业级SSD为了提高性能，一般采用Flat mapping的方式，须要占据较多的内存（0.1%）。

内存容量的问题也限制了大容量NVMe SSD的发展，为了解决内存问题，目前一种可行的方法是增大sector size。标准NVMe SSD的sector size为4KB，为了进一步增大NVMe SSD的容量，有些厂商已经开始采用16KB的sector size。16KB Sector size的普及应用，会加速大容量NVMe SSD的推广。

3、影响NVMe SSD的性能因素

NVMe SSD 厂商Spec给出的性能很是完美，前面也给出了NVMe SSD和磁盘之间的性能对比，NVMe SSD的性能的确比磁盘高不少。但在实际应用过程当中，NVMe SSD的性能可能没有想象中的那么好，而且看上去不是特别的稳定，找不到完美的规律。

和磁盘介质相比，SSD的性能和不少因素相关，分析SSD的性能影响因素，首先须要大致了解SSD构成的主要部分。以下图所示，其主要包括主机CPU、PCIe互连带宽、SSD控制器及FTL软件、后端NAND Flash带宽、NAND Flash介质。影响SSD性能的主要因素能够分红硬件、软件和客观环境三大部分，具体分析以下。

一、硬件因素

A) NAND Flash自己：不一样类型的NAND Flash自己具备不一样的性能，例如SLC的性能高于MLC，MLC的性能优于TLC。选择不一样的工艺、不一样类别的NAND Flash，都会具备不一样的性能。

B)后端通道数(CE数量)及总线频率：后端通道数决定了并发NAND Flash的数量，决定了并发能力。不一样的SSD控制器支持不一样数量的通道数，也决定了SSD的后端吞吐带宽能力。NAND Flash Channel的总线频率也决定了访问Flash的性能。

C) SSD控制器的处理能力：SSD控制器中会运行复杂的FTL（Flash Translation Layer）处理逻辑，将逻辑块读写映射转换成NAND Flash 读写请求。在大数据块读写时，对处理器能力要求不是很高；在小数据块读写时，对处理器能力要求极高，处理器能力很容易成为整个IO系统的性能瓶颈点。

D) SSD控制器架构：一般SSD控制器采用SMP或者MPP两种架构，早期的控制器一般采用MPP架构，多个小处理器经过内部高速总线进行互连，经过硬件消息队列进行通讯。内存资源做为独立的外设供全部的处理器进行共享。

这种架构和基于消息通讯的分布式系统相似。MPP架构的很大优点在于性能，可是编程复杂度较高；SMP架构的性能可扩展性取决于软件，编程简单，和在x86平台上编程类似。不一样的控制器架构会影响到SSD的整体性能，在SSD设计时，会根据设计目标，选择不一样类型的SSD控制器。

E) 内存支持容量：为了追求高性能，SSD内部的映射资源表会常驻内存，映射表的内存占用大小是盘容量的0.1%，当内存容量不够大时，会出现映射表换入换出的问题，影响到性能。

F) PCIe的吞吐带宽能力：PCIe前端带宽体现了SSD的前端吞吐能力，目前NVMe SSD采用x4 lane的接入方式，上限带宽为3GB/s，当后端NAND Flash带宽和处理器能力足够时，前端PCIe每每会成为性能瓶颈点。NAND Flash具备很高的读性能，目前来看，SSD的读性能在很大程度上受限于PCIe总线，所以须要快速推动PCIe4.0标准。

G) 温度对性能形成影响：在NAND Flash全速运行的状况下，会产生较大的散热功耗，当温度高到必定程度时，系统将会处于不正常的工做状态，为此，SSD内部作了控温系统，经过温度检测系统来调整SSD性能，从而保证系统温度维持在阈值以内。调整温度会牺牲性能，本质上就是经过下降SSD性能来降温。所以，当环境温度太高时，会影响到SSD的性能，触发SSD内部的温度控制系统，调节SSD的性能。

H) 使用寿命对性能形成影响：NAND Flash在不断擦除使用时，Flash的bit error会不断上升，错误率的提高会影响到SSD的IO性能。

二、软件因素

A) 数据布局方式：数据布局方法须要充分考虑NAND Flash中的并发单元，如何将IO操做转换成NAND Flash的并发操做，这是数据布局须要考虑的问题。例如，采用数据交错的方式在多通道page上进行数据布局，经过这种方式能够优化顺序带宽。

B) 垃圾回收/wear leveling调度方法：数据回收、wear leveling、data retention等操做会产生大量的NAND Flash后端流量，后端流量直接反应了SSD的写放大系数，也直接体如今后端带宽的占用。垃圾回收等产生的流量也能够称之为背景流量，背景流量会直接影响到前端用户性能。所以须要对背景流量和用户流量之间进行合理调度，使得用户IO性能达到最佳。

C) OP预留：为了解决坏块、垃圾回收等问题，在SSD内部预留了一部分空闲资源，这些资源被称之为OP（Overprovisioning）。OP越大，GC过程当中平均搬移的数据会越少，背景流量会越小，所以，写放大下降，用户IO性能提高。反之，OP越小，性能会越低，写放大会越大。在SSD容量较小的时代，为了提高SSD的使用寿命，每每OP都设置的比较大。

D) Bit error处理影响性能：在SSD内部采用多种机制来处理NAND Flash所产生的Bit error。ECC纠错、read retry、soft LDPC以及RAIN都是用来纠正bit翻转致使的错误。当Bit错误率增长时，软件处理的开销越大，在bit控制在必定范围以内，彻底能够经过硬件进行纠正。一旦软件参与到bit纠正的时候，会引入较大的性能开销。

E) FTL算法：FTL算法会影响到SSD性能，对于不一样用途的SSD，FTL的设计与实现是彻底不一样的，企业级SSD为了追求高性能，一般采用Flat mapping的方式，采用大内存缓存映射表；消费级SSD为了追求低成本，一般采用元数据换入换出的方式，而且采用pSLC+TLC的组合方式进行分层存储，也能够采用主机端内存缓存元数据信息，可是这些方式都会影响到性能。

F) IO调度算法：NAND Flash具备严重的性能不对称性，Flash Erase和Program具备ms级延迟，Flash read的延迟在us级。所以，如何调度Erase、Program以及read是SSD后端设计须要考虑的问题。另外，前端IO以及背景IO之间的调度也是须要权衡考虑，经过IO调度能够达到最佳性能表现。在IO调度过程当中，还须要利用NAND Flash的特性，例如Program Suspension，经过这些特性的利用，最优化SSD前端IO性能。

G)驱动软件：驱动软件运行在主机端，一般分为内核态和用户态两大类，内核态驱动会消耗较多的CPU资源，存在频繁上下文切换、中断处理，所以性能较低；用户态驱动一般采用Polling IO处理模式，去除了上下文切换，能够充分提高CPU效率，提高总体IO性能。

H) IO Pattern对性能产生影响：IO Pattern影响了SSD内部的GC数据布局，间接影响了GC过程当中的数据搬移量，决定了后端流量。当IO Pattern为全顺序时，这种Pattern对SSD内部GC是最为友好的，写放大接近于1，所以具备最好的性能；当IO Pattern为小块随机时，会产生较多的GC搬移数据量，所以性能大为降低。在实际应用中，须要经过本地文件系统最优化IO Pattern，获取最佳性能。

三、客观因素

A) 使用时间越长会致使SSD性能变差：使用时间变长以后，SSD内部NAND Flash的磨损会加剧，NAND Flash磨损变大以后会致使bit错误率提高。在SSD内部存在一套完整的bit错误恢复机制，由硬件和软件两大部分构成。当bit错误率达到必定程度以后，硬件机制将会失效。硬件机制失效以后，须要经过软件（Firmware）的方式恢复翻转的bit，软件恢复将会带来较大的延迟开销，所以会影响到SSD对外表现的性能。

在有些状况下，若是一块SSD在掉电状况下放置一段时间以后，也可能会致使性能变差，缘由在于SSD内部NAND Flash中存储电荷的漏电，放置一段时间以后致使bit错误率增长，从而影响性能。SSD的性能和时间相关，本质上仍是与NAND Flash的比特错误率相关。

B) 环境温度也会对性能形成影响：为了控制SSD温度不能超过上限值，在SSD内部设计有一套温度负反馈机制，该机制经过检测的温度对NAND Flash后端带宽进行控制，达到下降温度的效果。若是一旦温度负反馈机制开始工做，那么NAND Flash后端带宽将会受到限制，从而影响前端应用IO的性能。

下面从软件的角度出发，重点阐述GC以及IO Pattern对SSD性能的影响。

3.1 GC对性能的影响

SSD内部有一个很是厚重的软件层，该软件层用来解决NAND Flash的问题，采用log-structured的方式记录数据。Log-structured方式引入了GC的问题，对于前端业务来说，GC流量就是背景噪声。GC流量不是时时刻刻存在的，所以，SSD对外体现性能大幅度波动。

当SSD为空盘时，性能会很是好，为最佳性能；当SSD被用过一段时间以后，性能会大幅下降。其中GC起到了很重要的做用。企业级SSD在发布Spec的时候，都会发布SSD盘的稳态性能。在性能测试的时候，须要对盘进行老化预处理。一般预处理的方法是顺序写满盘，而后再随机两遍写盘，预处理完成以后，再对盘进行随机读写测试，获得Spec中定义的值。稳态值基本能够认为是盘的下限性能。

上图所示是多个厂商的盘在空盘和稳态状况下的性能对比，因而可知稳态状况和空盘状况下的性能差距很大。在稳态状况下，SSD内部的GC会全速运行，会占用较多的NAND Flash后端带宽。背景流量和前端数据流的比例也就体现了SSD盘的写放大系数，写放大系数越大，背景流量占用带宽越多，SSD对外体现的前端性能也就越差。写放大系数不少因素相关，例如OP、应用IO Pattern等。

若是应用IO Pattern比较好，那么能够下降写放大系数，背景噪声流就会减小，前端业务的性能会提高。例如，在SSD彻底顺序写入的状况下，写放大系数能够接近于1，此时GC产生的数据流不多，背景流量基本没有，后端带宽基本被业务数据流占用，所以对外体现的性能会很好。

GC是影响性能的重要因素，除了影响性能以外，GC会增大写放大，对SSD的使用寿命产生影响。从软件层面的角度考虑，能够经过优化应用IO Pattern的方式优化SSD内部GC，从而进一步提高SSD的性能，优化使用寿命。对于下一代更为廉价的QLC SSD介质，就须要采用这种优化思路，不然没法很好的知足实际业务的应用需求。

3.2 IO Pattern对性能的影响

IO Pattern会对SSD的性能产生严重影响，主要表如今以下几个方面：

一、不一样的IO Pattern会产生不一样的写放大系数，不一样的写放大系数占用后端NAND Flash带宽不一样。当前端应用对SSD采用彻底顺序的方式进行写入时，此时是最佳的IO Pattern，对于SSD而言写放大系数接近1，SSD内部的背景流量基本能够忽略，前端性能达到最佳。在实际应用中，很难采用这种彻底顺序的数据写模型，但能够经过优化逼近顺序写入。

二、不一样请求大小的IO之间会产生干扰；读写请求之间会产生干扰。小请求会受到大请求的干扰，从而致使小请求的延迟增长，这个比较容易理解，在HDD上一样会存在这种状况。因为NAND Flash介质存在严重的读写不对称性，所以读写请求之间也会互相干扰，尤为是写请求对读请求产生严重的性能影响。

3.2.1 顺序写入Pattern对SSD性能优化的奥秘

在针对闪存系统的设计中，须要考虑IO Pattern对性能产生的影响，经过软件的优化来最优化SSD的使用。在实际应用中彻底顺序写入的IO Pattern基本上是不存在的，除非用做顺序写入的日志设备。对于顺序写入优化性能这个结论，须要从SSD内部实现来深刻理解，知道根源以后，能够采用合理的方式来逼近顺序写入的模式，从而最优化SSD的性能。

SSD内部采用log-structured的数据记录模式，并发写入的IO数据按照时间顺序汇聚成大数据块，合并造成的大数据块以Page stripe的方式写入NAND Flash。

多个Page stripe会被写入同一个GC单元（Chunk or Superblock），当一个GC单元被写完成以后，该GC单元进入sealed模式（只读），分配新的GC单元写新的数据。在这种模式下，若是多个业务的数据流并发随机的往SSD中写入数据，那么多个应用的数据就会交错在一块儿被存储到同一个GC单元中。

以下图所示，不一样应用的数据生命周期不一样，当须要回收一个GC单元的时候，会存在大量数据的迁移，这些迁移的数据就会造成写放大，影响性能和使用寿命。

不一样应用的数据交错存储在同一个GC单元，本质上就是不一样冷热程度的数据交错存储的问题。从GC的角度来说，相同冷热程度的数据存储在同一个GC单元上是最佳的，为此三星推出了Multi-stream SSD，该SSD就容许不一样应用的数据存储到不一样的Stream单元（GC单元），从而提高GC效率，下降写放大。Multi-stream是一种显式的设计方式，须要更改SSD接口以及应用程序。从IO Pattern的角度考虑，能够经过顺序大块的方式也能够逼近相似的效果。

假设操做SSD只存在一个线程，不一样的应用都采用大数据块的方式写入数据，那么在一个时间片断内只存在一个应用的数据往SSD中写入数据，那么在一个GC单元内存储的数据会变得有序和规则。以下图所示，采用上述方法以后，一个GC单元内存储的数据将会变得冷热均匀。在GC过程当中会大大减小数据的搬移，从而减小背景流量。

在实际应用中，上述IO Pattern很难产生，主要是应用很难产生很是大粒度的请求。为此在存储系统设计过程当中，能够引入Optane高性能存储介质做为SSD的写缓存。前端不一样业务的写请求首先写到Optane持久化介质中，在Optane持久化介质中聚合造成大数据块。一旦聚合造成大数据块以后，再写入SSD，经过这种方式能够最大程度的逼近SSD顺序写入过程，提高SSD的性能和使用寿命。

3.2.2 读写冲突Pattern对性能的影响

以下图所示，NAND Flash介质具备很强的读写不对称性。Block Erase和Page Program的延迟会远远高于Page Read所耗费的时间。那么在这种状况下，若是read请求在同一个Flash Channel上和Erase、Program操做冲突，那么read操做将会被Erase／program操做影响。这是在读写混合状况下，读性能会受到影响的重要因素。

在实际应用过程当中，常常会发现应用的测试结果和SSD Spec对不上，会比Spec给出的值要来的低。Spec给出的值一般为纯读或者纯写状况下的性能指标，在读写混合的场景下，性能表现和Spec给出的值就会存在很是大的出入。

对于不一样的SSD，经过测试能够发如今读写混合状况下的性能表现差距会比较大。在SSD处于稳态条件下，应用随机读的状况下，若是引入一个压力不是很大的顺序写，那么会发现不一样SSD的抗干扰能力是不一样的。有些SSD在写干扰的状况下，读性能会急剧降低，延迟快速上升，QoS性能得不到保证。下图是两个SSD在相同状况下的测试结果，从结果来看，有些SSD的抗写干扰能力比较强，读性能不会急剧降低。

为何有些SSD会具有比较强的抗写干扰能力呢？其中的奥秘就在于SSD内部的IO调度器。IO调度器会对write、read 和Erase请求进行调度处理，该调度器算法的不一样就会表现出不一样的抗干扰能力。目前不少NAND Flash能够支持Program／Erase Suspension的功能，在IO调度处理的过程当中，为了提高读性能，下降读请求延迟，能够采用Suspension命令对Program／Erase命令暂停，对read请求优先调度处理。

读写冲突是SSD内部影响IO QoS的重要因素。在SSD内部经过IO调度器的优化能够提高SSD性能的QoS能力，可是仍是没法与存储软件结合来协同优化QoS。为了达到最佳的SSD性能QoS，须要关注Openchannel技术。Openchannel其实只是一种软硬件层次划分的方法，一般来说，SSD内部的逻辑能够划分为面向NAND资源的物理资源管理层以及面向数据布局的资源映射层。物理资源管理因为和NAND Flash密切相关，所以能够放到SSD内部。

传统的NVMe SSD须要对外暴露标准的块设备接口，所以须要在SSD内部实现资源映射层。从端至端的角度来看，资源映射层能够与存储软件层结合起来，为此将资源映射层从SSD内部剥离出来，集成至存储软件层。一旦资源映射层从SSD内部剥离以后，须要定义一个新的SSD接口，其中的一种接口方式就是Openchannel。

盘古分布式存储针对SSD QoS问题进行了大量研究，提出了Object SSD的概念，Object SSD也是一种新的SSD接口方式，其采用对象方式对SSD进行读写删操做，每一个对象采用Append write操做方式。这种接口方式能够很好的与分布式存储无缝结合。采用Object SSD以后，SSD内部的大量工做被简化，IO的调度会更加灵活，存储软件与SSD协同配合，达到IO性能的最优化，以及QoS的最大化。

4、SSD写性能分析模型

SSD内部的数据流分红两大类，一类为前端用户数据流；另外一类为内部背景数据流。前端用户数据流和背景数据流会汇聚成NAND Flash后端流量。当背景数据流不存在时，NAND Flash带宽会被用户数据流所有占据，此时SSD对外表现的性能达到最佳。当SSD具备较大写放大时，会产生很大的背景数据流，背景流会抢占NAND Flash带宽，致使前端用户IO性能下降。为了稳定前端IO性能，在SSD内部的调度器会均衡前端和背景流量，保证前端性能的一致性。背景流量的占比反应了SSD的写放大系数，所以，站在NAND Flash带宽占用的角度能够分析SSD在稳态状况下的性能。

在此，假设写放大系数为WA，顺序写状况下的总带宽数为B，用户写入流量（随机写入流量）为U。那么，因为GC写放大形成的背景流量为：(WA – 1)* U
写放大流量为一读一写，都会占用带宽，所以，总带宽能够描述为：

2 (WA – 1) U + U = B
所以，能够获得：
U = B / (2(WA – 1) + 1) = B / (2 WA – 1)
上述公式表述了前端用户流量和NAND Flash总带宽、写放大系数之间的关系。

根据Spec，Intel P4500的顺序写带宽为1.9GB/s，按照上述公式，在随机访问模式下的带宽为: 1900 / (2 * 4 – 1) = 270MB/s，IOPS为67K，根据该公式推导的结果和Spec给出的结果相同。

下图是Intel P4500和Samsung PM963随机写延迟和推导公式之间的对比。结果很是吻合。

由此能够推出，随机写性能由SSD内部后端带宽以及写放大系数来决定。所以，从存储软件的角度出发，咱们能够经过优化IO Pattern的方式减少写放大系数，从而能够提高SSD的随机写性能。

5、小结

闪存存储技术正在飞速发展，闪存介质、SSD控制器、存储系统软件、存储硬件平台都在围绕闪存突飞猛进的发展。闪存给数据存储带来的价值显而易见，数据中心闪存化是重要发展趋势。NVMe SSD性能受到不少因素的影响，在软件层面能够经过IO Pattern优化SSD的性能，使得总体存储系统的性能达到最佳。