RAID5 and RAID 10

RAID5 VS RAID10 (性能比较和原理 RAID相关资料)

sg_trans.gif (2009-09-03 20:29:45)
标签:

raid10

raid5

it

分类:Linux系统
存储是目前IT产业发展的一大热点,而RAID技术是构造高性能、海量存储的基础技术,也是构建网络存储的基础技术。专家认为,磁盘阵列的性能优点得益于磁盘运行的并行性,提升设备运行并行度能够提升磁盘的性能和数据安全性。

    20年来,RAID 推出了一系列级别,包括RAID 0、RAID 一、RAID 二、RAID 三、RAID四、RAID 5,以及各类组合如 RAID 0+1 等。其中最普遍的包括RAID5与RAID10。可是一直以来,关于RAID5与RAID10的性能优劣的争端仍是很是多的,甚至不少人包括不少公司都那拿出了测试数据。而这些测试数据复杂难懂相互矛盾,更加让用户感到迷惑,不知道如何选择。php

    在这里,我将就这两种RAID的内部运行原理来分析一下,看看咱们在什么状况下应当适合选哪种RAID方式。根据个人经验与分析:象小io的数据库类型操做,如ERP等等应用,建议采用RAID10,而大型文件存储,数据仓库,如医疗PACS系统、视频编辑系统则从空间利用的角度,建议采用RAID5。下面请看详细的性能对比:html

    本文分为上下两篇,上文侧重分析两种RAID的内部运行原理,下文将根据不一样的影响磁盘性能的因素来分析,RAID方案对磁盘系统的影响,参考“RAID5和RAID10,哪一种RAID更适合你(下)前端

    为了方便对比,我这里拿一样多驱动器的磁盘来作对比,RAID5选择3D+1P的RAID方案,RAID10选择2D+2D的Raid方案,分别如图:
算法

RAID5 VS RAID10 (性能比较和原理 RAID相关资料)


    那么,咱们分析以下三个过程:读,连续写,随机写,可是,在介绍这三个过程以前,我须要介绍另一个磁盘阵列中的重要概念:cache。数据库

磁盘读写速度的关键之一:Cache后端

    cache技术最近几年,在磁盘存储技术上,发展的很是迅速,做为高端存储,cache已是整个存储的核心所在,就是中低端存储,也有很大的cache存在,包括最简单的RAID卡,通常都包含有几十,甚至几百兆的RAID cache。缓存

    cache的主要做用是什么呢?做为缓存,cache的做用具体体如今读与写两个不一样的方面:做为写,通常存储阵列只要求数据写到cache就算完成了写操做,当写cache的数据积累到必定程度,阵列才把数据刷到磁盘,能够实现批量的写入。因此,阵列的写是很是快速的。至于cache数据的保护,通常都依赖于镜相与电池(或者是UPS)。安全

    cache在读数据方面的做用同样不可忽视,由于若是所须要读取的数据能在cache中命中的话,将大大减小磁盘寻道所须要的时间。由于磁盘从开始寻道到找到数据,通常都在6ms以上,而这个时间,对于那些密集型I/O的应用可能不是太理想。可是,若是能在cache保存的数据中命中,通常响应时间则能够缩短在1ms之内。网络

    不要迷信存储厂商的IOPS(每秒的io数)数据,他们可能所有在cache命中的基础上作到的,可是实际上,你的cache命中率可能只有10%。架构

    介绍完cache,咱们就能够解释RAID5与RAID10在不一样的模式下,工做效率问题了,那么咱们来分别分析读操做、连续写和离散写三方面的问题。

读操做方面的性能差别
    如我上文的介绍,磁盘阵列读操做的关键更多的体如今cache的命中率上。因此,RAID5和RAID10在读数据上面,他们基本是没有差异的,除非是读的数据能影响cache命中率,致使命中率不同。

RAID5 VS RAID10 (性能比较和原理 RAID相关资料)

连续写方面的性能差别
    连续写的过程,通常表示写入连续的大批量的数据,如媒体数据流,很大的文件等等。连续写操做大多数产生于医疗PACS系统、高教图书馆系统、视频编辑系统等等应用环境下。

    根据我本人的经验,在连续写操做过程,若是有写cache存在,而且算法没有问题的话,RAID5比RAID10甚至会更好一些,虽然也许并无太大的差异。(这里要假定存储有必定大小足够的写cache,并且计算校验的cpu不会出现瓶颈)。

    由于这个时候的RAID校验是在cache中完成,如4块盘的RAID5,能够先在内存中计算好校验,同时写入3个数据+1个校验。而RAID10只能同时写入2个数据+2个镜相。

RAID5 VS RAID10 (性能比较和原理 RAID相关资料)

    如上图所示,4块盘的RAID5能够在同时间写入一、二、3到cache,而且在cache计算好校验以后,我这里假定是6(实际的校验计算并非这样的,我这里仅仅是假设),同时把三个数据写到磁盘。而4块盘的RAID10无论cache是否存在,写的时候,都是同时写2个数据与2个镜相。

    根据我前面对缓存原理的介绍,写cache是能够缓存写操做的,等到缓存写数据积累到必定时期再写到磁盘。可是,写到磁盘阵列的过程是早晚也要发生的,因此RAID5与RAID10在连续写的状况下,从缓存到磁盘的写操做速度会有较小的区别。不过,若是不是连续性的强连续写,只要不达到磁盘的写极限,差异并非太大。

离散写方面的性能差别
    这里可能会较难理解,可是,这一部分也是最重要的部分。企业中的绝大部分数据库应用,如ERP系统等等在数据写入的时候其实都是离散写。

    例如oracle 数据库每次写一个数据块的数据,如8K;因为每次写入的量不是很大,并且写入的次数很是频繁,所以联机日志看起来会像是连续写。可是由于不保证可以添满RAID5的一个条带(保证每张盘都能写入),因此不少时候更加偏向于离散写入。

RAID5 VS RAID10 (性能比较和原理 RAID相关资料)


    咱们从上图看一下离散写的时候,RAID5与RAID10工做方式有什么不一样。如上图:咱们假定要把一个数字2变成数字4,那么对于RAID5,实际发生了4次io:
    先读出2与校验6,可能发生读命中
    而后在cache中计算新的校验
    写入新的数字4与新的校验8

    如上图咱们能够看到:对于RAID10,一样的单个操做,最终RAID10只须要2个io,而RAID5须要4个io。

    这里我忽略了RAID5在那两个读操做的时候,可能会发生读命中操做的状况。也就是说,若是须要读取的数据已经在cache中,多是不须要4个io的。这也证实了cache对RAID5 的重要性,不只仅是计算校验须要,并且对性能的提高尤其重要。我本人曾经测试过,在RAID5的阵列中,若是关闭写cache,RAID5的性能将差不少倍。

    固然,我并非说cache对RAID10就不重要了,由于写缓冲,读命中等,都是提升速度的关键所在,不过的是,RAID10对cache的依赖性没有RAID5那么明显而已。

    到这里,你们应当也大体明白了RAID5与RAID10的原理与差异了,通常来讲,象小io的数据库类型操做,建议采用RAID10,而大型文件存储,数据仓库,则从空间利用的角度,能够采用RAID5。

    在本文下篇,咱们将进一步分析影响磁盘性能的不一样因素,并分析不一样的RAID方案对磁盘系统的影响,清参考“RAID5和RAID10,哪一种RAID更适合你(下)

前一段时间我写过一篇文章“ RAID5和RAID10,哪一种RAID适合你”,主要从磁盘系统的内部运行细节分析了RAID5与RAID10的异同,以及各自适用的范围。本文将接续上篇,继续从RAID原理来分析存储系统的瓶颈。

    咱们知道,在存储系统的采购过程当中,厂商每每可以提供漂亮的性能参数,但实际运行中,该系统的实际性能表现并不能达到咱们所指望的状态,那么在运行环境中存储系统的实际性能究竟受哪些环节和瓶颈的影响呢?

RAID5 VS RAID10 (性能比较和原理 RAID相关资料)

    之因此要和你们来讨论这个问题,是由于在本人的工做中曾遇到一个实际的Case,在这个case中,一个恢复压力很大的standby(这里主要是写,并且是小io的写),采用了RAID5的方案,发现性能不好,后来改形成了RAID10,就很好的避免了性能的问题。

    建议在阅读本文前,首先阅读本文上篇“RAID5和RAID10,哪一种RAID适合你”,由于性能瓶颈的出现,自己与RAID方式仍是有很大关系,同时本文性能讨论的基础,自己创建在上文的一些结论之上。

    阵列的瓶颈主要体如今2个方面,带宽与IOPS(单位时间传输的数据量,和单位时间完成的I/O数)。

影响带宽的主要因素

    存储系统的带宽主要取决于阵列的构架,光纤通道的大小(咱们今天讨论的阵列通常都是光纤阵列, SCSI这样的SSA阵列,暂时不在讨论范围之列)以及硬盘的个数。

    所谓阵列构架影响存储系统带宽,指的是存储系统内部架构会存在一些内部带宽,相似于PC的系统总线,尽管阵列的构架因不一样厂商不一样型号的产品而各有不一样,不过通常状况下,内部带宽都设计的很充足,不会是瓶颈的所在。

    光纤通道对带宽的影响仍是比较大的,例如数据仓库环境中,对数据的流量要求很大,而一块2Gb的光纤卡,所能支撑的最大流量应当是2GB/8= 250Mb/s的实际流量,必须配备4块光纤卡才能达到1Gb/s的实际流量,因此对于数据仓库的环境来讲,升级到光纤4Gb并不是是厂商过于超前的产品更新,在大流量的数据环境下绝对有必要考虑更换4GB的光纤卡。

    可是对于存储系统的带宽来讲,硬盘接口的带宽限制是最重要的。当前面的瓶颈再也不存在的时候,带宽就彻底取决于硬盘的个数了,我下面列一下不一样规格的硬盘所能支撑的流量大小,数据取自硬盘厂商的标准参数:

RAID5 VS RAID10 (性能比较和原理 RAID相关资料)

    若是咱们假定一个阵列有120块15K rpm转速的光纤硬盘,那么硬盘上最大的能够支撑的数据流量为120*13=1560Mb/s,当前端接口不成为瓶颈的时候,1560Mb/s就是理论上的最大数据流量。

    而若是要实现上述的最大带宽,若是前端采用2GB的光纤卡,可能须要配置6块才可以,而4GB的光纤卡,配置3-4块就够了。所以咱们能够知道,前端的光纤接口必须与后端磁盘个数相匹配。

    可是否考虑到这些因素就足够了呢,存储系统的总体性能还受到多方面因素的影响,下面咱们将分析存储系统的另一个重要的性能指标:IOPS。

影响IOPS的主要因素

    咱们前面已经说过了,厂商所提供的IOPS值是在理想状态下测试出来的,对实际的运行性能的参考并不大,因此咱们有必要经过如下几个方面来衡量该系统的实际IOPS的可能表现。

    决定IOPS的主要因素取决于阵列的算法,cache命中率,以及磁盘个数。

    阵列的算法也由于不一样厂商不一样型号的产品而不一样,如咱们最近遇到在HDS USP上面,可能由于ldev(lun)存在队列或者资源限制,而单个ldev的IOPS就上不去。因此,决定采购某型号的存储以前,有必要了解这个存储的一些算法规则与限制。

    cache命中率对实际IOPS有决定性的影响,Cache命中率取决于数据的分布,cache size的大小,数据访问的规则,以及cache的算法,若是完整的讨论下来,这里将变得很复杂,能够有一天来慢慢讨论。

    咱们这里把这些内部原理都省略掉,只强调:对于一个存储阵列来讲,读cache的命中率越高,通常就表示它能够支持更多的IOPS,为何这么说呢?这个就与咱们下面要讨论的硬盘IOPS有关系了。

    每一个物理硬盘能处理的IOPS是有限制的,如

RAID5 VS RAID10 (性能比较和原理 RAID相关资料)

    一样,若是一个阵列有120块15K rpm转速的光纤硬盘,那么,它能支撑的最大IOPS为120*150=18000,这个为硬件限制的理论值,若是超过这个值,硬盘的响应可能会变的很是缓慢而不能正常提供业务。较高的读cache命中率,能下降硬盘的IOPS负荷,让硬盘在较小的压力下良好工做。

不一样RAID对IOPS性能的影响

    在咱们的上一篇文章“RAID5和RAID10,哪一种RAID适合你()中曾经讨论过,在RAID5与RAID10的不一样机制上,读数据时,IOPS性能其实没有差异。可是,相同的业务,在写入数据时,采用不一样的RAID机制最终落在磁盘上的IOPS是有差异的,咱们评估的正是磁盘的总体IOPS,若是达到了磁盘的限制,性能确定是上不去了。

    那咱们假定一个case,业务应用的IOPS是10000,读cache命中率是30%,读IOPS为60%,写IOPS为40%,磁盘个数为120,那么分别计算在RAID5与RAID10的状况下,每一个磁盘的IOPS为多少。

    RAID5:
    1. 单块盘的IOPS = (10000*(1-0.3)*0.6 + 4 * (10000*0.4))/120
    2.              = (4200 + 16000)/120
    3.              = 168

    这里的10000*(1-0.3)*0.6表示是读的IOPS,比例是0.6,除掉cache命中,实际只有4200个读IOPS。

    而4 * (10000*0.4) 表示写的IOPS,由于每个写,在RAID5中,实际发生了4个io,因此写的IOPS为16000个。

    为了考虑RAID5在写操做的时候,那2个读操做也可能发生命中,因此更精确的计算应该为:
    1. 单块盘的IOPS = (10000*(1-0.3)*0.6 + 2 * (10000*0.4)*(1-0.3) + 2 * (10000*0.4))/120
    2.              = (4200 + 5600 + 8000)/120
    3.              = 148

    这样咱们计算出来单个盘的IOPS为148个,基本达到磁盘IOPS极限,在这种状况下,磁盘的工做状态是很是不理想的。

    RAID10对IOPS性能的影响
    1. 单块盘的IOPS = (10000*(1-0.3)*0.6 + 2 * (10000*0.4))/120
    2.              = (4200 + 8000)/120
    3.              = 102

    能够看到,由于RAID10对于一个写操做,只发生2次io,因此,一样的压力,一样的磁盘,每一个盘的IOPS只有102个,还远远低于磁盘的极限IOPS。

    这里回到咱们先前讨论的case上来,在咱们先前采用RAID5的时候,经过分析,每一个磁盘的IOPS在高峰时期,快达到200了,致使响应速度巨慢无比。改形成RAID10,每一个磁盘的IOPS降到100左右,很好的避免了这个性能问题。

    所以,综合本文的上篇“RAID5和RAID10,哪一种RAID适合你”,咱们能够得出结论:

    影响读数据的关键因素是cache命中率,在读数据的状况下,RAID5与RAID10性能自己没有太大差异。可是对于写数据的一些应用,尤为是小I/O频繁写入的一些应用,如企业ERP生产系统等等,RAID10相比RAID5可能产生较大的性能差别。而大型文件存储,数据仓库,如医疗PACS系统、视频编辑系统则从空间利用的角度,建议采用RAID5。

来自 “ ITPUB博客 ” ,连接:http://blog.itpub.net/22123669/viewspace-665017/,如需转载,请注明出处,不然将追究法律责任。

转载于:http://blog.itpub.net/22123669/viewspace-665017/