汇集和非汇集索引

时间 2019-11-18

标签汇集索引繁體版

原文原文链接

汇集索引

　　一种索引，该索引中键值的逻辑顺序决定了表中相应行的物理顺序。
　　汇集索引肯定表中数据的物理顺序。汇集索引相似于电话簿，后者按姓氏排列数据。因为汇集索引规定数据在表中的物理存储顺序，所以一个表只能包含一个汇集索引。但该索引能够包含多个列（组合索引），就像电话簿按姓氏和名字进行组织同样。
　　　　
　　　　汇集索引对于那些常常要搜索范围值的列特别有效。使用汇集索引找到包含第一个值的行后，即可以确保包含后续索引值的行在物理相邻。例如，若是应用程序执行的一个查询常常检索某一日期范围内的记录，则使用汇集索引能够迅速找到包含开始日期的行，而后检索表中全部相邻的行，直到到达结束日期。这样有助于提升此类查询的性能。一样，若是对从表中检索的数据进行排序时常常要用到某一列，则能够将该表在该列上汇集（物理排序），避免每次查询该列时都进行排序，从而节省成本。
　　　　

　　　　当索引值惟一时，使用汇集索引查找特定的行也颇有效率。例如，使用惟一雇员 ID 列 emp_id 查找特定雇员的最快速的方法，是在 emp_id 列上建立汇集索引或 PRIMARY KEY 约束。数据库

非汇集索引

　　一种索引，该索引中索引的逻辑顺序与磁盘上行的物理存储顺序不一样。数据结构

索引是经过二叉树的数据结构来描述的，咱们能够这么理解聚簇索引：索引的叶节点就是数据节点。而非聚簇索引的叶节点仍然是索引节点，只不过有一个指针指向对应的数据块。以下图：性能

（非汇集索引）测试

（汇集索引） spa

    1、深刻浅出理解索引结构

    　　实际上，您能够把索引理解为一种特殊的目录。微软的SQL SERVER提供了两种索引：汇集索引（clustered index，也称聚类索引、簇集索引）和非汇集索引（nonclustered index，也称非聚类索引、非簇集索引）。下面，咱们举例来讲明一下汇集索引和非汇集索引的区别：
    　　其实，咱们的汉语字典的正文自己就是一个汇集索引。好比，咱们要查“安”字，就会很天然地翻开字典的前几页，由于“安”的拼音是“an”，而按照拼音排序汉字的字典是以英文字母“a”开头并以“z”结尾的，那么“安”字就天然地排在字典的前部。若是您翻完了全部以“a”开头的部分仍然找不到这个字，那么就说明您的字典中没有这个字；一样的，若是查“张”字，那您也会将您的字典翻到最后部分，由于“张”的拼音是“zhang”。也就是说，字典的正文部分自己就是一个目录，您不须要再去查其余目录来找到您须要找的内容。咱们把这种正文内容自己就是一种按照必定规则排列的目录称为“汇集索引”。
    　　若是您认识某个字，您能够快速地从自动中查到这个字。但您也可能会遇到您不认识的字，不知道它的发音，这时候，您就不能按照刚才的方法找到您要查的字，而须要去根据“偏旁部首”查到您要找的字，而后根据这个字后的页码直接翻到某页来找到您要找的字。但您结合“部首目录”和“检字表”而查到的字的排序并非真正的正文的排序方法，好比您查“张”字，咱们能够看到在查部首以后的检字表中“张”的页码是672页，检字表中“张”的上面是“驰”字，但页码倒是63页，“张”的下面是“弩”字，页面是390页。很显然，这些字并非真正的分别位于“张”字的上下方，如今您看到的连续的“驰、张、弩”三字实际上就是他们在非汇集索引中的排序，是字典正文中的字在非汇集索引中的映射。咱们能够经过这种方式来找到您所须要的字，但它须要两个过程，先找到目录中的结果，而后再翻到您所须要的页码。咱们把这种目录纯粹是目录，正文纯粹是正文的排序方式称为“非汇集索引”。
    　　经过以上例子，咱们能够理解到什么是“汇集索引”和“非汇集索引”。进一步引伸一下，咱们能够很容易的理解：每一个表只能有一个汇集索引，由于目录只能按照一种方法进行排序。

    2、什么时候使用汇集索引或非汇集索引

下面的表总结了什么时候使用汇集索引或非汇集索引（很重要）： .net

动做描述	使用汇集索引	使用非汇集索引
列常常被分组排序	应	应
返回某范围内的数据	应	不该
一个或极少不一样值	不该	不该
小数目的不一样值	应	不该
大数目的不一样值	不该	应
频繁更新的列	不该	应
外键列	应	应
主键列	应	应
频繁修改索引列	不该	应

    　　事实上，咱们能够经过前面汇集索引和非汇集索引的定义的例子来理解上表。如：返回某范围内的数据一项。好比您的某个表有一个时间列，刚好您把聚合索引创建在了该列，这时您查询2004年1月1日至2004年10月1日之间的所有数据时，这个速度就将是很快的，由于您的这本字典正文是按日期进行排序的，聚类索引只须要找到要检索的全部数据中的开头和结尾数据便可；而不像非汇集索引，必须先查到目录中查到每一项数据对应的页码，而后再根据页码查到具体内容。

    3、结合实际，谈索引使用的误区

    　　理论的目的是应用。虽然咱们刚才列出了什么时候应使用汇集索引或非汇集索引，但在实践中以上规则却很容易被忽视或不能根据实际状况进行综合分析。下面咱们将根据在实践中遇到的实际问题来谈一下索引使用的误区，以便于你们掌握索引创建的方法。

    一、主键就是汇集索引
    　　这种想法笔者认为是极端错误的，是对汇集索引的一种浪费。虽然SQL SERVER默认是在主键上创建汇集索引的。
    　　一般，咱们会在每一个表中都创建一个ID列，以区分每条数据，而且这个ID列是自动增大的，步长通常为1。咱们的这个办公自动化的实例中的列Gid就是如此。此时，若是咱们将这个列设为主键，SQL SERVER会将此列默认为汇集索引。这样作有好处，就是可让您的数据在数据库中按照ID进行物理排序，但笔者认为这样作意义不大。
    　　显而易见，汇集索引的优点是很明显的，而每一个表中只能有一个汇集索引的规则，这使得汇集索引变得更加珍贵。
    　　从咱们前面谈到的汇集索引的定义咱们能够看出，使用汇集索引的最大好处就是可以根据查询要求，迅速缩小查询范围，避免全表扫描。在实际应用中，由于 ID号是自动生成的，咱们并不知道每条记录的ID号，因此咱们很难在实践中用ID号来进行查询。这就使让ID号这个主键做为汇集索引成为一种资源浪费。其次，让每一个ID号都不一样的字段做为汇集索引也不符合“大数目的不一样值状况下不该创建聚合索引”规则；固然，这种状况只是针对用户常常修改记录内容，特别是索引项的时候会负做用，但对于查询速度并无影响。
    　　在办公自动化系统中，不管是系统首页显示的须要用户签收的文件、会议仍是用户进行文件查询等任何状况下进行数据查询都离不开字段的是“日期”还有用户自己的“用户名”。
    　　一般，办公自动化的首页会显示每一个用户还没有签收的文件或会议。虽然咱们的where语句能够仅仅限制当前用户还没有签收的状况，但若是您的系统已创建了很长时间，而且数据量很大，那么，每次每一个用户打开首页的时候都进行一次全表扫描，这样作意义是不大的，绝大多数的用户1个月前的文件都已经浏览过了，这样作只能徒增数据库的开销而已。事实上，咱们彻底可让用户打开系统首页时，数据库仅仅查询这个用户近3个月来未阅览的文件，经过“日期”这个字段来限制表扫描，提升查询速度。若是您的办公自动化系统已经创建的2年，那么您的首页显示速度理论上将是原来速度8倍，甚至更快。
    　　在这里之因此提到“理论上”三字，是由于若是您的汇集索引仍是盲目地建在ID这个主键上时，您的查询速度是没有这么高的，即便您在“日期”这个字段上创建的索引（非聚合索引）。下面咱们就来看一下在1000万条数据量的状况下各类查询的速度表现（3个月内的数据为25万条）：

    （1）仅在主键上创建汇集索引，而且不划分时间段：

    Select gid,fariqi,neibuyonghu,title from tgongwen

    用时：128470毫秒（即：128秒）

    （2）在主键上创建汇集索引，在fariq上创建非汇集索引：

    select gid,fariqi,neibuyonghu,title from Tgongwen
    where fariqi> dateadd(day,-90,getdate())

    用时：53763毫秒（54秒）

    （3）将聚合索引创建在日期列（fariqi）上：

    select gid,fariqi,neibuyonghu,title from Tgongwen
    where fariqi> dateadd(day,-90,getdate())

    用时：2423毫秒（2秒）

    　　虽然每条语句提取出来的都是25万条数据，各类状况的差别倒是巨大的，特别是将汇集索引创建在日期列时的差别。事实上，若是您的数据库真的有1000 万容量的话，把主键创建在ID列上，就像以上的第一、2种状况，在网页上的表现就是超时，根本就没法显示。这也是我摒弃ID列做为汇集索引的一个最重要的因素。得出以上速度的方法是：在各个select语句前加：

    declare @d datetime
    set @d=getdate()

    并在select语句后加：

    select [语句执行花费时间(毫秒)]=datediff(ms, @d ,getdate())     二、只要创建索引就能显著提升查询速度     　　事实上，咱们能够发现上面的例子中，第二、3条语句彻底相同，且创建索引的字段也相同；不一样的仅是前者在fariqi字段上创建的是非聚合索引，后者在此字段上创建的是聚合索引，但查询速度却有着天壤之别。因此，并不是是在任何字段上简单地创建索引就能提升查询速度。     　　从建表的语句中，咱们能够看到这个有着1000万数据的表中fariqi字段有5003个不一样记录。在此字段上创建聚合索引是再合适不过了。在现实中，咱们天天都会发几个文件，这几个文件的发文日期就相同，这彻底符合创建汇集索引要求的：“既不能绝大多数都相同，又不能只有极少数相同”的规则。由此看来，咱们创建“适当”的聚合索引对于咱们提升查询速度是很是重要的。     三、把全部须要提升查询速度的字段都加进汇集索引，以提升查询速度     　　上面已经谈到：在进行数据查询时都离不开字段的是“日期”还有用户自己的“用户名”。既然这两个字段都是如此的重要，咱们能够把他们合并起来，创建一个复合索引（compound index）。     　　不少人认为只要把任何字段加进汇集索引，就能提升查询速度，也有人感到迷惑：若是把复合的汇集索引字段分开查询，那么查询速度会减慢吗？带着这个问题，咱们来看一下如下的查询速度（结果集都是25万条数据）：（日期列fariqi首先排在复合汇集索引的起始列，用户名neibuyonghu排在后列）：     （1）select gid,fariqi,neibuyonghu,title from Tgongwen where fariqi>''2004-5-5''     查询速度：2513毫秒     （2）select gid,fariqi,neibuyonghu,title from Tgongwen     　　　　　　　　　　　　where fariqi>''2004-5-5'' and neibuyonghu=''办公室''     查询速度：2516毫秒     （3）select gid,fariqi,neibuyonghu,title from Tgongwen where neibuyonghu=''办公室''     查询速度：60280毫秒     　　从以上试验中，咱们能够看到若是仅用汇集索引的起始列做为查询条件和同时用到复合汇集索引的所有列的查询速度是几乎同样的，甚至比用上所有的复合索引列还要略快（在查询结果集数目同样的状况下）；而若是仅用复合汇集索引的非起始列做为查询条件的话，这个索引是不起任何做用的。固然，语句一、2的查询速度同样是由于查询的条目数同样，若是复合索引的全部列都用上，并且查询结果少的话，这样就会造成“索引覆盖”，于是性能能够达到最优。同时，请记住：不管您是否常用聚合索引的其余列，但其前导列必定要是使用最频繁的列。     4、其余书上没有的索引使用经验总结     一、用聚合索引比用不是聚合索引的主键速度快     　　下面是实例语句：（都是提取25万条数据）     select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi=''2004-9-16''     使用时间：3326毫秒     select gid,fariqi,neibuyonghu,reader,title from Tgongwen where gid<=250000     使用时间：4470毫秒     这里，用聚合索引比用不是聚合索引的主键速度快了近1/4。     二、用聚合索引比用通常的主键做order by时速度快，特别是在小数据量状况下     select gid,fariqi,neibuyonghu,reader,title from Tgongwen order by fariqi     用时：12936     select gid,fariqi,neibuyonghu,reader,title from Tgongwen order by gid     用时：18843     　　这里，用聚合索引比用通常的主键做order by时，速度快了3/10。事实上，若是数据量很小的话，用汇集索引做为排序列要比使用非汇集索引速度快得明显的多；而数据量若是很大的话，如10万以上，则两者的速度差异不明显。     三、使用聚合索引内的时间段，搜索时间会按数据占整个数据表的百分比成比例减小，而不管聚合索引使用了多少个：     select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi>''2004-1-1''     用时：6343毫秒（提取100万条）     select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi>''2004-6-6''     用时：3170毫秒（提取50万条）     select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi=''2004-9-16''     用时：3326毫秒（和上句的结果如出一辙。若是采集的数量同样，那么用大于号和等于号是同样的）     select gid,fariqi,neibuyonghu,reader,title from Tgongwen     　　　　　　　　　　　　where fariqi>''2004-1-1'' and fariqi<''2004-6-6''     用时：3280毫秒     四、日期列不会由于有分秒的输入而减慢查询速度     　　下面的例子中，共有100万条数据，2004年1月1日之后的数据有50万条，但只有两个不一样的日期，日期精确到日；以前有数据50万条，有5000个不一样的日期，日期精确到秒。     select gid,fariqi,neibuyonghu,reader,title from Tgongwen     　　　　　　　　　　where fariqi>''2004-1-1'' order by fariqi     用时：6390毫秒     select gid,fariqi,neibuyonghu,reader,title from Tgongwen     　　　　　　　　　　　　where fariqi<''2004-1-1'' order by fariqi     用时：6453毫秒     5、其余注意事项     　　“水可载舟，亦可覆舟”，索引也同样。索引有助于提升检索性能，但过多或不当的索引也会致使系统低效。由于用户在表中每加进一个索引，数据库就要作更多的工做。过多的索引甚至会致使索引碎片。     　　因此说，咱们要创建一个“适当”的索引体系，特别是对聚合索引的建立，更应精益求精，以使您的数据库能获得高性能的发挥。     　　固然，在实践中，做为一个尽职的数据库管理员，您还要多测试一些方案，找出哪一种方案效率最高、最为有效。