SQL Server 2011中基于列的存储方式

时间 2019-11-17

标签 sql server 基于存储方式栏目 SQL 繁體版

原文原文链接

和大多数主流数据库同样，若是表拥有汇集索引，那么SQL Server就会以B-树的方式存储，不然就会使用堆的方式存储。这两种方法本质上都是基于行的，其中每页中行的条数会根据整体上行的大小不一样而不一样。从SQL Server 2011开始，微软为咱们提供了第三种选择。SQL Server会提供一种“列存储索引”，从而以列而不是行的方式来存储数据。科罗拉多上空的飞船轨迹

当使用数据规模为1TB、记录条数为十四亿四千万的表时，微软声称基于列的查询在CPU时间上会有16倍的提高，而在使用时间上会有455倍的提升。在真实状况下，这意味着原本要耗费501秒的查询，如今只须要1.1秒就能够完成了。这项测试是在拥有32个逻辑处理器和256GB内存的计算机上执行的。 dota还有多少发展空间微软把每一个列都隔离在自身的一组页中，从而达到了这种惊人的改善。当执行查询的时候，只会从磁盘载入位于结果集中的列。而包含其它列的页会被忽略。这种方法至关于为每种咱们所能想象到的列组合建立替代索引。然而，这种方式不会消耗大量的磁盘空间，它实际上会比传统的表占用更小的空间。因为 SQL Server的压缩会发生在页级别上，而且和行相比，列中的数据更容易重复，因此使用列存储索引的表将会拥有更高的压缩等级。但暂时咱们还不能轻易决定使用列存储索引。首先也是最重要的，它们是不可更新的。一旦建立了列存储的索引，那么就不容许在表上执行插入、更新或者删除等操做了。微软指望更多商店天天对数据进行刷新，不然就须要把数据作只读处理。在刷新周期中，咱们会删除索引，更新数据，而后再从新创建索引。因为这确定是代价昂贵的操做，因此咱们可使用垂直分区来把操做限制到逻辑表的子集范围内。使用列存储的索引也会致使性能的下降。若是你使用大多数列，那么从新组合行会耗费大量的资源。这意味着OLTP样式的查询应该避免这种方式，而对于 OLAP形式的查询，这种方式会比较有利。或者换句话说，若是你在编写“SELECT *”或者每次抓取一行数据，那么列存储索引就不适合你。