MongoDB分片方式及片键选择

时间 2021-01-17

标签 shell 数据库 spa code blog 索引路由文档 hash 栏目 MongoDB 繁體版

原文原文链接

（一）分片方式 shell

MongoDB提供了基于哈希(hashed)和基于范围(Range)2种分片方式：数据库

（1.1）哈希分片
哈希分片使用hash索引来在分片集群中对数据进行划分。哈希索引计算某一个字段的哈希值做为索引值，这个值被用做片键。
哈希分片以减小定向操做和增长广播操做为代价。分片集群内的数据更加均衡。
从MongoDB4.0开始，mongo shell提供了convertShardKeyToHashed()方法，用于查看键的hash值。spa

选择做为hash分片键的字段应该有良好的基数或者该字段包含大量不一样的值，hash分片很是适合选取具备像objectId或时间戳那样单调更改的字段做为片键。code

使用sh.shardCollection()方法，来对集合进行hash分片blog

sh.shardCollection("database.collection",{<field> : "hashed" } )

（1.2）范围分片
基于范围的分片会将数据划分为由片键值肯定的连续范围。在范围分片模型中，具备“接近”片键的文档可能位于相同的chunk或者shard中，连续范围读取文档将变得高效，可是若是片键选择不佳，则读取和写入的想你将会下降。
若是未选择其它选项(如hash分片或者zone),则基于范围的分片是默认的分片方式。
范围分片片键的选择：索引

基数大
频率低
非单调变化

使用sh.shardCollection()方法，来对集合进行范围分片，能够选择单字段或者多字段路由

sh.shardCollection("database.collection",{<shard key>})

（二）片键选择因素
分片键决定了集合内的文档如何在集群的多个分片上分布数据，分片键要么是一个索引字段，要么是一个存在于集合全部文档中的符合索引字段。MongoDB尝试在集群中的各个分片之间平均分配数据块(chunk)，特别注意，shard之间平均分配的数据块(chunk)，而不是数据量，分片键的选择直接关系到分片结果的好坏。文档

NOTE：
在MongoDB4.2以前，文档的分片字段是不能够修改的。从4.2版本开始，除非分片键是不可变的_id字段，不然你能够更新文档的分片字段。hash

全部须要分片的集合都必须具备支持分片的索引，即分片键上必须有索引，可使分片键的索引，也能够是符合索引，对于符合索引，分片键必须是索引的前缀。io

若是集合为空，则sh.shardCollection()在分片键上自动建立索引，无需认为干预
若是集合存在数据，则必须先建立索引，而后再使用sh.shardCollection()来为集合分片。

分片键的选择须要综合考虑分片键的基数、频率和变化率。

基数。分片键的基数决定了分片集群能够建立的最大chunk的数目。在任何给定的时间，惟一的分片值只能存在一个chunk上。例如：使用性别进行分片，则只能分为“男”和“女”2个chunk，不能随着数据增多而分裂为更多的chunk，由于一个分片值只能存储在同一个chunk中。
频率。频率表明给定值在该列中出现的比率，与关系型数据库中select distinct ...殊途同归。若是大多数文档包含了这些值的子集，那么存储这些文档的chunk将成为集群中的瓶颈，随着数据的增加，他们将会成为不可分割的数据块，下降了集群水平扩展的有效性。例如：集合people用来统计各个名族的人信息，使用名族做为分片字段，那么根据我国56个名族的人数分布，占据人口总数92%的汉族将占据一个chunk，这样会致使该chunk很是巨大，失去了分片的意义。
变化率。单调递增或单调递减的分片键可能将数据写到集群中的单个分片上。若是分片键值始终在增长，则全部新插入都将路由到以maxKey为上限的块。若是分片键值始终在减少，则全部新插入都将路由到以minKey为下限的块。包含该块的分片将成为写操做的瓶颈。

【完】