原创做者: 钟悦算法
关于做者数组
钟 悦 - 资深DBLE用户安全
某宇宙行资深架构师,在大型重点项目中使用 DBLE。架构
常年与 MySQL 纠缠不清,常常运用技术处理大企业病的技术or非技术问题的一个挨踢从业者。运维
当分片索引不是纯整型的字符串时,只接受整型的内置 hash 算法是没法使用的。为此,stringhash 按照用户定义的起点和终点去截取分片索引字段中的部分字符,根据当中每一个字符的二进制 unicode 值换算出一个长整型数值,而后就直接调用内置 hash 算法求解分片路由:先求模获得逻辑分片号,再根据逻辑分片号直接映射到物理分片。code
用户须要在 rule.xml 中定义 partitionLength[] 和 partitionCount[] 两个数组和 hashSlice 二元组。xml
在 DBLE 的启动阶段,点乘两个数组获得模数,也是逻辑分片的数量blog
而且根据两个数组的叉乘,获得各个逻辑分片到物理分片的映射表(物理分片数量由 partitionCount[] 数组的元素值之和)继承
此外根据 hashSlice 二元组,约定把分片索引值中的第 4 字符到第 5 字符(字符串以 0 开始编号,编号 3 到编号 4 等于第 4 字符到第 5 字符)字符串用于 “字符串->整型”的转换索引
在 DBLE 的运行过程当中,用户访问使用这个算法的表时,WHERE 子句中的分片索引值会被提取出来,取当中的第 4 个字符到第 5 字符,送入下一步
设置一个初始值为 0 的累计值,逐个取字符,把累计值乘以 31,再把这个字符的 unicode 值当成长整型加入到累计值中,如此类推直至处理完截取出来的全部字符,此时的累计值就可以表明用户的分片索引值,完成了 “字符串->整型” 的转换
对上一步的累计值进行求模,获得逻辑分片号
再根据逻辑分片号,查映射表,直接获得物理分片号
与MyCat的相似分片算法对比
两种算法在string转化为int以后,和 hash 分区算法相同,区别也继承了 hash 算法的区别。
开发注意点
【分片索引】1. 必须是字符串
【分片索引】2. 最大物理分片配置方法是,让 partitionCount[] 数组和等于 2880
例如:
<property name="partitionLength">1</property> <property name="partitionCount">2880</property>
或
<property name="partitionLength">1,1</property> <property name="partitionCount">1440,1440</property>
【分片索引】3. 最小物理分片配置方法是,让 partitionCount[] 数组和等于 1
例如
<property name="partitionLength">2880</property> <property name="partitionCount">1</property>
【分片索引】4. partitionLength 和 partitionCount 被当作两个逗号分隔的一维数组,它们之间的点乘必须在 [1, 2880] 范围内
【分片索引】5. partitionLength 和 partitionCount 的配置对顺序敏感
<property name="partitionLength">512,256</property> <property name="partitionCount">1,2</property>
和
<property name="partitionLength">256,512</property> <property name="partitionCount">2,1</property>
是不一样的分片结果
【分片索引】6. 分片索引字段长度小于用户指定的截取长度时,截取长度会安全减小到符合分片索引字段长度
【数据分布】1. 分片索引字段截取越长则越有利于数据均匀分布
【数据分布】2. 分片索引字段的内容重复率越低则越有利于数据均匀分布
运维注意点
【扩容】1. 预先过量分片,而且不改变 partitionCount 和 partitionLength 点乘结果,也不改变截取设置 hashSlice 时,能够避免数据再平衡,只需进行涉及数据的迁移
【扩容】2. 若须要改变 partitionCount 和 partitionLength 点乘结果或改变截取设置 hashSlice 时,须要数据再平衡
【缩容】1. 预先过量分片,而且不改变 partitionCount 和 partitionLength 点乘结果,也不改变截取设置 hashSlice 时,能够避免数据再平衡,只需进行涉及数据的迁移
【缩容】2. 若须要改变 partitionCount 和 partitionLength 点乘结果或改变截取设置 hashSlice 时,须要数据再平衡
配置注意点
【配置项】1. 在 rule.xml 中,可配置项为 <property name="partitionLength"> 、<property name="partitionCount"> 和 <property name="hashSlice">
【配置项】2.在 rule.xml 中配置 <property name="partitionLength"> 标签
内容形式为:<物理分片持有的虚拟分片数>[,<物理分片持有的虚拟分片数>,...<物理分片持有的虚拟分片数>]
物理分片持有的虚拟分片数必须是整型,物理分片持有的虚拟分片数从左到右与同顺序的物理分片数对应,partitionLength 和partitionCount 的点乘结果必须在 [1, 2880] 范围内
【配置项】3. 在 rule.xml 中配置 <property name="partitionCount"> 标签 内容形式为:<物理分片数>[,<物理分片数>,...<物理分片数>]
其中物理分片数必须是整型,物理分片数按从左到右的顺序与同顺序的物理分片持有的虚拟分片数对应,物理分片的编号从左到右连续递进,partitionLength 和 partitionCount 的点乘结果必须在 [1, 2880] 范围内
【配置项】4. partitionLength 和 partitionCount 的语义是:持有partitionLength[i] 个虚拟分片的物理分片有 partitionCount[i] 个
例如
<property name="partitionLength">512,256</property> <property name="partitionCount">1,2</property>
语义是持有 512 个逻辑分片的物理分片有 1 个,紧随其后,持有 256 个逻辑分片的物理分片有 2 个
【配置项】5.partitionLength 和 partitionCount 都对书写顺序敏感,
例如
<property name="partitionLength">512,256</property> <property name="partitionCount">1,2</property>
分片结果是第一个物理分片持有头512个逻辑分片,第二个物理分片持有紧接着的256个逻辑分片,第三个物理分片持有最后256个逻辑分片,相对的
<property name="partitionLength">256,512</property> <property name="partitionCount">2,1</property>
分片结果则是第一个物理分片持有头 256 个逻辑分片,第二个物理分片持有紧接着的 256 个逻辑分片,第三个物理分片持有最后 512 个逻辑分片
【配置项】6.partitionLength[] 的元素所有为 1 时,这时候partitionCount 数组和等于 partitionLength 和 partitionCount 的点乘,物理分片和逻辑分片就会一一对应,该分片算法等效于直接取余
【配置项】7.在 rule.xml 中配置标签,从分片索引字段的第几个字符开始截取到第几个字符:
若但愿从首字符开始截取 k 个字符( k 为正整数),配置的内容形式能够为“ 0 : k ”、“ k ”或“ : k ”;
若但愿从末字符开始截取 k 个字符( k 为正整数),则配置的内容形式能够为“ -k : 0 ”、“ -k ”或“ -k : ”;
若但愿从头第 m 个字符起算截取 n 个字符( m 和 n 都是正整数),则先计算出 i = m - 1 和 j = i + n - 1,配置的内容形式为“ i : j ”;
若但愿从尾第 m 个字符起算截取从尾算起的 n 个字符( m 和 n 都是正整数),则先计算出 i = -m + n - 1,配置的内容形式能够为“ -m : i ”;
若但愿不截取,则配置的内容形式能够为“ 0 : 0 ”、“ 0 : ”、“ : 0 ”或 “ : ”