数据库水平切分方法

时间 2019-11-24

标签数据库水平切分方法栏目 SQL 繁體版

原文原文链接

在大中型项目中，在数据库设计的时候，考虑到数据库最大承受数据量，一般会把数据库或者数据表水平切分，以下降单个库，单个表的压力。我这里介绍两个咱们项目中经常使用的数据表切分方法。固然这些方法都是在程序中使用必定的技巧来路由到具体的表的。首先咱们要确认根据什么来水平切分？在咱们的系统（SNS）中，用户的UID贯穿系统，惟一自增加，根据这个字段分表，再好不过。算法

方法一：使用MD5哈希数据库

作法是对UID进行md5加密，而后取前几位（咱们这里取前两位），而后就能够将不一样的UID哈希到不一样的用户表（user_xx）中了。数据库设计

function getTable( $uid ){ui

$ext = substr ( md5($uid) ,0 ,2 );加密

return "user_".$ext;spa

}.net

经过这个技巧，咱们能够将不一样的UID分散到256中用户表中，分别是user_00,user_01 ...... user_ff。由于UID是数字且递增，根据md5的算法，能够将用户数据几乎很均匀的分别到不一样的user表中。设计

可是这里有个问题是，若是咱们的系统的用户愈来愈多，势必单张表的数据量愈来愈大，并且根据这种算法没法扩展表，这又会回到文章开头出现的问题了。md5

方法二：使用移位路由

具体方法是：

public function getTable( $uid ) {

return "user_" . sprintf( "%04d", ($uid >> 20) );

}

这里，咱们将uid向右移动20位，这样咱们就能够把大约前100万的用户数据放在第一个表user_0000，第二个100万的用户数据放在第二个表user_0001中，这样一直下去，若是咱们的用户愈来愈多，直接添加用户表就好了。因为咱们保留的表后缀是四位，这里咱们能够添加1万张用户表，即user_0000,user_0001 ...... user_9999。一万张表，每张表100万数据，咱们能够存100亿条用户记录。固然，若是你的用户数据比这还多，也没关系，你只要改变保留表后缀来增长能够扩展的表就好了，如若是有1000亿条数据，每一个表存100万，那么你须要10万张表，咱们只要保留表后缀为6位便可。

上面的算法还能够写的灵活点：

/**

* 根据UID分表算法

*

* @param int $uid //用户ID

* @param int $bit //表后缀保留几位

* @param int $seed //向右移动位数

*/

function getTable( $uid , $bit , $seed ){

return "user_" . sprintf( "%0{$bit}d" , ($uid >> $seed) );

}

总结

上面两种方法，都要对咱们当前系统的用户数据量作出可能最大的预估，而且对数据库单个表的最大承受量作出预估。

好比第二种方案，若是咱们预估咱们系统的用户是100亿，单张表的最优数据量是100万，那么咱们就须要将UID移动20来确保每一个表是100万的数据，保留用户表（user_xxxx）四位来扩展1万张表。

又如第一种方案，每张表100万，md5后取前两位，就只能有256张表了，系统总数据库就是：256*100万；若是你系统的总数据量的比这还多，那你实现确定要MD5取前三位或者四位甚至更多位了。

两种方法都是将数据水平切分到不一样的表中，相对第一种方法，第二种方法更具扩展性。