在大中型项目中,在数据库设计的时候,考虑到数据库最大承受数据量,一般会把数据库或者数据表水平切分,以下降单个库,单个表的压力。我这里介绍两个咱们项目中经常使用的数据表切分方法。固然这些方法都是在程序中使用必定的技巧来路由到具体的表的。首先咱们要确认根据什么来水平切分?在咱们的系统(SNS)中,用户的UID贯穿系统,惟一自增加,根据这个字段分表,再好不过。算法
方法一:使用MD5哈希数据库
作法是对UID进行md5加密,而后取前几位(咱们这里取前两位),而后就能够将不一样的UID哈希到不一样的用户表(user_xx)中了。数据库设计
function getTable( $uid ){ui
$ext = substr ( md5($uid) ,0 ,2 );加密
return "user_".$ext;spa
}.net
经过这个技巧,咱们能够将不一样的UID分散到256中用户表中,分别是user_00,user_01 ...... user_ff。由于UID是数字且递增,根据md5的算法,能够将用户数据几乎很均匀的分别到不一样的user表中。设计
可是这里有个问题是,若是咱们的系统的用户愈来愈多,势必单张表的数据量愈来愈大,并且根据这种算法没法扩展表,这又会回到文章开头出现的问题了。md5
方法二:使用移位路由
具体方法是:
public function getTable( $uid ) {
return "user_" . sprintf( "%04d", ($uid >> 20) );
}
这里,咱们将uid向右移动20位,这样咱们就能够把大约前100万的用户数据放在第一个表user_0000,第二个100万的用户数据放在第二个表user_0001中,这样一直下去,若是咱们的用户愈来愈多,直接添加用户表就好了。因为咱们保留的表后缀是四位,这里咱们能够添加1万张用户表,即user_0000,user_0001 ...... user_9999。一万张表,每张表100万数据,咱们能够存100亿条用户记录。固然,若是你的用户数据比这还多,也没关系,你只要改变保留表后缀来增长能够扩展的表就好了,如若是有1000亿条数据,每一个表存100万,那么你须要10万张表,咱们只要保留表后缀为6位便可。
上面的算法还能够写的灵活点:
/**
* 根据UID分表算法
*
* @param int $uid //用户ID
* @param int $bit //表后缀保留几位
* @param int $seed //向右移动位数
*/
function getTable( $uid , $bit , $seed ){
return "user_" . sprintf( "%0{$bit}d" , ($uid >> $seed) );
}
总结
上面两种方法,都要对咱们当前系统的用户数据量作出可能最大的预估,而且对数据库单个表的最大承受量作出预估。
好比第二种方案,若是咱们预估咱们系统的用户是100亿,单张表的最优数据量是100万,那么咱们就须要将UID移动20来确保每一个表是100万的数据,保留用户表(user_xxxx)四位来扩展1万张表。
又如第一种方案,每张表100万,md5后取前两位,就只能有256张表了,系统总数据库就是:256*100万;若是你系统的总数据量的比这还多,那你实现确定要MD5取前三位或者四位甚至更多位了。
两种方法都是将数据水平切分到不一样的表中,相对第一种方法,第二种方法更具扩展性。