分布式数据库切分规则介绍

时间 2019-11-18

原文原文链接

数据切分：
就是指经过某种特定的条件，将咱们存放在同一个数据库中的数据分散存放到多个数据库（主机）上面，以达到分散单台设备负载的效果。前端

根据切分规则，能够分为两种切分模式：
垂直（纵向）切分；数据库

按照业务，把业务不一样的表(或者Schema)来切分到不一样的数据库（主机）之上。
一个数据库由不少表的构成，每一个表对应着不一样的业务，垂直切分是指按照业务将表进行分类，分布到不一样的数据库上面，这样也就将数据或者说压力分担到不一样的库上面。根据业务模块之间的耦合度状况，来制定垂直切分规则。实施起来思路比较清晰，容易进行。后端

一个架构设计较好的应用系统，其整体功能确定是由不少个功能模块所组成的，而每个功能模块所须要的数据对应到数据库中就是一个或者多个表。而在构架设计中，各个功能模块相互之间的交互点越统一越少，系统的耦合度就越低，系统各个模块的维护性以及扩展性也就越好。这样的系统，实现数据的垂直切分也就越容易。
可是每每系统里有些表难以作到彻底的独立，存在这扩库join的状况，对于这类的表，就须要去作平衡，是数据库让业务，共用一个数据源，仍是分红多个库，业务之间经过接口来作调用。在系统初期，数据量比较少，或者资源有限的状况下，会选择共用数据源，可是当数据发展到了必定的规模，负载很大的状况，就须要必须去作分割。通常来说业务存在着复杂join的场景是难以切分的。如何切分，切分到何种程度是考验技术架构的一个难题。架构

垂直切分优势：
        拆分后业务清晰，拆分规则明确
        系统之间整合或扩展容易
        数据维护简单
垂直切分缺点：
        部分业务表没法join，只能经过接口方式解决，提升了系统复杂度。
        受每种业务不一样的限制存在单库性能瓶颈，不易数据扩展跟性能提升。
        事务处理复杂。并发

因为垂直切分是按照业务的分类将表分散到不一样库，因此有些业务表会过于庞大，存在单库读写与存储瓶颈，因此就须要水平拆分来作解决。分布式

水平（横向）切分；高并发

根据表中数据的逻辑关系，将同一个表中数据按照某种条件拆分到多台数据库（主机）上面。
相对于垂直拆分，水平拆分不是将表作分类，而是按照某个字段的某种规则来分散到多个库之中，每一个表中包含一部分数据。简单来讲，咱们能够将数据的水平切分理解为是按照数据行的切分，就是将表中的某些行切分到一个数据库，而另外的某些行又切分到其余的数据库中。性能

拆分数据就须要定义分片规则。关系型数据库是行列的二维模型，拆分的第一原则是找到拆分维度。好比：从会员的角度来分析，商户订单交易类系统中查询会员某天某月某个订单，那么就须要按照会员结合日期来拆分，不一样的数据按照会员ID作分组，这样全部的数据查询join都会在单库内解决；若是从商户的角度来说，要查询某个商家某天全部的订单数，就须要按照商户ID作拆分；可是若是系统既想按会员拆分，又想按商家数据拆分，则会有必定的难度。如何找到合适的分片规则须要综合考虑衡量。大数据

几种典型的分片规则包括：
   按照用户ID求模，将数据分散到不一样的数据库，具备相同数据用户的数据都被分散到一个库中。
   按照日期，将不一样月甚至日的数据分散到不一样的库中。
   按照某个特定的字段求模，或者根据特定范围段分散到不一样的库中。spa

水平拆分优势：
        拆分规则抽象好，join操做基本能够数据库作。
        不存在单库大数据，高并发的性能瓶颈。
        应用端改造较少。
        提升了系统的稳定性跟负载能力。
水平拆分缺点：
        拆分规则难以抽象。
        分片事务一致性难以解决。
        数据屡次扩展难度跟维护量级大。
        跨库join性能较差

前面讲了垂直切分跟水平切分的不一样跟优缺点，会发现每种切分方式都有缺点，但共同的特色缺点有：

        引入分布式事务的问题。
        跨节点join的问题。
        跨节点合并排序分页问题。
        多数据源管理问题。

针对数据源管理，目前主要有两种思路：

A：客户端模式，在每一个应用程序模块中配置管理本身须要的一个（或者多个）数据源，直接访问各个数据库，在模块内完成数据的整合；
B：经过中间代理层来统一管理全部的数据源，后端数据库集群对前端应用程序透明；
可能90%以上的人在面对上面这两种解决思路的时候都会倾向于选择第二种，尤为是系统不断变得庞大复杂的时候。确实，这是一个很是正确的选择，虽然短时间内须要付出的成本可能会相对更大一些，可是对整个系统的扩展性来讲，是很是有帮助的。

对于切分原则，建议以下：

第一原则：能不切分尽可能不要切分。第二原则：若是要切分必定要选择合适的切分规则，提早规划好。第三原则：数据切分尽可能经过数据冗余或表分组（Table Group）来下降跨库Join的可能。第四原则：因为数据库中间件对数据Join实现的优劣难以把握，并且实现高性能难度极大，业务读取尽可能少使用多表Join。