深刻理解关系型数据库的数据水平切分和垂直切分

时间 2019-11-08

标签深刻理解关系数据库数据水平切分垂直栏目 SQL 繁體版

原文原文链接

深刻理解关系型数据库的数据水平切分和垂直切分

ghost丶桃子 2016-05-19 14:47:19 浏览3252 评论0前端

数据库数据切分水平切分垂直切分分表分库

摘要： 虽然在云计算时代，传统数据库存在着先天性的弊端，可是NoSQL数据库又没法将其替代，NoSQL只能做为传统数据的补充而不能将其替代，因此规避传统数据库的缺点是目前大数据时代必需要解决的问题。若是传统数据易于扩展，可切分，就能够避免单机（单库）的性能缺陷，可是因为目前开源或者商用的传统数据库基本不支持大规模自动扩展，因此就须要借助第三方来作处理，下面就来分析一下如何进行数据切分。数据库

虽然在云计算时代，传统数据库存在着先天性的弊端，可是NoSQL数据库又没法将其替代，NoSQL只能做为传统数据的补充而不能将其替代，因此规避传统数据库的缺点是目前大数据时代必需要解决的问题。若是传统数据易于扩展，可切分，就能够避免单机（单库）的性能缺陷，可是因为目前开源或者商用的传统数据库基本不支持大规模自动扩展，因此就须要借助第三方来作处理，下面就来分析一下如何进行数据切分。后端

何为数据切分？架构

简单来讲，就是指经过某种特定的条件，将咱们存放在同一个数据库中的数据分散存放到多个数据库（主机）上面，以达到分散单台设备负载的效果。并发

数据的切分（Sharding）根据其切分规则的类型，能够分为两种切分模式。一种是按照不一样的表（或者Schema）来切分到不一样的数据库（主机）之上，这种切能够称之为数据的垂直（纵向）切分；另一种则是根据表中的数据的逻辑关系，将同一个表中的数据按照某种条件拆分到多台数据库（主机）上面，这种切分称之为数据的水平（横向）切分。分布式

垂直切分的最大特色就是规则简单，实施也更为方便，尤为适合各业务之间的耦合度很是低，相互影响很小，业务逻辑很是清晰的系统。在这种系统中，能够很容易作到将不一样业务模块所使用的表分拆到不一样的数据库中。根据不一样的表来进行拆分，对应用程序的影响也更小，拆分规则也会比较简单清晰。高并发

水平切分于垂直切分相比，相对来讲稍微复杂一些。由于要将同一个表中的不一样数据拆分到不一样的数据库中，对于应用程序来讲，拆分规则自己就较根据表名来拆分更为复杂，后期的数据维护也会更为复杂一些。性能

垂直切分大数据

一个数据库由不少表的构成，每一个表对应着不一样的业务，垂直切分是指按照业务将表进行分类，分布到不一样的数据库上面，这样也就将数据或者说压力分担到不一样的库上面，以下图：云计算

系统被切分红了，用户，订单交易，支付几个模块。

一个架构设计较好的应用系统，其整体功能确定是由不少个功能模块所组成的，而每个功能模块所须要的数据对应到数据库中就是一个或者多个表。而在架构设计中，各个功能模块相互之间的交互点越统一越少，系统的耦合度就越低，系统各个模块的维护性以及扩展性也就越好。这样的系统，实现数据的垂直切分也就越容易。

可是每每系统之有些表难以作到彻底的独立，存在这扩库join的状况，对于这类的表，就须要去作平衡，是数据库让步业务，共用一个数据源，仍是分红多个库，业务之间经过接口来作调用。在系统初期，数据量比较少，或者资源有限的状况下，会选择共用数据源，可是当数据发展到了必定的规模，负载很大的状况，就须要必须去作分割。

通常来说业务存在着复杂join的场景是难以切分的，每每业务独立的易于切分。如何切分，切分到何种程度是考验技术架构的一个难题。

下面来分析下垂直切分的优缺点：

优势：

拆分后业务清晰，拆分规则明确。

系统之间整合或扩展容易。

数据维护简单。

缺点：

部分业务表没法join，只能经过接口方式解决，提升了系统复杂度。

受每种业务不一样的限制存在单库性能瓶颈，不易数据扩展跟性能提升。

事务处理复杂。

因为垂直切分是按照业务的分类将表分散到不一样的库，因此有些业务表会过于庞大，存在单库读写与存储瓶颈，因此就须要水平拆分来作解决。

水平切分

相对于垂直拆分，水平拆分不是将表作分类，而是按照某个字段的某种规则来分散到多个库之中，每一个表中包含一部分数据。简单来讲，咱们能够将数据的水平切分理解为是按照数据行的切分，就是将表中的某些行切分到一个数据库，而另外的某些行又切分到其余的数据库中，如图：

拆分数据就须要定义分片规则。关系型数据库是行列的二维模型，拆分的第一原则是找到拆分维度。好比：从会员的角度来分析，商户订单交易类系统中查询会员某天某月某个订单，那么就须要按照会员结合日期来拆分，不一样的数据按照会员ID作分组，这样全部的数据查询join都会在单库内解决；若是从商户的角度来说，要查询某个商家某天全部的订单数，就须要按照商户ID作拆分；可是若是系统既想按会员拆分，又想按商家数据，则会有必定的困难。如何找到合适的分片规则须要综合考虑衡量。

几种典型的分片规则包括：

按照用户ID求模，将数据分散到不一样的数据库，具备相同数据用户的数据都被分散到一个库中。

按照日期，将不一样月甚至日的数据分散到不一样的库中。

按照某个特定的字段求摸，或者根据特定范围段分散到不一样的库中。

如图，切分原则都是根据业务找到适合的切分规则分散到不一样的库，下面用用户ID求模举例：

既然数据作了拆分有优势也就优缺点。

优势有：

拆分规则抽象好，join操做基本能够数据库作。

不存在单库大数据，高并发的性能瓶颈。

应用端改造较少。

提升了系统的稳定性跟负载能力。

缺点有：

拆分规则难以抽象。

分片事务一致性难以解决。

数据屡次扩展难度跟维护量极大。

跨库join性能较差。

前面讲了垂直切分跟水平切分的不一样跟优缺点，会发现每种切分方式都有缺点，但共同的特色缺点有：

引入分布式事务的问题。

跨节点Join的问题。

跨节点合并排序分页问题。

多数据源管理问题。

针对数据源管理，目前主要有两种思路：

A. 客户端模式，在每一个应用程序模块中配置管理本身须要的一个（或者多个）数据源，直接访问各个数据库，在模块内完成数据的整合；

B. 经过中间代理层来统一管理全部的数据源，后端数据库集群对前端应用程序透明；

可能90%以上的人在面对上面这两种解决思路的时候都会倾向于选择第二种，尤为是系统不断变得庞大复杂的时候。确实，这是一个很是正确的选择，虽然短时间内须要付出的成本可能会相对更大一些，可是对整个系统的扩展性来讲，是很是有帮助的。

因为数据切分后数据Join的难度在此也分享一下数据切分的经验：

第一原则：能不切分尽可能不要切分。

第二原则：若是要切分必定要选择合适的切分规则，提早规划好。

第三原则：数据切分尽可能经过数据冗余或表分组（Table Group）来下降跨库Join的可能。

第四原则：因为数据库中间件对数据Join实现的优劣难以把握，并且实现高性能难度极大，业务读取尽可能少使用多表Join。