带你剖析淘宝TDDL——Matrix层的分库分表配置与实现

前言mysql

在开始讲解淘宝的TDDL(Taobao Distribute Data Layer)技术以前,请容许笔者先吐槽一番。首先要开喷的是淘宝的社区支持作的无比的烂,TaoCode开源社区上面,几乎历来都是有人提问,无人响应。再者版本迭代速度也一样差强人意就目前而言TDDL5.0的版本已经全线开源(Group、Atom、Matrix)你们能够在Github上下载源码。sql

 

目录数据库

1、互联网当下的数据库拆分过程架构

2、TDDL的架构原型并发

3、下载TDDLAtom层和Group层源代码oracle

4、Diamond简介框架

5、Diamond的安装和使用函数

6、动态数据源层的Master/Salve读写分离配置与实现高并发

7、Matrix层的分库分表配置与实现(此章节因为特殊缘由暂时隐藏性能

 

1、互联网当下的数据库拆分过程

对于一个刚上线的互联网项目来讲,因为前期活跃用户数量并很少,并发量也相对较小,因此此时企业通常都会选择将全部数据存放在一个数据库中进行访问操做。但随着后续的市场推广力度不断增强,用户数量和并发量不断上升,这时若是仅靠一个数据库来支撑全部访问压力,几乎是在自寻死路。因此一旦到了这个阶段,大部分Mysql DBA就会将数据库设置成读写分离状态,也就是一个Master节点对应多个Salve节点。通过Master/Salve模式的设计后,彻底能够应付单一数据库没法承受的负载压力,并将访问操做分摊至多个Salve节点上,实现真正意义上的读写分离。但你们有没有想过,单一的Master/Salve模式又能抗得了多久呢?若是用户数量和并发量出现量级上升,单一的Master/Salve模式照样抗不了多久,毕竟一个Master节点的负载仍是相对比较高的。为了解决这个难题,Mysql DBA会在单一的Master/Salve模式的基础之上进行数据库的垂直分区(分库)。所谓垂直分区指的是能够根据业务自身的不一样,将本来冗余在一个数据库内的业务表拆散,将数据分别存储在不一样的数据库中,同时仍然保持Master/Salve模式。通过垂直分区后的Master/Salve模式彻底能够承受住不可思议的高并发访问操做,可是否能够永远高枕无忧了?答案是否认的,一旦业务表中的数据量大了,从维护和性能角度来看,不管是任何的CRUD操做,对于数据库而言都是一件极其耗费资源的事情。即使设置了索引,仍然没法掩盖由于数据量过大从而致使的数据库性能降低的事实,所以这个时候Mysql DBA或许就该对数据库进行水平分区(分表,sharding),所谓水平分区指的是将一个业务表拆分红多个子表,好比user_table0、user_table一、user_table2。子表之间经过某种契约关联在一块儿,每一张子表均按段位进行数据存储,好比user_table0存储1-10000的数据,而user_table1存储10001-20000的数据,最后user_table3存储20001-30000的数据。通过水平分区设置后的业务表,必然可以将本来一张表维护的海量数据分配给N个子表进行存储和维护,这样的设计在国内一流的互联网企业比较常见,如图1-1所示:

 http://dl.iteye.com/upload/picture/pic/128357/7dfec4c1-62f4-3b9a-bb14-1e2ebb627c03.jpg

 

图1-1 水平分区

 

上述笔者简单的讲解了数据库的分库分表原理。接下来请你们认真思考下。本来一个数据库可以完成的访问操做,如今若是按照分库分表模式设计后,将会显得很是麻烦,这种麻烦尤为体如今访问操做上。由于持久层须要判断出对应的数据源,以及数据源上的水平分区,这种访问方式咱们称之为访问“路由”。按照常理来讲,持久层不该该负责数据访问层(DAL)的工做,它应该只关心one to one的操做形式,因此淘宝的TDDL框架诞生也就顺其天然了。

 

2、TDDL的架构原型

淘宝根据自身业务需求研发了TDDL(Taobao Distributed Data Layer)框架,主要用于解决分库分表场景下的访问路由(持久层与数据访问层的配合)以及异构数据库之间的数据同步,它是一个基于集中式配置的JDBC DataSource实现,具备分库分表、Master/Salve、动态数据源配置等功能。

就目前而言,许多大厂也在出一些更加优秀和社区支持更普遍的DAL层产品,好比Hibernate Shards、Ibatis-Sharding等。若是你要问笔者还为何还要对TDDL进行讲解,那么笔者只能很无奈的表示公司要这么干,由于不少时候技术选型并非笔者说了算,而是客户说了算。当笔者费劲全部努力在google上寻找TDDL的相关使用说明和介绍时,内心一股莫名的火已经开始在蔓延,对于更新缓慢(差很少一年没更新过SVN),几乎没社区支持(提问从不响应)的产品来讲,除了蜗居在企业内部,一定走不了多远,最后的结局注定是悲哀的。好了,既然抱怨了一番,不管如何仍是要坚持讲解完。TDDL位于数据库和持久层之间,它直接与数据库创建交道,如图1-2所示:

 http://dl.iteye.com/upload/picture/pic/128361/1effa41f-e243-3832-b558-7c32d28ec171.png

 

图1-2 TDDL所处领域模型定位

 

传说淘宝很早之前就已经对数据进行过度库分表处理,应用层链接多个数据源,中间有一个叫作DBRoute的技术对数据库进行统一的路由访问。DBRoute对数据进行多库的操做、数据的整合,让应用层像操做一个数据源同样操做多个数据库。可是随着数据量的增加,对于库表的分法有了更高的要求,例如,你的商品数据到了百亿级别的时候,任何一个库都没法存放了,因而分红2个、4个、8个、16个、32个……直到1024个、2048个。好,分红这么多,数据可以存放了,那怎么查询它?这时候,数据查询的中间件就要可以承担这个重任了,它对上层来讲,必须像查询一个数据库同样来查询数据,还要像查询一个数据库同样快(每条查询要求在几毫秒内完成),TDDL就承担了这样一个工做(其余DAL产品作得更好),如图1-3所示:

 http://dl.iteye.com/upload/picture/pic/128363/2c1720ec-212b-36a9-88bf-916b075f9680.png

 

图1-3 TDDL分库分表查询策略

 

上述笔者描述了TDDL在分库分表环境下的查询策略,那么接下来笔者有必要从淘宝官方copy它们本身对TDDL优势的一些描述,真实性不敢保证,毕竟没彻底开源,和社区零支持,你们看一看就算了,别认真。

淘宝人自定的TDDL优势:

1、数据库主备和动态切换;
2
、带权重的读写分离;
3
、单线程读重试;
4
、集中式数据源信息管理和动态变动;
5
、剥离的稳定jboss数据源;
6
、支持mysqloracle数据库;
7
、基于jdbc规范,很容易扩展支持实现jdbc规范的数据源;
8
、无server,client-jar形式存在,应用直连数据库;
9
、读写次数,并发度流程控制,动态变动;
10
、可分析的日志打印,日志流控,动态变动;

 

注意

TDDL必需要依赖diamond配置中心(diamond是淘宝内部使用的一个管理持久配置的系统,目前淘宝内部绝大多数系统的配置)。

 

接下来,笔者将会带领各位一块儿分析TDDL的体系架构。TDDL其实主要能够划分为3层架构,分别是Matrix层、Group层和Atom层。Matrix层用于实现分库分表逻辑,底层持有多个Group实例。而Group层和Atom共同组成了动态数据源,Group层实现了数据库的Master/Salve模式的写分离逻辑,底层持有多个Atom实例。最后Atom层(TAtomDataSource)实现数据库ip,port,password,connectionProperties等信息的动态推送,以及持有原子的数据源分离的JBOSS数据源)。

 http://dl.iteye.com/upload/picture/pic/128365/0dd2d2b2-d789-3c59-94e8-7eb15cd95a89.jpg

 

图1-4 TDDL体系结构

 

       章节的最后,咱们还须要对TDDL的原理进行一次剖析。由于咱们知道持久层只关心对数据源的CRUD操做,而多数据源的访问,并不该该由它来关心。也就是说TDDL透明给持久层的数据源接口应该是统一且“单一”的,至于数据库到底如何分库分表,持久层无需知道,也无需编写对应的SQL去实行应对策略。这个时候对TDDL一些疑问就出现了,TDDL须要对SQL进行二次解析和拼装吗?答案是不解析仅拼装。说白了TDDL只须要从持久层拿到发出的SQL

再按照一些分库分表条件,进行特定的SQL扩充以此知足访问路路由操做。

 

如下是淘宝团队对TDDL的官方原理解释:

一、TDDL除了拿到分库分表条件外,还须要拿到order by、group by、limit、join等信息,SUM、

MAX、MIN等聚合函数信息,DISTINCT信息。具备这些关键字的SQL将会在单库和多库状况下进行,语义是不一样的。TDDL必须对使用这些关键字的SQL返回的结果作出合适的处理;

二、TDDL行复制须要从新拼写SQL,带上sync_version字段;

三、不经过sql解析,由于TDDL遵照JDBC规范,它不可能去扩充JDBC规范里面的接口,因此只能经过SQL中加额外的字符条件(也就是HINT方式)或者ThreadLocal方式进行传递,前者使SQL过长,后者难以维护,开发debug时不容易跟踪,并且须要断定是在一条SQL执行后失效仍是1个链接关闭后才失效;

四、TDDL如今也同时支持Hint方式和ThreadLocal方式传递这些信息;

相关文章
相关标签/搜索