昨天重温h2 database
的文档时,看到一个一直被我无视的命令create linked table
!仔细研究后发现这绝对是一个NB的功能:可实现跨不一样类型数据库的链接查询!mysql
按照官方文档的介绍,create linked table
能够建立一张表,连接到任何支持JDBC
的外部数据库中的表。执行简单查询(无join
语句)时,会自动将查询语句发送给外部数据库;若是有join
语句,这查询语句会被自动翻译成相应的简单查询语句,再发送给外部数据库。sql
例如,MySQL
中有用户表users (id, name)
,PostgreSQL
中有收藏夹表favorites (id, user_id, name, link)
。要求查询得到id
为1
的用户名和收藏中全部的连接,一般须要分两步:数据库
users
中查询id
为1
的记录;favorites
中查询user_id
的连接。利用linked table
,解决方案是:服务器
users
表的映射,指定使用的JDBC
驱动、地址、用户名、密码和表名。favorites
表的映射,参数与#1相同。inner join
查询得到指定用户的名字与收藏夹中的连接。create linked table users ('com.mysql.jdbc.Driver', 'jdbc:mysql://host/database_name', 'username', 'password', 'users'); create linked table favorites ('org.postgresql.Driver', 'jdbc:postgresql://host/database_name', 'username', 'password', 'favorites'); select users.name, favorites.link from favorites inner join users on favorites.user_id = users.id where user.id = 1;
根据官网的介绍,我YY了一下linked table
底层的实现原理,应该是先把查询翻译成简单查询语句后,再从远程数据库获取数据并存入临时表中,在本地作join等相关的处理后,最后将结果返回给调用者。所以上述的查询会被拆分红:post
并分别发送到相应的外部数据库上执行。性能
从上述的原理能够看出这种解决方案的一个不足之处:favorites
表的查询语句没有带上条件语句,即全表查询。由于自动生成简单查询语句时,只能从原始语句中提取每张表本身相关的条件语句,若是改用name
为关键字查询,此时就没法预测与favorites
表join
时user_id
的范围。测试
此外limit
或top
这种分页语句,在包含join
的语句中也没法预测最终被选中的是哪几条数据,所以也不会发送给外部数据库。例如,select * from favorites limit 1
,服务器上真正执行的是select * from favroites
,limit 1
这个操做是在h2
的内存中实现的,若是远程favorites
表很是大,这条语句执行会很是慢,甚至Out of Memory
。翻译
对于上例,解决方法是在原始语句中为favorites
也添加相应的过滤条件:select users.name, favorites.link from favorites inner join users on favorites.user_id = users.id where user.id = 1 and favorites.user_id = 1
。但这显然不是万能的,只能在全部表都肯定范围的状况下才能使用。设计
遗留系统中还会遇到许多采用物理分表设计的数据库,例如把users
拆分红users_00
、users_01
等一百张表,而不是使用分区,查询前不得不先动态计算表名。postgresql
在尝试了合并分库后,我又测试了经过view
合并拆分的linked table
的方案:
create linked table users_00 ('com.mysql.jdbc.Driver', 'jdbc:mysql://host/database_name', 'username', 'password', 'users_00'); create linked table users_99 ('com.mysql.jdbc.Driver', 'jdbc:mysql://host/database_name', 'username', 'password', 'users_01'); ... create linked table users_99 ('com.mysql.jdbc.Driver', 'jdbc:mysql://host/database_name', 'username', 'password', 'users_99'); create view users (id, name) as select id, name from users_00 union all select id, name from users_01 ... union all select id, name from users_99;
我在线上条了一个分100张的表,每张表的数据量约200万行。测试了一条比较复杂的查询,结果是直接使用union all
在原始库中查询,执行时间月130ms;经过h2
的view
查询,约330ms
。性能仅相差2-3倍!
通过上述测试,我认为经过h2
跨数据库合表查询的方案可用于查询不复杂且性能非重要指标的场景,例如我打算下次把它用在报表系统中~