【巨杉数据库SequoiaDB】巨杉Tech | 巨杉数据库数据高性能数据导入迁移实践

时间 2020-02-07

标签巨杉数据库SequoiaDB tech 数据库数据高性能导入迁移实践栏目 SQL 繁體版

原文原文链接

SequoiaDB 一款自研金融级分布式数据库产品，支持标准SQL和分布式事务功能、支持复杂索引查询，兼容 MySQL、PGSQL、SparkSQL等SQL访问方式。SequoiaDB 在分布式存储功能上，较通常的大数据产品提供更多的数据切分规则，包括：水平切分、范围切分、主子表切分和多维切分方式，用户能够根据不用的场景选择相应的切分方式，以提升系统的存储能力和操做性能。mysql

为了可以提供简单便捷的数据迁移和导入功能，同时更方便地与传统数据库在数据层进行对接，巨杉数据库支持多种方式的数据导入，用户能够根据自身需求选择最适合的方式加载数据。sql

本文主要介绍巨杉数据库集中常见的高性能数据导入方法，其中包括巨杉工具矩阵中的 Sdbimprt导入工具，以及使用SparkSQL, MySQL和原生API 接口进行数据导入，一共四种方式。数据库

Sdbimprt工具导入
sdbimprt 是 SequoiaDB 的数据导入工具，是巨杉数据库工具矩阵中重要组成之一，它能够将 JSON 格式或 CSV 格式的数据导入到 SequoiaDB 数据库中。apache

关于工具说明与参数介绍，请参考：
http://doc.sequoiadb.com/cn/sequoiadb-cat_id-1479195620-edition_id-0。json

1、示例
下面简单介绍一下如何使用 sdbimprt 工具将 csv 文件导入到 SequoiaDB 集合空间 site 的集合 user_info 中：数组

数据文件名称为“user.csv”，内容以下：
“Jack”,18,”China”
“Mike”,20,”USA”
2.导入命令

sdbimprt --hosts=localhost:11810 --type=csv --file=user.csv -c site -l user_info --fields='name string default "Anonymous", age int, country'性能优化

--hosts：指定主机地址（hostname:svcname）网络

--type：导入数据格式，能够是csv或json多线程

--file：要导入的数据文件名称并发

-c(--csname)：集合空间的名字

-l(--clname)：集合的名字

--fields：指定导入数据的字段名、类型、默认值

2、导入性能优化
下面说明使用 sdbimprt 工具时如何提高导入性能：

使用 --hosts 指定多个节点
导入数据时，尽可能指定多个 coord 节点的地址，用“,”分隔多个地址，sdbimprt 工具会把数据随机发到不一样机器上的 coord，起到负载均衡的做用（如图1）。
使用 --insertnum(-n) 参数
在导入数据时，使用 --insertnum(-n) 参数，能够实现批量导入，减小数据发送时的网络交互的次数，从而加快数据导入速度。取值范围为1~100000，默认值为100。
使用 --jobs(-j) 参数
指定导入链接数（每一个链接一个线程），从而实现多线程导入。
切分文件
sdbimprt 在导入数据时支持多线程并发导入，但读数据时是单线程读取，随着导入线程数的增长，数据读取就成为了性能瓶颈。这种状况下，能够将一个大的数据文件切分红若干个小文件，而后每一个小文件对应启动一个 sdbimprt 进程并发导入，从而提高导入性能。若是集群内有多个协调节点，分布在不一样的机器上，那么能够在多台机器上分别启动 sdbimprt 进程，而且每一个 sdbimprt 链接机器本地的协调节点，这样数据发送给协调节点时避免了网络传输（如图2）。
数据加载完后再建索引
对于导入数据量大，且索引多的表，建议先把索引删除，待到数据导入完成后再重建索引，这样有利于加快数据导入。在数据导入的过程当中，若是目标表存在大量的索引，数据库除了写入数据外，还须要写入索引文件，这会下降导入数据的性能。此方式对提高其它方式的数据导入速度一样适用。

SparkSQL 导入
SparkSQL 能够方便的读取多种数据源，经过 SequoiaDB 提供的 Spark 链接器，能够使用 SparkSQL 向 SequoiaDB 中写入数据或从中读取数据。
关于 SparkSQL 如何与 SequoiaDB 链接，请参考：
http://doc.sequoiadb.com/cn/sequoiadb-cat_id-1432190712-edition_id-0。

1、示例
下面举例说明如何将 HDFS 中的 csv 文件经过 SparkSQL 导入 SequoiaDB 集合中，以及如何优化导入性能。

一、将 HDFS 中 csv 文件映射成 spark 的临时表
CREATE TABLE
hdfstable
USING
org.apache.spark.sql.execution.datasources.csv.CSVFileFormat
OPTIONS (
path "hdfs://usr/local/data/test.csv",
header "true"
)

将 SDB 的集合映射成 spark 的临时表

create temporary table sdbtable (
a string,
b int,
c date
)
using
com.sequoiadb.spark
OPTIONS
(
host 'sdbserver1:11810,sdbserver2:11810,sdbserver3:11810',
username 'sdbadmin',
password 'sdbadmin',
collectionspace 'sample',
collection 'employee',
bulksize '500'
);

导入
sparkSession.sql("insert into sdbtable select * from hdfstable");

2、导入性能优化
SparkSQL 数据写入有如下两个参数能够优化：
host

尽可能指定多个 coord 节点的地址，用“,”分隔多个地址，数据会随机发到不一样 coord 节点上，起到负载均衡的做用。
bulksize

该参数默认值为500，表明链接器向 SequoiaDB 写入数据时，以 500 条记录组成一个网络包，再向 SequoiaDB 发送写入请求，能够根据数据的实际大小调整 bulksize 的值。

MySQL 导入
SequoiaDB 以存储引擎的方式与 MySQL 对接，使得用户能够经过 MySQL 的 SQL 接口访问 SequoiaDB 中的数据，并进行增、删、改、查等操做。
关于如何与MySQL对接，请参考：

http://doc.sequoiadb.com/cn/sequoiadb-cat_id-1521595283-edition_id-302。

1、示例
使用 mysql 向 SequoiaDB 导入数据有如下几种方式：

SQL 文件导入
mysql> source /opt/table1.sql
CSV 文件导入。mysql 中提供了 load data infile 语句来插入数据：
mysql> load data local infile '/opt/table2.csv' into table table2 fields terminated by ',' enclosed by '"' lines terminated by '\n';

2、导入性能优化
提高MySQL的导入性能有以下建议：

sequoiadb_conn_addr 指定多个地址
引擎配置参数“sequoiadb_conn_addr”尽可能指定多个coord节点的地址，用“,”分隔多个地址，数据会随机发到不一样coord节点上，起到负载均衡的做用。
开启 bulkinsert
引擎配置参数“sequoiadb_use_bulk_insert”指定是否启用批量插入，默认值为“ON”，表示启用。配置参数“sequoiadb_bulk_insert_size”指定批量插入时每批的插入记录数，默认值2000。能够经过调整bulkinsert size提升插入性能。
切分文件
能够将一个大的数据文件切分为若干个小文件，而后为每一个小文件启动一个导入进程，多个文件并发导入，提升导入速度。

API 接口导入
SequoiaDB 提供了插入数据的 API 接口，即“insert”接口。insert 接口会根据传入的参数不一样而使用不一样的插入方式，若是每次只传入一条记录，则接口也是将记录逐条的发送到数据库引擎，若是每次传入一个包含多条记录的集合或数组，则接口会一次性把这批记录发送到数据库引擎，最后经过引擎一条一条写入数据库中。

所以，insert 接口的两种插入方式的区别在于发送数据到数据库引擎这一过程，一次传入多条记录这种方式称为“bulkinsert”，相对来讲会减小数据发送时的网络交互的次数，插入性能更佳。

小结
如何达到最大数据加载速度，是数据库迁移/数据导入中常遇到的问题，本文从如下四个方面分别介绍了 SequoiaDB 数据迁移/导入过程当中性能最优化的方法：
1）基于巨杉工具矩阵 sdbimprt 导入能够采用修改参数 host 指定多个节点、修改链接数、切分文件、修改参数 insertnum、重建索引等等对数据导入速度进行优化。
2）基于 MySQL 导入能够采用修改参数 host 地址及 bulksize 进行优化。
3）基于 Spark 导入能够采用指定多个协调节点IP、设置 bulkinsert 参数、切分文件进行优化。
4）基于API接口进行优化能够采用 bulkinsert 批量插入数据，减小网络交互。

你们能够参考本文的数据导入方法进行实践验证，从传统数据库迁移到巨杉数据库SequoiaDB。