基于 DataLakeAnalytics 作跨地域的数据分析

时间 2019-12-04

标签基于 datalakeanalytics 地域数据分析繁體版

原文原文链接

在阿里云上，不少客户的应用都是多地域部署的, 好比在北京(cn-beijing)的地域部署一个应用让北方的客户访问快一点，同时在杭州(cn-hangzhou)地域部署一份让南方的客户访问快一点。多地域部署以后，业务数据被拆成了多份，而各个地域的数据库都是独立的，网络又不通，给整体业务数据的分析形成了困难。今天我给你们介绍一套基于 DataLakeAnalytics, OSS, DataX 等几个阿里云产品的跨地域数据分析的解决方案。python

其实云产品自己(好比咱们 DataLakeAnalytics 本身)也有跨地域数据分析的需求，这个方案也一样适用。这个方案原本就是为了分析 DataLakeAnalytics 本身的业务数据而探索出来的。mysql

方案概览

咱们知道各个地域的RDS是不通的，除非你开公网访问权限(有很大的安全风险，不推荐), 并且即便你开公网，要对多个数据库里面的数据进行联合分析也不是一件容易的事情；并且这种数据分析的需求咱们不但愿它占用太多的预算。git

咱们的方案是把各个地域的数据都同步到同一个地域的OSS上面去，而后用 DataLakeAnalytics 进行联合分析。这个方案的优势在于 OSS 存储收费很是便宜， DataLakeAnalytics 也是按查询量收费的，你平时不查询的时候一分钱都不用花。整体方案以下图:github

![(https://upload-images.jianshu.io/upload_images/19049-145d5777e3568f50.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240 "整体方案")sql

汇聚各个地域的数据

咱们方案的第一步是把各个地域的RDS数据同步到同一个地域的OSS里面去。阿里巴巴集团开源了一个很棒的数据搬运的工具: DataX, 能够把数据在各类不一样的数据源之间进行搬运，它支持的数据源类型很是丰富: 从关系型的 MySQL, SQLServer, 到各类文件系统如 HDFS, OSS等等，其中咱们须要的是从 MySQL 读数据的 mysqlreader 插件以及往 OSS 写数据的 osswriter 插件。数据库

假定咱们有下面这么一个记录人员信息的表 person 须要同步:json

create table person (
      id int primary key auto_increment,
      name varchar(1023),
      age int
);

咱们写一个相似下面这样的DataX任务描述文件 person.json :安全

{
 "job": {
   "setting": {
     "speed": {
       "channel": 1,
       "byte": 104857600
     },
     "errorLimit": {
       "record": 10
     }
   },
   "content": [
     {
       "reader": {
         "name": "mysqlreader",
         "parameter": {
           "username": "your-user-name",
           "password": "your-password",
           "column": [
             "id",
             "name",
             "age",
           ],
           "connection": [
             {
               "table": [
                 "person"
               ],
               "jdbcUrl": [
                 "jdbc:mysql://your-rds.mysql.rds.aliyuncs.com:3306/dbname"
               ]
             }
           ]
         }
       },

       "writer": {
         "name": "osswriter",
         "parameter": {
           "endpoint": "http://oss.aliyuncs.com",
           "accessId": "your-access-id",
           "accessKey": "your-access-secret",
           "bucket": "mydb-bucket",
           "object": "mydb/person/region=cn-hangzhou/person.csv",
           "encoding": "UTF-8",
           "fieldDelimiter": "|",
           "writeMode": "truncate"
         }
       }
     }
   ]
 }
}

这里 MySQL 相关的信息填你的业务库的信息，而 OSS 相关的信息选择一个咱们同步到的OSS的地址。注意 OSS 配置部分的 object 字段，mydb 保存你全部的数据, person 这个目录保存你的 person 表的数据，region=cn-hangzhou这个目录就有意思了，它保存的是你的应用在 cn-hangzhou 这个region里面的数据，一样的，你可能还会有 cn-beijing, cn-shangahi 的数据等等。微信

而后执行以下命令:网络

// 执行前确保你已经下载并正确配置好 DataX 了。
python datax/bin/datax.py person.json

正确执行的话你会看到下面的输出:

.....省略N行......
2018-09-06 19:53:19.900 [job-0] INFO  JobContainer - PerfTrace not enable!
2018-09-06 19:53:19.901 [job-0] INFO  StandAloneJobContainerCommunicator - Total 251 records, 54067 bytes | Speed 5.28KB/s, 25 records/s | Error 0 records, 0 bytes |  All Task WaitWriterTime 0.001s | All Task WaitReaderTime 0.026s | Percentage 100.00%
2018-09-06 19:53:19.902 [job-0] INFO  JobContainer -
任务启动时刻                    : 2018-09-06 19:53:09
任务结束时刻                    : 2018-09-06 19:53:19
任务总计耗时                    : 10s
任务平均流量                    : 5.28KB/s
记录写入速度                    : 25rec/s
读出记录总数                    : 251
读写失败总数                    : 0

这样数据就自动同步到 OSS 上去了，你能够下载一个 oss-browser 去查看oss上面的数据:

文件里面数据大概是这样的:

9|ethan|10
10|julian|20
11|train|30
12|wally|40

完成了一个地域的数据搬运以后，其它地域均可以照葫芦画瓢，惟一须要注意的地方是，虽然 MySQL 数据是各个地域的数据，可是 OSS 要用同一个根目录 person ，由于咱们要作数据聚集嘛，把几个地域的数据聚集完成以后，person 目录的结构大概是这样的:

使用 DataLakeAnalytics 分析汇聚后的OSS数据

下面的分析就能够交给 DataLakeAnalytics 了，分析OSS上的数据是 DataLakeAnalytics 的拿手好戏，在开始以前咱们要有一个 DataLakeAnalytics 的帐号，目前 DataLakeAnalytics 正在公测，直接申请试用就行了。试用审批成功以后，你会得到一个用户名和密码, 而后在控制台登陆就可使用:

或者若是你是极客，更偏心命令行，你也可使用普通的 MySQL 客户端就能够链接 DLA 了:

mysql -hservice.cn-shanghai.datalakeanalytics.aliyuncs.com
     -P10000
     -u<your-user-name>
     -p<your-password>

在这篇文章里面，我会使用 MySQL 命令行给你们演示 DLA 的功能。

首先咱们来建一个 DataLakeAnalytics 的数据库:

CREATE DATABASE `mydb` WITH DBPROPERTIES (
    catalog = oss,
    location = 'oss://your-bucket/mydb/'
);

这里的 oss://mydb-bucket/mydb/ 就是前面咱们数据汇聚的 person 目录的父目录。

建好库以后，咱们再建一个表:

CREATE EXTERNAL TABLE IF NOT EXISTS `person` (
 `id` bigint,
 `name` varchar(128),
 `age` int
)
PARTITIONED BY (region varchar(63))
ROW FORMAT DELIMITED FIELDS TERMINATED BY '|'
STORED AS TEXTFILE
LOCATION 'oss://mydb-bucket/mydb/person';

注意这是一个分区表，分区的key是咱们的region，这样的好处一是各个地域在同步数据的时候比较简单，不用担忧把别的地域的数据冲掉了；另外利用地域分区也使得咱们在分析单个地域的时候扫描数据量会比较小，查询速度更快。

建好表以后，咱们运行以下命令让 DataLakeAnalytics 去对OSS上的文件列表进行扫描以找到全部的region 分区:

mysql> msck repair table person;
+-----------------------------------------------------------------------------------------------------------+
| Result                                                                                                    |
+-----------------------------------------------------------------------------------------------------------+
| Partitions not in metastore: person:region=cn-beijing person:region=cn-hangzhou person:region=cn-shanghai |
| Repair: Added partition to metastore mydb.person:region=cn-beijing                                        |
| Repair: Added partition to metastore mydb.person:region=cn-hangzhou                                       |
| Repair: Added partition to metastore mydb.person:region=cn-shanghai                                       |
+-----------------------------------------------------------------------------------------------------------+

如今咱们就能够开心的对全部地域的数据进行联合查询了 :)

mysql> select * from person limit 5;
+------+-------+------+-------------+
| id   | name  | age  | region      |
+------+-------+------+-------------+
|    1 | james |   10 | cn-beijing  |
|    2 | bond  |   20 | cn-beijing  |
|    3 | lucy  |   30 | cn-beijing  |
|    4 | lily  |   40 | cn-beijing  |
|    5 | trump |   10 | cn-hangzhou |
+------+-------+------+-------------+
5 rows in set (0.43 sec)

mysql> select region, count(*) cnt from person group by region;
+-------------+------+
| region      | cnt  |
+-------------+------+
| cn-beijing  |    4 |
| cn-hangzhou |    4 |
| cn-shanghai |    4 |
+-------------+------+
3 rows in set (0.18 sec)

总结

在这篇文章里面，咱们介绍了一种经过 DataLakeAnalytics, OSS, DataX 进行跨地域数据分析的方法。限于篇幅的缘由方案的不少细节没有进一步优化，好比咱们其实能够对数据进行进一步按天分区，这样天天同步的数据能够更少，效率更高；再好比咱们没有介绍如何周期性的进行数据同步，用crontab? 仍是什么调度系统？这些就留给读者本身去探索了。

原文连接更多技术干货请关注阿里云云栖社区微信号：yunqiinsight