经过DataWorks数据集成归档日志服务数据至MaxCompute进行离线分析

时间 2019-12-07

标签经过 dataworks 数据集成归档日志服务 maxcompute 进行离线分析繁體版

原文原文链接

官方指导文档：https://help.aliyun.com/document_detail/68322.html
可是会遇到你们在分区上或者DataWorks调度参数配置问题，具体拿到真实的case模拟以下：html

步骤一、进入数据集成，点击做业数据源，进入Tab页面。web

步骤二、点击右上角测试

新增数据源，选择消息队列 loghub。spa

步骤三、编辑LogHub数据源中的必填项，包括数据源名称、LogHub
Endpoint、Project、AK信息等，并点击测试连通性。3d

步骤一、在左侧tab也中找到临时查询，并右键>新建ODPS SQL节点。日志

步骤二、编写建表DDL。
步骤三、点击
执行按钮进行建立目标表，分别为ods_client_operation_log、ods_vedio_server_log、ods_web_tracking_log。server

步骤四、直到日志打印成本，表示三条DDL语句执行完毕。htm

步骤五、能够经过desc 查看建立的表。blog

其余两张表也能够经过desc 进行查询。确认数据表的存在状况。队列

数据源端以及在DataWorks中的数据源连通性都已经配置好，接下来就能够经过数据同步任务进行采集数据到MaxCompute上。

操做步骤

步骤一、点击
新建业务流程并确认提交，名称为直播日志采集。

步骤二、在业务流程开发面板中依次建立以下依赖并命名。

依次配置数据同步任务节点配置：web_tracking_log_syn、client_operation_log_syn、vedio_server_log_syn。

步骤三、双击

web_tracking_log_syn 进入节点配置，配置项包括数据源（数据来源和数据去向）、字段映射（源头表和目标表）、通道控制。

根据采集的时间窗口自定义参数为：

步骤四、能够点击高级运行进行测试。

能够分别手工收入自定义参数值进行测试。

步骤五、使用SQL脚本确认是否数据已经写进来。以下图所示：

日志服务的日志正式的被采集入库，接下来就能够进行数据加工。
好比能够经过上述来统计热门房间、地域分布和卡顿率，以下所示：

具体SQL逻辑不在这里展开，能够根据具体业务需求来统计分析。依赖关系配置如上图所示。

本文做者：祎休

本文为云栖社区原创内容，未经容许不得转载。