ADF 第五篇：转换数据

时间 2020-12-18

标签架构 app 性能优化 debug 代理调试日志 orm blog 栏目系统架构繁體版

原文原文链接

映射数据流（Mapping Data Flow）的核心功能是转换数据，数据流的结构分为Source、转换和Sink（也就是Destination），这种结构很是相似于SSIS的数据流。架构

在数据流中，数据就像流水（stream）同样，从上一个组件，流向下一个组件。组件之间有graph相链接，把各个组件链接为一个转换流（transformation stream），在数据流面板中，graph显示为一根线，用于表示数据从一个组件流向另外一个组件的路径。app

转换组件是数据流的核心组件，每个转换组件都有输入和输出，接收上一个路径上的组件输入的数据，并向下一个路径上的组件输出数据。性能

一，建立映射数据流面板

打开一个数据工厂，切换到Author面板中，从“Factory Resources”中选择“Data flows”，从后面的“...” (Actions)中选择“New mapping dataflow”，新建数据流面板：优化

初始的数据流面板以下图所示，dataflow1是数据流面板的名称，面板的中央是画布，能够向画布中添加Source、转换组件和Sink（destination）。debug

从dataflow的面板中点击“Add Source”为数据流添加源，添加数据源以后，source1是源的名称，右下方有一个“+”号，表示为源添加转换功能。代理

在选中Source以后，面板中央的下方区域显示为Source的属性面板，调试

1，Source setting 面板日志

Source settings 用于设置Source的属性，经常使用的Source属性是Source type（源类型），最经常使用的类型是Dataset，表示从Dataset中获取数据。orm

2，Optimize 面板blog

Optimize 选项卡用于设置分区架构，能够设置Partition option、Partition type和 Number of partitions，分区会优化数据流的性能。

3，Inspect面板

Inspect 选项卡用于显示数据流的元数据，该选项卡是一个只读的视图，从该选项卡中能够看到数据流的列数量（column counts），列变化、增长的列、类的数据类型、列的顺序等。

点击Source右小角的“+”号，为源添加转换功能，这是数据流的核心功能，经常使用的转换功能分为四组：Multiple inputs/outputs、Schema modifier、Row modifier和Destination。

1，多输入/输出（Multiple inputs/outputs）

Join：用于表示链接，把多个Source（Input）链接成一个输出流
Conditional Split：条件拆分，把一个Source 按照条件拆分红多个输出流
Exists：须要两个输入Left stream和Right stream，按照指定的条件和Exist type输出数据，若是Exist type是Exists，那么表示输出Left Stream存在于Right stream的数据；若是Exist type是Doesn't exist，那么表示输出Left stream不存在于Right stream的数据。
Union：把多个输入合并
Lookup：须要两个输入，Primary stream和Lookup stream，把Primary stream中存在于Lookup stream中的数据输出。

2，Schema Modifier

对列进行修改：

3，Row Moifier

对行进行修改：

4，Destination

Sink：用于设置数据存储的目标

数据流其实是Pipeline中的一个Activity，只有在Pipeline中建立数据流Activity，才能开始Debug，并设置触发器。

1，调式数据流

在发布（publish）以前，须要对数据流进行调试，把数据流的“Data flow debug”设置为启用：

调试完成以后，发布数据流，就能够把数据流保存到数据工厂中。

2，添加数据流Activity

在Pipeline中面板中添加Data flow 活动，

在Data flow活动的Settings选项卡中，在“Data flow”中设置引用的数据流，Run on (Azure IR) 用于设置IR，并能够设置日志级别（Logging Level），Verbose是默认选项，表示记录详细的日志。

3，监控数据路

监控数据流其实就是在Pipeline runs中查看管道执行的状况

参考文档：