映射数据流(Mapping Data Flow)的核心功能是转换数据,数据流的结构分为Source、转换和Sink(也就是Destination),这种结构很是相似于SSIS的数据流。架构
在数据流中,数据就像流水(stream)同样,从上一个组件,流向下一个组件。组件之间有graph相链接,把各个组件链接为一个转换流(transformation stream),在数据流面板中,graph显示为一根线,用于表示数据从一个组件流向另外一个组件的路径。app
转换组件是数据流的核心组件,每个转换组件都有输入和输出,接收上一个路径上的组件输入的数据,并向下一个路径上的组件输出数据。性能
打开一个数据工厂,切换到Author面板中,从“Factory Resources”中选择“Data flows”,从后面的“...” (Actions)中选择“New mapping dataflow”,新建数据流面板:优化
初始的数据流面板以下图所示,dataflow1是数据流面板的名称,面板的中央是画布,能够向画布中添加Source、转换组件和Sink(destination)。debug
从dataflow的面板中点击“Add Source”为数据流添加源, 添加数据源以后,source1是源的名称,右下方有一个“+”号,表示为源添加转换功能。代理
在选中Source以后,面板中央的下方区域显示为Source的属性面板,调试
1,Source setting 面板日志
Source settings 用于设置Source的属性,经常使用的Source属性是Source type(源类型),最经常使用的类型是Dataset,表示从Dataset中获取数据。orm
2,Optimize 面板blog
Optimize 选项卡 用于设置分区架构,能够设置Partition option、Partition type和 Number of partitions,分区会优化数据流的性能。
3,Inspect面板
Inspect 选项卡用于显示数据流的元数据,该选项卡是一个只读的视图,从该选项卡中能够看到数据流的列数量(column counts),列变化、增长的列、类的数据类型、列的顺序等。
点击Source右小角的“+”号,为源添加转换功能,这是数据流的核心功能,经常使用的转换功能分为四组:Multiple inputs/outputs、Schema modifier、Row modifier和Destination。
1,多输入/输出(Multiple inputs/outputs)
2,Schema Modifier
对列进行修改:
3,Row Moifier
对行进行修改:
4,Destination
Sink:用于设置数据存储的目标
数据流其实是Pipeline中的一个Activity,只有在Pipeline中建立数据流Activity,才能开始Debug,并设置触发器。
1,调式数据流
在发布(publish)以前,须要对数据流进行调试,把数据流的“Data flow debug”设置为启用:
调试完成以后,发布数据流,就能够把数据流保存到数据工厂中。
2,添加数据流Activity
在Pipeline中面板中添加Data flow 活动,
在Data flow活动的Settings选项卡中,在“Data flow”中设置引用的数据流,Run on (Azure IR) 用于设置IR,并能够设置日志级别(Logging Level),Verbose是默认选项,表示记录详细的日志。
3,监控数据路
监控数据流其实就是在Pipeline runs中查看管道执行的状况
参考文档: