构建数据管道须要考虑的问题:安全
及时性 可靠性 高吞吐量和动态吞吐量 数据格式 转换 安全性 故障处理能力 耦合性与灵活性blog
数据管道的构建分为2个阵营,ETL和ELT进程
ETL:提取-转换-加载 当数据流经管道时,数据管道负责处理他们原理
ELT:提取-加载-转换:数据管道只作少许的转换,高保真配置
数据管道最重要的做用是解耦数据源和数据池im
发生耦合状况: 临时数据管道 元数据丢失 末端处理数据
Connect工做原理img
链接器和任务co
链接器实现了ConnectorAPI ,API 包含如下2部分:安全性
链接器负责如下3件事: 决定运行多少任务,按照任务拆分数据复制,从worker进程获取任务配置并将其传递下去
任务:负责将数据移入/移出Kafka
work进程
转化器和Connect数据模型
偏移量管理器