AWS之Glue使用方法

Glue是AWS的云上ETL工具,核心是Spark,查询也是先获取数据源的元数据,再通过元数据溯源数据。 本文示范使用Glue把数据从RDS抽到redshift的操作 总体步骤: 1.连接数据源 2.建立爬网程序 3.运行爬网程序生成元数据表 4.建立作业 5.运行作业 (再后面还可建立工作流程实现作业流,本文未涉及) 建立连接 连接可以是(半结构化)文件,和各种数据库,和kafka 图中的“数据
相关文章
相关标签/搜索