SKIL/工作流程/分布式ETL

分布式ETL ETL代表提取、转换和加载。它是机器学习问题中数据准备和预处理的一个常见工作流程。ETL是从数据源中提取或拉取数据,将其转换为可用形式,然后将其加载到模型/数据库中进行训练/分析。 SKIL中的分布式ETL是指在spark集群上以分布式模式对提取的数据进行转换。   使用Spark集群 要使分布式ETL工作,你需要在后端有一个Spark集群,并且需要一个客户机,一个包含“SparkC
相关文章
相关标签/搜索