速速收藏!使用Apache Spark实现ETL 300%的速度提升

当技术团队开始将现有系统和EDH(企业数据中心)集群拼接在一起时,通常会采用以下常见的设计模式:将文件转储(通常为CSV格式)定期上传到EDH中,接着进行解压缩,转换为最佳查询格式,然后隐藏在HDFS中,在这里各种EDH组件都可以使用它们。 当这些文件转储很大或很经常出现时,这些简单的步骤可能会显著减慢数据撷取管道的速度。这种延迟的一部分是不可避免的;由于物理限制因素,跨网络移动大文件是非常耗时的
相关文章
相关标签/搜索