走进大数据丨 ETL - 性能分析

ETL过程中难免遇到性能问题,运行很慢是一件较常见的事情,遇到这些问题时,我们该如何分析,解决呢?首先我们要找到问题出在哪里,也就是系统的瓶颈在哪. 确定环境是否有瓶颈:检查资源是否有效配置,也就是要确定是由CPU、内存、I/O和网络等产生的瓶颈,还是由ETL处理过程产生的瓶颈。 根据数据特征,确定分区分桶: 分区字段选择:一般原则为根据系统的业务类型来分则分区字段。通常来讲事实表是数据都包含时间
相关文章
相关标签/搜索