hivejob中map的优化

1、Hive优化案例——map数过多 集群运行的作业有不少map数超大的作业,占用slot过多,导致其他同池子的其他作业等待状态。由于小文件数过多会占用元数据过大,计算时也会消耗更多的资源。所以,建议文件的大小控制在不小于 100M。(文件也不是越大越好,gzip压缩文件最好控制500M以内) 分区表下会有3w多个分区 解决方法 首先要查出产生文件数太多的那步sql。先查当前作业的源表,如果源表不
相关文章
相关标签/搜索