hive性能优化

数据倾斜sql 数据倾斜是指,map /reduce程序执行时,reduce节点大部分执行完毕,可是有一个或者几个reduce节点运行很慢,致使整个程序的处理时间很长,这是由于某一个key的条数比其余key多不少(有时是百倍或者千倍之多),这条key所在的reduce节点所处理的数据量比其余节点就大不少,从而致使某几个节点迟迟运行不完。apache 表现:任务进度长时间维持在99%(或100%),
相关文章
相关标签/搜索