大数据面试题——Hive面试题总结(一)

1、Hive表关联查询,如何解决数据倾斜的问题?(☆☆☆☆☆)     1)倾斜原因: map输出数据按key Hash的分配到reduce中,由于key分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的reduce 上的数据量差异过大。          (1)key分布不均匀;          (2)业务数据本身的特性;          (3)建表时考虑不周;          (
相关文章
相关标签/搜索