大数据数据倾斜

时间 2019-11-18

标签数据倾斜繁體版

原文原文链接

什么是数据倾斜
简单的讲，数据倾斜就是咱们在计算数据的时候，数据的分散度不够，致使大量的数据集中到了一台或者几台机器上计算，这些数据的计算速度远远低于平均计算速度，致使整个计算过程过慢。
相信大部分作数据的童鞋们都会遇到数据倾斜，数据倾斜会发生在数据开发的各个环节中，好比：算法

用Hive算数据的时候reduce阶段卡在99.99%
用SparkStreaming作实时算法时候，一直会有executor出现OOM的错误，可是其他的executor内存使用率却很低。
数据倾斜有一个关键因素是数据量大，能够达到千亿级。sql

数据倾斜长的表现网络

以Hadoop和Spark是最多见的两个计算平台，下面就以这两个平台说明：oop

一、Hadoop中的数据倾斜优化

Hadoop中直接贴近用户使用使用的时Mapreduce程序和Hive程序，虽然说Hive最后也是用MR来执行（至少目前Hive内存计算并不普及），可是毕竟写的内容逻辑区别很大，一个是程序，一个是Sql，所以这里稍做区分。设计

Hadoop中的数据倾斜主要表如今ruduce阶段卡在99.99%，一直99.99%不能结束。
这里若是详细的看日志或者和监控界面的话会发现：日志

有一个多几个reduce卡住
各类container报错OOM
读写的数据量极大，至少远远超过其它正常的reduce
伴随着数据倾斜，会出现任务被kill等各类诡异的表现。

经验： Hive的数据倾斜，通常都发生在Sql中Group和On上，并且和数据逻辑绑定比较深。图片

二、Spark中的数据倾斜ip

Spark中的数据倾斜也很常见，这里包括Spark Streaming和Spark Sql，表现主要有下面几种：内存

Executor lost，OOM，Shuffle过程出错
Driver OOM
单个Executor执行时间特别久，总体任务卡在某个阶段不能结束
正常运行的任务忽然失败

补充一下，在Spark streaming程序中，数据倾斜更容易出现，特别是在程序中包含一些相似sql的join、group这种操做的时候。由于Spark Streaming程序在运行的时候，咱们通常不会分配特别多的内存，所以一旦在这个过程当中出现一些数据倾斜，就十分容易形成OOM。

数据倾斜的原理

一、数据倾斜产生的缘由
咱们以Spark和Hive的使用场景为例。他们在作数据运算的时候会设计到，countdistinct、group by、join等操做，这些都会触发Shuffle动做，一旦触发，全部相同key的值就会拉到一个或几个节点上，就容易发生单点问题。

二、万恶的shuffle
Shuffle是一个能产生奇迹的地方，不论是在Spark仍是Hadoop中，它们的做用都是相当重要的。那么在Shuffle如何产生了数据倾斜？

Hadoop和Spark在Shuffle过程当中产生数据倾斜的原理基本相似。以下图。

大部分数据倾斜的原理就相似于下图，很明了，由于数据分布不均匀，致使大量的数据分配到了一个节点。

三、从业务计角度来理解数据倾斜

数据每每和业务是强相关的，业务的场景直接影响到了数据的分布。再举一个例子，好比就说订单场景吧，咱们在某一天在北京和上海两个城市多了强力的推广，结果多是这两个城市的订单量增加了10000%，其他城市的数据量不变。而后咱们要统计不一样城市的订单状况，这样，一作group操做，可能直接就数据倾斜了。

如何解决

        数据倾斜的产生是有一些讨论的，解决它们也是有一些讨论的，本章会先给出几个解决数据倾斜的思路，而后对Hadoop和Spark分别给出一些解决数据倾斜的方案。
1、几个思路
    解决数据倾斜有这几个思路：
        1.业务逻辑，咱们从业务逻辑的层面上来优化数据倾斜，好比上面的例子，咱们单独对这两个城市来作count，最后和其它城市作整合。
        2.程序层面，好比说在Hive中，常常遇到count（distinct）操做，这样会致使最终只有一个reduce，咱们能够先group 再在外面包一层count，就能够了。
        3.调参方面，Hadoop和Spark都自带了不少的参数和机制来调节数据倾斜，合理利用它们就能解决大部分问题。

2、从业务和数据上解决数据倾斜

不少数据倾斜都是在数据的使用上形成的。咱们举几个场景，并分别给出它们的解决方案。
数据分布不均匀：
前面提到的“从数据角度来理解数据倾斜”和“从业务计角度来理解数据倾斜”中的例子，其实都是数据分布不均匀的类型，这种状况和计算平台无关，咱们能经过设计的角度尝试解决它。

有损的方法：
找到异常数据，好比ip为0的数据，过滤掉
无损的方法：
对分布不均匀的数据，单独计算
先对key作一层hash，先将数据打散让它的并行度变大，再聚集
•数据预处理

3、Hadoop平台的优化方法

列出来一些方法和思路，具体的参数和用法在官网看就好了。

        1.mapjoin方式
        2.count distinct的操做，先转成group，再count
        3.hive.groupby.skewindata=true
        4.left semi jioin的使用
        5.设置map端输出、中间结果压缩。（不彻底是解决数据倾斜的问题，可是减小了IO读写和网络传输，能提升不少效率）

4、Spark平台的优化方法
    列出来一些方法和思路，具体的参数和用法在官网看就好了。
        1.mapjoin方式
        2.设置rdd压缩
        3.合理设置driver的内存
        4.Spark Sql中的优化和Hive相似，能够参考Hive

总结

数据倾斜的坑仍是很大的，如何处理数据倾斜是一个长期的过程，但愿本文的一些思路能提供帮助。文中一些内容没有细讲，好比Hive Sql的优化，数据清洗中的各类坑，这些留待后面单独的分享，会有不少的内容。另外千亿级别的数据还会有更多的难点，不只仅是数据倾斜的问题，这一点在后面也会有专门的分享。