本文目录 [-点此收起]html
Streaming Hadoop Performance Optimization at Scale, Lessons Learned at Twitter正则表达式
(Data platform @Twitter)性能优化
此稿介绍了Twitter的核心数据类库团队,在使用Hadoop处理离线任务时,使用的性能分析方法,及由此发现的问题和优化手段,对如何使用 JVM/HotSpot profile(-Xprof)分析Hadoop Job的方法调用开销、Hadoop配置对象的高开销、MapReduce阶段的排序中对象序列化/反序列的高开销问题及优化等给出了实际可操做的方案。markdown
其介绍了Apache Parquet这一面向列的存储格式,并成功应用于列投影(column project),配合predicated push-down技术,过滤不须要的列,极大提升了数据压缩比和序列化/反序列化的性能。
纯干货。
32个赞!数据结构
1) Profile!(-Xprofile)性能优化不能靠猜,而应靠分析!
2) 序列化开销很大,可是Hadoop里有许多序列化(操做)!
3) 根据特定(数据)访问模式,选择不一样的存储格式(面向行仍是面向列)!
4) 使用column projection。
5) 在Hadoop的MR阶段,排序开销很大,使用Raw Comparators以下降开销。
注:此排序针对如Comparator,其会引起序列化/反序列化操做。
6) I/O并不必定就是瓶颈。必要的时候要多I/O换取更少的CPU计算。ide
JVM/HotSpot原生profile能力(-Xprof),其优势以下:
1) 低开销(使用Stack sampling)。
2) 能揭示开销最大的方法调用。
3) 使用标准输出(Stdout)将结果直接写入Task Logs。函数
1) Hadoop的Configuration Object开销出人意料的高。
2) Conf的操做看起来就像一个HashMap的操做。oop
3) 构造函数:读取+解压+分析一个来自磁盘的XML文件post
4) get()调用引发正则表达式计算,变量替换。性能
5) 若是在循环中对上述等方法进行调用,或者每秒一次调用,开销很高.某些(Hadoop)Jobs有30%的时间花在配置相关的方法上!(的确是出人意料的高开销)
总之,没有profile(-Xprof)技术,不可能获取以上洞察,也不可能轻易找到优化的契机和方向,须要使用profile技术来获知I/O和CPU谁才是真正的瓶颈。
开销分析:以下图所示,Hadoop的MR在map和reduce阶段,会反序列化map结果的keys以在此阶段进行排序。
(反序列化操做)开销很大,特别是对于复杂的、非原语的keys,而这些keys又很经常使用。
Hadoop提供了一个RawComparator API,用于对已序列化的(原始的)数据(字节级)进行比较:
不幸的是,须要亲手实现一个自定义的Comparator。
如今,假设数据已序列化后的字节流,自己是易于比较的:
Scala有个很拉风的API,Scala还有一些宏能够产生这些API,以用于:
Tuples , case classes , thrift objects , primitives , Strings,等等数据结构。
怎么拉风法呢?首先,定义一个密集且易于比较的数据序列化(字节)格式:
其次,生成一个用于比较的方法,以利用这种数据格式的优点:
下图是采用上述优化手段后的比较开销对比:
提速到150%!
接着优化!
不要读取不须要的列:
1) 可以使用Apache Parquet(列式文件格式)。
2) 使用特别的反序列化手段能够在面向行的存储中跳过一些不须要的字段。
面向列的存储中,一整列按顺序存储(而不是向面向行的存储那样,列是分开存储的):
能够看到,面向列的存储,使得同类型的字段被顺序排在一块儿(易于压缩):
采用Lzo + Parquet,文件小了2倍多!
1) 按列存储,能够有效地进行列投影(column projection)。
2) 可按需从磁盘上读取列。
3) 更重要的是:能够只反序列化须要的列!
看下效果:
能够看到,列数越少,Parquet的威力越大,到40列时,其效率反而不如Lzo Thrift。
跳过不须要的字段,以下所示:
看下各类列映射方案的对比:
Parquet Thrift还有不少优化空间;Parquet在选取的列数小于13列以前,是更快的;此模式相对平坦,且大多数列都被生成了。
注:左图为column projection,中图为predicate push-down过滤,右图为组合效果。能够看到不少字段被跳过了,那绝壁能够优化序列化/反序列化的效率。
下图则展现了push-down过滤 + parquet的优化成效:
感叹:Twitter真是一家伟大的公司!上述优化手段,集群越大、Hadoop Job越多,效果越明显!