编程的时候发现一个惊人的规律,软件是不存在的!全部编程高手级别的人不管作什么类型的编程,最终思考的都是硬件方面的问题!最终思考都是在一秒、一毫秒、甚至一纳秒究竟是如何运行的,而且基于此进行算法实现和性能调优,最后都是回到了硬件!html
在大数据性能的调优,它的本质是硬件的调优!即基于 CPU(计算)、Memory(存储)、IO-Disk/ Network(数据交互) 基础上构建算法和性能调优!咱们在计算的时候,数据确定是存储在内存中的。磁盘IO怎么去处理和网络IO怎么去优化。java
在大数据性能本质的思路上,咱们应该须要在那些方面进行调优呢?好比:算法
一、并行度数据库
二、压缩编程
三、序列化网络
四、数据倾斜数据结构
五、JVM调优 (例如 JVM 数据结构化优化)app
六、内存调优框架
七、Task性能调优 (例如包含 Mapper 和 Reducer 两种类型的 Task)分布式
八、shuffle网络调优(例如小文件合并)
九、RDD算子调优(例如RDD复用,自定义RDD)
十、数据本地性
十一、容错调优
十二、参数调优
大数据最怕的就是数据本地性(内存中)和数据倾斜或者叫数据分布不均衡、数据转输,这个是全部分布式系统的问题!数据倾斜实际上是跟你的业务紧密相关的。因此调优 Spark 的重点必定是在数据本地性和数据倾斜入手。
一、资源分配和使用:你可以申请多少资源以及如何最优化的使用计算资源
二、关发调优:如何基于 Spark 框架内核原理和运行机制最优化的实现代码功能
三、Shuffle调优:分布式系统必然面临的杀手级别的问题
四、数据倾斜:分布式系统业务自己有数据倾斜
这是一张来至于官方的经典资源使用流程图,这里有三大组件,第一部份是 Driver 部份,第二就是具体处理数据的部份,第三就是资源管理部份。这一张图中间有一个过程,这表示在程序运行以前向资源管理器申请资源。在实际生产环境中,Cluster Manager 通常都是 Yarn 的 ResourceManager,Driver 会向 ResourceManager 申请计算资源(通常状况下都是在发生计算以前一次性进行申请请求),分配的计算资源就是 CPU Core 和 Memory,咱们具体的 Job 里的 Task 就是基于这些分配的内存和 Cores 构建的线程池来运行 Tasks 的。
固然在 Task 运行的过程当中会大量的消耗内存,而Task又分为 Mapper 和 Reducer 两种不一样类型的 Task,也就是 ShuffleMapTask 和 ResultTask 两种类型,这类有一个很关建的调优势就是如何对内存进行使用。在一个 Task 运行的时候,默应会占用 Executor 总内存的 20%,Shuffle 拉取数据和进行聚合操做等占用了 20% 的内存,剩下的大概有 60% 是用于 RDD 持久化 (例如 cache 数据到内存),Task 在运行时候是跑在 Core 上的,比较理想的是有足够的 Core 同时数据分布比较均匀,这个时候每每可以充分利用集群的资源。
核心参数调优以下:
num-executors executor-memory executor-cores driver-memory spark.default.parallelizm spark.storage.memoryFraction spark.shuffle.memoryFraction
Shuffle 分开两部份,一个是 Mapper 端的Shuffle,另一个就是 Reducer端的 Shuffle,性能调优有一个很重要的总结就是尽可能不使用 Shuffle 类的算子,咱们能避免就尽可能避免,由于通常进行 Shuffle 的时候,它会把集群中多个节点上的同一个 Key 汇聚在同一个节点上,例如 reduceByKey。而后会优先把结果数据放在内存中,但若是内存不够的话会放到磁盘上。Shuffle 在进行数据抓取以前,为了整个集群的稳定性,它的 Mapper 端会把数据写到本地文件系统。这可能会致使大量磁盘文件的操做。如何避免Shuffle能够考虑如下:
大数据必然要思考的核心性能问题不外乎 CPU 计算、内存管理、磁盘和网络IO操做,这是无可避免的,可是能够基于这个基础上进行优化,思考如何最优化的使用计算资源,思考如何在优化代码,在代码层面上防避坠入性能弱点;思考如何减小网络传输和思考如何最大程度的实现数据分布均衡。
在资源管理调优方面能够设置一些参数,好比num-executors、executor-memory、executor-cores、driver-memory、spark.default.parallelizm、spark.storage.memoryFraction、spark.shuffle.memoryFraction
Shuffle 所致使的问题是全部分布式系统都没法避免的,可是如何把 Shuffle 所带来的性能问题减小最低,是一个很可靠的优化方向。Shuffle 的第一阶段即Mapper端在默应状况下会写到本地,而reducer经过网络抓取的同一个 Key 在不一样节点上都把它抓取过来,内存可能不够,不够的话就写到磁盘中,这可能会致使大量磁盘文件的操做。在实际编程的时候,能够用一些比较高效的RDD算子,例如 reduceByKey、aggregrateByKey、coalesce、foreachPartition、repartitionAndSortWithPartitions。