spark 参数调优7-Executor behavior

spark参数调优系列 目录地址:app

http://www.javashuo.com/article/p-dbqhpgif-ky.html分布式

 

⑦ Executor behaviorfetch

spark.broadcast.blockSizespa

TorrentBroadcastFactory中的每个block大小,默认4m操作系统

过大会减小广播时的并行度,太小会致使BlockManager 产生 performance hit..net

(暂时没懂这是干啥用的)code

spark.executor.coresorm

每一个executor的核数,默认yarn下1核,standalone下为全部可用的核。blog

spark.default.parallelismget

默认RDD的分区数、并行数。

像reduceByKey和join等这种须要分布式shuffle的操做中,最大父RDD的分区数;像parallelize之类没有父RDD的操做,则取决于运行环境下得cluster manager:

若是为单机模式,本机核数;集群模式为全部executor总核数与2中最大的一个。

spark.executor.heartbeatInterval

executor和driver心跳发送间隔,默认10s,必须远远小于spark.network.timeout

spark.files.fetchTimeout

从driver端执行SparkContext.addFile() 抓取添加的文件的超时时间,默认60s

spark.files.useFetchCache

默认true,若是设为true,拉取文件时会在同一个application中本地持久化,被若干个executors共享。这使得当同一个主机下有多个executors时,执行任务效率提升。

spark.files.overwrite

默认false,是否在执行SparkContext.addFile() 添加文件时,覆盖已有的内容有差别的文件。

spark.files.maxPartitionBytes

单partition中最多能容纳的文件大小,单位Bytes 默认134217728 (128 MB)

spark.files.openCostInBytes

小文件合并阈值,小于该参数就会被合并到一个partition内。

默认4194304 (4 MB) 。这个参数在将多个文件放入一个partition时被用到,宁肯设置的小一些,由于在partition操做中,小文件确定会比大文件快。

spark.storage.memoryMapThreshold

从磁盘上读文件时,最小单位不能少于该设定值,默认2m,小于或者接近操做系统的每一个page的大小。