spark参数调优系列 目录地址:app
http://www.javashuo.com/article/p-dbqhpgif-ky.html分布式
⑦ Executor behaviorfetch
spark.broadcast.blockSizespa
TorrentBroadcastFactory中的每个block大小,默认4m操作系统
过大会减小广播时的并行度,太小会致使
BlockManager
产生 performance hit..net(暂时没懂这是干啥用的)code
spark.executor.coresorm
每一个executor的核数,默认yarn下1核,standalone下为全部可用的核。blog
spark.default.parallelismget
默认RDD的分区数、并行数。
像reduceByKey和join等这种须要分布式shuffle的操做中,最大父RDD的分区数;像
parallelize之类没有父RDD的操做,则取决于运行环境下得cluster manager:若是为单机模式,本机核数;集群模式为全部executor总核数与2中最大的一个。
spark.executor.heartbeatInterval
executor和driver心跳发送间隔,默认10s,必须远远小于spark.network.timeout
spark.files.fetchTimeout
从driver端执行SparkContext.addFile() 抓取添加的文件的超时时间,默认60s
spark.files.useFetchCache
默认true,若是设为true,拉取文件时会在同一个application中本地持久化,被若干个executors共享。这使得当同一个主机下有多个executors时,执行任务效率提升。
spark.files.overwrite
默认false,是否在执行SparkContext.addFile() 添加文件时,覆盖已有的内容有差别的文件。
spark.files.maxPartitionBytes
单partition中最多能容纳的文件大小,单位Bytes 默认134217728 (128 MB)
spark.files.openCostInBytes
小文件合并阈值,小于该参数就会被合并到一个partition内。
默认4194304 (4 MB) 。这个参数在将多个文件放入一个partition时被用到,宁肯设置的小一些,由于在partition操做中,小文件确定会比大文件快。
spark.storage.memoryMapThreshold
从磁盘上读文件时,最小单位不能少于该设定值,默认2m,小于或者接近操做系统的每一个page的大小。