关于影响SparkSQL工做效率的三个方面【面试解答】

1、内存分配 众所周知,SparkSQL操做最终是要被转换为spark操做的,而Spark是基于内存运算的,无论是运算仍是shuffle操做亦或是persist/cache操做,都须要内存资源,这些操做的内存资源的在一个执行者进程所拥有的内存占比能够经过参数指定。 举个例子来讲,当shuffle和cache的内存占比比较低,那么用于计算的内存就越高,但这又会使得用于cache受限,而cache操做
相关文章
相关标签/搜索