大数据面试题——Spark面试题(三)

1、为什么要进行序列化序列化?     可以减少数据的体积,减少存储空间,高效存储和传输数据,不好的是使用的时候要反序列化,非常消耗CPU。   2、Yarn中的container是由谁负责销毁的,在Hadoop Mapreduce中container可以复用么?     ApplicationMaster负责销毁,在Hadoop Mapreduce不可以复用,在spark on yarn程序co
相关文章
相关标签/搜索