大数据面试题-框架原理篇

一 请阐述mapreduce的运行机制   1. 文件被按128M大小进行分割。     分割是对每个文件单独进行对,不会把所有对文件看成一个整体。 2. 分割后的每个文件块就启动一个map task去处理其数据。 3. 在map task中,数据被处理成kv对的形式,首先放入一个环形缓冲区中。     MapoutputCollector负责收集数据到环形缓冲区中。 4. 当环形缓冲区的容量使用
相关文章
相关标签/搜索