大数据开发面试部分:运行一个 hadoop 任务的流程是什么样的(大数据开发面试)

1、 导入数据对需分析的数据进行分片,片的大小默认与 datanode 块大小相同。 2、 每个数据片由一个 mapper 进行分析,mapper 按照需求将数据拆分为一个个 keyvalue 格式的数据。 3、 每个 key-value 数据调用一次 map 方法,对数据进行相应的处理后输出。 4、 将输出的数据复制到对应的分区,默认一个键一个区,相同键放在同一个区中。 5、 将输出的数据进行合
相关文章
相关标签/搜索