hadoop map reduce高级

InputSplit是指分片,在MapReduce当中作业中,作为map task最小输入单位。分片是基于文件基础上出来的而来的概念,通俗的理解一个文件可以切分为多 少个片段,每个片段包括了<文件名,开始位置,长度,位于哪些主机>等信息。在MapTask拿到这些分片后,会知道从哪开始读取数据。 Job提交时如何获取到InputSplit。用户指定的MapTask的个数,以及文件总长度,块大小,以及
相关文章
相关标签/搜索