MapReduce中如何处理跨行的Block和InputSplit

时间 2020-05-15

标签 mapreduce 如何处理跨行 block inputsplit 栏目 Hadoop 繁體版

原文原文链接

1 提出问题 Map最小输入数据单元是InputSplit。好比对于那么对于一个记录行形式的文本大于128M时，HDFS将会分红多块存储（block），同时分片并不是到每行行尾。这样就会产生两个问题：一、Hadoop的一个Block默认是128M，那么对于一个记录行形式的文本，会不会形成一行记录被分到两个Block当中？二、在把文件从Block中读取出来进行切分时，会不会形成一行记录被分红两个

>>阅读原文<<