MapReduce中如何处理跨行的Block和InputSplit

1 提出问题 Map最小输入数据单元是InputSplit。好比对于那么对于一个记录行形式的文本大于128M时,HDFS将会分红多块存储(block),同时分片并不是到每行行尾。这样就会产生两个问题: 一、Hadoop的一个Block默认是128M,那么对于一个记录行形式的文本,会不会形成一行记录被分到两个Block当中? 二、在把文件从Block中读取出来进行切分时,会不会形成一行记录被分红两个
相关文章
相关标签/搜索