Hadoop之MR的调优性能

时间 2020-02-09

标签 hadoop 性能栏目 Hadoop 繁體版

原文原文链接

在工做过程当中遇到这样一个问题：就是在map的时候须要读取大概1T左右的数据，在用集群的自己的设置以外没有设置任何参数时发现就光map（纯粹就是一个转发函数）就要跑上两个小时。网络都说让MR的分区块大小和Hadoop集群中的hdfs块大小一致，这样保证数据不出现跨网络的拷贝，其实也用不着一个MR的程序大小和hdfs块大小一致，由于从hdfs的数据存储的架构来看，其有不少的hdfs块是放在了同一个

>>阅读原文<<