Hadoop之MR的调优性能

在工做过程当中遇到这样一个问题:就是在map的时候须要读取大概1T左右的数据,在用集群的自己的设置以外没有设置任何参数时发现就光map(纯粹就是一个转发函数)就要跑上两个小时。网络 都说让MR的分区块大小和Hadoop集群中的hdfs块大小一致,这样保证数据不出现跨网络的拷贝,其实也用不着一个MR的程序大小和hdfs块大小一致,由于从hdfs的数据存储的架构来看,其有不少的hdfs块是放在了同一个
相关文章
相关标签/搜索