为何Hadoop采用64M的分块？

时间 2019-11-17

标签为何 hadoop 采用 64m 分块栏目 Hadoop 繁體版

原文原文链接

减小硬盘寻道时间(disk seek time)

HDFS设计前提是支持大容量的流式数据操做，因此即便是通常的数据读写操做，涉及到的数据量都是比较大的。假如数据块设置过少，那须要读取的数据块就比较多，因为数据块在硬盘上非连续存储，普通硬盘由于须要移动磁头，因此随机寻址较慢，读越多的数据块就增大了总的硬盘寻道时间。当硬盘寻道时间比io时间还要长的多时，那么硬盘寻道时间就成了系统的一个瓶颈。 合适的块大小有助于减小硬盘寻道时间，提升系统吞吐量。

减小Namenode内存消耗

对于HDFS，他只有一个Namenode节点，他的内存相对于Datanode来讲，是极其有限的。然而，namenode须要在其内存FSImage文件中中记录在Datanode中的数据块信息，假如数据块大小设置过少，而须要维护的数据块信息就会过多，那Namenode的内存可能就会伤不起了。

为何不能远大于64MB(或128MB或256MB)

这里主要从上层的MapReduce框架来讨论node

Map崩溃问题：

系统须要从新启动，启动过程须要从新加载数据，数据块越大，数据加载时间越长，系统恢复过程越长。

监管时间问题：

主节点监管其余节点的状况，每一个节点会周期性的把完成的工做和状态的更新报告回来。若是一个节点保持沉默超过一个预设的时间间隔，主节点记录下这个节点状态为死亡，并把分配给这个节点的数据发到别的节点。对于这个“预设的时间间隔”，这是从数据块的角度大概估算的。假如是对于64MB的数据块，我能够假设你10分钟以内不管如何也能解决了吧，超过10分钟也没反应，那就是死了。可对于640MB或是1G以上的数据，我应该要估算个多长的时间内？估算的时间短了，那就误判死亡了，分分钟更坏的状况是全部节点都会被判死亡。估算的时间长了，那等待的时间就过长了。因此对于过大的数据块，这个“预设的时间间隔”很差估算。

问题分解问题：

数据量大小是问题解决的复杂度是成线性关系的。对于同个算法，处理的数据量越大，它的时间复杂度也就越大。

约束Map输出：

在Map Reduce框架里，Map以后的数据是要通过排序才执行Reduce操做的。想一想归并排序算法的思想，对小文件进行排序，而后将小文件归并成大文件的思想，而后就会懂这点了....算法

相关文章

相关标签/搜索

Docker命令大全

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公众号

欢迎关注本站公众号,获取更多信息

相关文章

>>更多相关文章<<