【Hadoop】Hadoop生态圈基本组件介绍

1. HDFS HDFS(Hadoop分布式文件系统)源于Google在2003年10月发表的GFS论文,HDFS是GFS的实现。HDFS通过流式数据访问,适合大数据集访问的应用程序。HDFS有一次写入多次读取的机制,数据已块的形式,同时分布在集群的不同物理机器上。 2. MapReduce MapReduce(分布式计算框架)源于Google在2004年12月发表的MapReduce论文,Had
相关文章
相关标签/搜索