Hadoop hdfs&mapreduce核心概念

时间 2019-11-12

标签 hadoop hdfs&mapreduce hdfs mapreduce 核心概念栏目 Hadoop 繁體版

原文原文链接

一、HDFS（分布式文件系统体系）
node

1.一、NameNode:（名称节点）
服务器

Hdfs的守护程序
jvm

记录文件是如何分割成数据块的，以及这些数据块被存储到了哪些节点上
分布式

对内存和I/O进行集中管理
内存

是个单点，发生故障将使集群崩溃
ast

1.二、SecondaryNamenode（辅助名称节点）：发生故障进行人工的设置才能实现集群崩溃的问题集群

监控HDFS状态的辅助后台程序
后台

每一个集群都有一个
监控

与NameNode进行通信，按期保存HDFS元数据快照
map

与NameNode故障能够做为备用NameNode使用

1.三、DataName（数据节点）

每台服务器都运行一个

负责把HDFS数据块读写到本地文件系统

二、mapreduce

2.一、JobTracker（做业跟踪器）

用于处理做业（用户提交代码）的后台程序

决定由哪些文件参与处理，而后切割task并分配及诶单

监控task，重启失败的task

每一个集群只有惟一的JobTracker，位于master节点

2.二、TaskTracker（任务跟踪器）

位于slave及诶单上，与datanode结合

管理各自节点上的task(由Jobtracker分配)

每一个节点只有一个tasktracker,但每个tasktracker能够启动多个jvm，用于并行执行map或reduce任务

与jobtracker交互

master：运行namenode sencondarynode jobtrack的服务器

slave：运行datanode和tasktrack的服务器

MapReduce