Hadoop学习笔记

时间 2019-11-22

标签 hadoop 学习笔记栏目 Hadoop 繁體版

原文原文链接

说明：如遇到报错没有hadoop命令，请从新执行source hadoop-env.sh。后续的实验中同理。java

一、HDFS是Master和Slave的结构，分为NameNode、Secondary NameNode和DataNode三种角色。node

NameNode：在Hadoop1.X中只有一个Master节点，管理HDFS的名称空间和数据块映射信息、配置副本策略和处理客户端请求；
Secondary NameNode：辅助NameNode，分担NameNode工做，按期合并fsimage和fsedits并推送给NameNode，紧急状况下可辅助恢复NameNode；
DataNode：Slave节点，实际存储数据、执行数据块的读写并汇报存储信息给NameNode；

二、HDFS经常使用命令mysql

①. hadoop fs 将本地文件上传到hdfs，同时删除本地文件。web

 hadoop fs -ls / 
 hadoop fs -lsr 
 hadoop fs -mkdir /user/hadoop 
 hadoop fs -put a.txt /user/hadoop/ 
 hadoop fs -get /user/hadoop/a.txt / 
 hadoop fs -cp src dst 
 hadoop fs -mv src dst 
 hadoop fs -cat /user/hadoop/a.txt 
 hadoop fs -rm /user/hadoop/a.txt 
 hadoop fs -rmr /user/hadoop/a.txt 
 hadoop fs -text /user/hadoop/a.txt 
 hadoop fs -copyFromLocal localsrc dst 与hadoop fs -put功能相似。 
 hadoop fs -moveFromLocal localsrc dst

View Code

② hadoop fsadmin 运行一个 HDFS 的 dfsadmin 客户端sql

# 报告文件系统的基本信息和统计信息 shell

hadoop dfsadmin -report 数据库

hadoop dfsadmin -safemode enter | leave | get | wait 编程

# 安全模式维护命令。安全模式是 Namenode 的一个状态，这种状态下，Namenode安全

# 1. 不接受对名字空间的更改(只读)bash

# 2. 不复制或删除块

# Namenode 会在启动时自动进入安全模式，当配置的块最小百分比数知足最小的副本数条件时，会自动离开安全模式。安全模式能够手动进入，可是这样的话也必须手动关闭安全模式。

③hadoop fsck 运行 HDFS 文件系统检查工具。

用法：hadoop fsck [GENERIC_OPTIONS] <path> [-move | -delete | -openforwrite] [-files [-blocks [-locations | -racks]]]

④启动 Hadoop

cd /app/hadoop-1.1.2/bin

./start-all.sh

三、Pig的调用方式：

Grunt shell方式：经过交互的方式，输入命令执行任务；
Pig script方式：经过script脚本的方式来运行任务；
嵌入式方式：嵌入java源代码中，经过java调用来运行任务。

四、Hive与关系数据库的区别具体以下：

①Hive和关系数据库存储文件的系统不一样，Hive使用的是Hadoop的HDFS（Hadoop的分布式文件系统），关系数据库则是服务器本地的文件系统；

②Hive使用的计算模型是Mapreduce，而关系数据库则是自身的计算模型；

③关系数据库都是为实时查询的业务进行设计的，而Hive则是为海量数据作数据挖掘设计的，实时性不好；实时性的区别致使Hive的应用场景和关系数据库有很大的不一样；

④Hive很容易扩展本身的存储能力和计算能力，这个是继承Hadoop的，而关系数据库在这个方面要比数据库差不少。

五、组件

服务端组件：

Driver组件：该组件包括Complier、Optimizer和Executor，它的做用是将HiveQL（类SQL）语句进行解析、编译优化，生成执行计划，而后调用底层的mapreduce计算框架；
Metastore组件：元数据服务组件，这个组件存储Hive的元数据，Hive的元数据存储在关系数据库里，Hive支持的关系数据库有derby和mysql。元数据对于Hive十分重要，所以Hive支持把metastore服务独立出来，安装到远程的服务器集群里，从而解耦Hive服务和metastore服务，保证Hive运行的健壮性；
Thrift服务：thrift是facebook开发的一个软件框架，它用来进行可扩展且跨语言的服务的开发，Hive集成了该服务，能让不一样的编程语言调用hive的接口。

客户端组件：

CLI：command line interface，命令行接口。
Thrift客户端：上面的架构图里没有写上Thrift客户端，可是Hive架构的许多客户端接口是创建在thrift客户端之上，包括JDBC和ODBC接口。
WEBGUI：Hive客户端提供了一种经过网页的方式访问hive所提供的服务。这个接口对应Hive的hwi组件（hive web interface），使用前要启动hwi服务。