Hadoop 简介(转)

Hadoop - 简介

Hadoop可运行于通常的商用服务器上,具备高容错、高可靠性、高扩展性等特色服务器

特别适合写一次,读屡次的场景架构

适合

  • 大规模数据
  • 流式数据(写一次,读屡次)
  • 商用硬件(通常硬件)

不适合

  • 低延时的数据访问
  • 大量的小文件
  • 频繁修改文件(基本就是写1次)

Hadoop架构

  • HDFS: 分布式文件存储
  • YARN: 分布式资源管理
  • MapReduce: 分布式计算
  • Others: 利用YARN的资源管理功能实现其余的数据处理方式

内部各个节点基本都是采用Master-Woker架构ssh

 

Hadoop安装

  • 单节点安装分布式

    全部服务运行在一个JVM中,适合调试、单元测试oop

  • 伪集群单元测试

    全部服务运行在一台机器中,每一个服务都在独立的JVM中,适合作简单、抽样测试测试

  • 多节点集群spa

    服务运行在不一样的机器中,适合生产环境调试

    配置公共账号code

方便主与从进行无密钥通讯,主要是使用公钥/私钥机制 全部节点的账号都同样 在主节点上执行 ssh-keygen -t rsa生成密钥对 复制公钥到每台目标节点中

Hadoop配置

有两种配置文件:

一种是**-default.xml(只读,默认的配置)

一种是**-site.xml(替换default中的配置)

  • core-site.xml 配置公共属性

  • hdfs-site.xml 配置HDFS

  • yarn-site.xml 配置YARN

  • mapred-site.xml 配置MapReduce

配置文件应用的顺序:

  1. 在JobConf中指定的
  2. 客户端机器上的**-site.xml配置
  3. slave节点上的**-site.xml配置
  4. **-default.xml中的配置

若是某个属性不想被覆盖,能够将其设置成final

<property> <name>{PROPERTY_NAME}</name> <value>{PROPERTY_VALUE}</value> <final>true</final> </property>
相关文章
相关标签/搜索