视频jourk--hadoop2.x介绍与安装

1、 hadoop介绍

1.hadoop的由来:(google三篇论文)

  1. (2003)GFS --> HDFSweb

  2. (2004)MapReduce --> MapReduce并发

  3. (2006)BigTable --> HBase(Hadoop DataBase)负载均衡

2.hadoop的著名案例

  1.  Facebook : HiveQL进行数据分析;框架

  2. 淘宝搜索   :Hive自定义筛选;分布式

  3. eBay         :数据仓库;oop

  4. Twitter     :Pig高级数据处理,发现可能认识的人;大数据

  5. Amazon   :协同过滤的推荐,及淘宝推荐;优化

  6. Yahoo      :pig,垃圾邮件的识别过滤及用户特征建模;google

  7. 天猫          :hive,推荐系统(广告联盟),少许尝试mahout。6:56spa

 3.hadoop的特色

  1. 扩容能力(Scalable):可靠的存储和处理PB级数据;

  2. 成本低(Economical):廉价机集群;

  3. 高效率(Efficient):并发;

  4. 可靠行(Reliable):存储多个副本;

4.hadoop核心

  1. HDFS 海量存储(通讯RPC);

    1. 2.x比1.x的优化:

      1. NameNodeHA:1.x只有一个,2.x有多个;

      2. federation:

    2.  DataNode:有多个块Block,每一个块有128M;

    3. NameNode的Metadata记录位置:

      1. FileName:文件名

      2. replicas:副本数

      3. block_ids:block块

      4. id2host:id和主机名关系

    4.  

  2. MapReduce 海量计算:

  3. YARN(Yet Anothor Resource Negotiator):资源调度管理系统;

2、hadoop安装

 

    1.安装环境:须要6台机器

  • 2台(机器1+机器2--JDK+Hadoop)运行NameNode(HDFS的老大):HA

    • NameNode、DFSZKFailoverController.

    • NameNode、DFSZKFailoverController.

  • 1台(机器3--JDK+Hadoop)运行ResourceManager(YARN的老大);

    • ResourceManager

  • 3台(机器4+机器5+机器6--JDK+Hadoop+Zookeeper)运行DataNode,并安装ZK(奇数个)

    • DataNode、NodeManager(YARN的小弟)、JournalNode(实时数据同步)、QuorumPeerMain(ZK的节点)。

    • DataNode、NodeManager(YARN的小弟)、JournalNode(实时数据同步)、QuorumPeerMain(ZK的节点)。

    • DataNode、NodeManager(YARN的小弟)、JournalNode(实时数据同步)、QuorumPeerMain(ZK的节点)。

    

  •  Zookeeper(ZK-2181)是大数据协调管理框架,能够进行master选举、负载均衡、分布式锁、配置信息维护等;

     2.集群部署:

相关文章
相关标签/搜索