hadoop面试复习笔记(1)

0.Mappereduce采用的是Master/Slaves模型java

1.Hadoop是一个开源软件框架,支持支持大数据集的存储和处理。Apache Hadoop是存储和处理大数据的解决方案你是由于:node

  (1)可扩展性。添加任意数量的节点来提升性能架构

  (2)可靠。尽管机器出现故障,可是仍能可靠的存储数据app

  (3)高可用。尽管机器出现故障,可是Hadoop仍然可以存储数据。若是机器硬件崩溃,能够从另外一个路径进行访问。框架

  (4)经济。分布式

2.Hadoop的核心组件是什么?oop

  Hadoop是一个开源软件框架,用于分布式存储和处理大数据集。Apache Hadoop核心组件是HDFS,MapReduce和YARN性能

  HDFS:Hadoop分布式文件系统(HDFS)是Hadoop的主要存储系统。工做原理:存储少许的大文件而不是存储大量的小文件,即便是在硬件故障的状况下,HDFS也能够可靠的存储数据。经过并行访问提供对应用程序的高吞吐量的访问测试

  MapReduce:是Hadoop的数据处理层。是可以处理存储在HDFS中的大型结构化和非结构化数据的应用程序。MapReduce可以并行处理大量的数据。经过将做业划分为一组独立的子任务来进行处理,MapReduce的工做阶段能够分为Map阶段和Reduce阶段大数据

  YARN:资源调度框架。提供资源管理并容许多个数据引擎处理。

3.Hadoop的特色。

  (1)开源。

  (2)分布式处理:由于HDFS以分布式的方式在整个集群上存储数据,因此MapReduce在集群上是并行的处理数据

  (3)可靠性:尽管机器出现故障,可是仍然可以在集群上可靠的存储数据

  (4)高可用性:尽管硬件出现故障,咱们可以从另外一路径访问数据

  (5)可扩展性:能够将新硬件添加带节点上

  (6)经济

  (7)易于使用

4.比较Hadoop和RDBMS?

 (1):架构,传统RDBMS具备ACID的属性。而Hadoop是一个计算框架,具备两个主要的组件:分布式文件系统(HDFS)和MapReduce

 (2)数据接收。RDBMS仅能狗接收结构化的数据,而hadoop可以接收结构化数据和非结构数据

 (3)传统RDBMS支持OLTP(实时数据处理),而hadoop不支持的。

5.Hadoop的运行模式有哪些?

  (1)本地模式:单节点非分布式模式运行,做为单个的java进程进行运行。

  (2)为分布式

  (3)彻底分布式。

6.本地模式有哪些功能?

  hadoop做为单个java进程以单节点非分布式模式来运行,使用本地文件系统进行相关的输入和输出。仅在测试和调试的时候比较有用

7.伪分布模式有哪些特色?

等同于彻底分布式,可是全部的节点都运行在一个节点上

  配置core-site.xml文件:  

<?xml version="1.0"?>      
<!-- core-site.xml -->
<configuration>
        <property>
                <name>fs.defaultFS</name>   //这个地方配置类默认的文件系统,若是是本地模式就是localhost,使用的主机名和端口,最经常使用的是9000
                <value>hdfs://localhost/</value>
        </property>
</configuration>

 

  配置hddfs-site.xml文件

  

<?xml version="1.0"?>
<!-- hdfs-site.xml -->
<configuration>
        <property>
                <name>dfs.replication</name>
                <value>1</value>        //查看配置的副本数
        </property>
</configuration>

  配置mapreduce  

<configuration>
        <property>
                <name>mapreduce.framework.name</name>  //为MapReduce指定框架名称
                <value>yarn</value>
        </property>
</configuration>

配置shuffle以及资源管理器的地址

  

<configuration>
        <property>
                <name>yarn.resourcemanager.hostname</name>
                <value>localhost</value>
        </property>
        <property>
                <name>yarn.nodemanager.aux-services</name>
                <value>mapreduce_shuffle</value>
        </property>
</configuration>

8.列举出hadoop中定义的最经常使用的InputFormat哪一个是默认的        

相关文章
相关标签/搜索