bigdata hadoop 面试问题一

时间 2019-11-06

原文原文链接

数据结构
html

1.栈和队列都是线性数据结构。java

2. 栈(FIlO)：只能在一端操做，即栈顶（如出栈、入栈），这种只能从一端操做的性质，意味着栈中的元素只能后进先出（先进后出）（last in first out）。（它的这种一端性，有时会用来实现double-end stack 双端栈）node

3. 队列(FIFO)：是一个双端操做的数据结构，入队、和出队分别在一端操做。可以保持先进先出的性质（first in first out). 为了充分利用的队列的空间，经常使用来实现循环队列。mysql

一、说说大家公司的hadoop项目？　
　　二、大家项目的集群有多大，有几个节点，总共的数据量是多少？　
　　三、天天大约有多少数据量？
　　四、hdfs如何保持数据的一致性？
　　五、多线程并发是如何开发的？
　　6,、nio有哪些核心的类？
　　七、大家是如何解决hive数据倾斜问题的？
　　八、mapreduce中shuffle的原理
　　还有不少Java基础的问题，好比java虚拟机，垃圾回收机制等等，有些问题一开始本身并非很懂，都会说这个本身尚未接触到，可是那个技术我懂，而后就把知识点转移到你熟悉的领域了，这样就把握主动了。不管面试成功或失败，都要总结，把以前被问到，没有彻底掌握的都熟悉。到下次面试的时候就更有把握，到后面就会越面试越顺。程序员

1、内部表和外部表的区别：面试

1.在建立表的时候，导入数据到外部表，数据并无移动到本身的数据仓库下，而在本身建立表指定的路径下，而对应于内部表数据是移动到本身的数据仓库下的。
2.在删除表的时候，hive 会将内部表的元数据和数据所有删除，而外部表仅仅只是删除元数据，数据并无删除。

2、Hbase的行健怎样建立比较好？列族怎样建立比较好？算法

Hbase中行健用来检索表中的记录：经过如下三种方式：
1.	经过单个的行健访问
2.	经过行健的范围进行scan
3.	全表扫描：扫描整张表中的全部行

行健是按照字典顺序存储的，建立行健的时候应对应这个排序特色，常常读取的数据放在一块儿，最近可能被访问的数据放在一块儿。
	列族：不要在一张表中定义太多的列族，当某个列族flush的时候，临近的列族也会因关联效应而被触发flush。

3、三个datanode当中有一个datanode出错会怎样？sql

访问数据失败则去其余备份的机器去读取，并将这个数据块再进行复制一次到达备份标准

4、MapReduce的调度模式：数据库

先按照做业的优先级高低，然后按照做业到达时间的前后进行处理。
	计算能力调度
		支持多个队列，每一个队列采用FIFO调度策略，计算每一个队列中正在运行的任务数和其分得的计算资源的比值，选择比值最小的队列，以后采用FIFO策略。
	公平调度
		同一个队列中的做业共享资源。
	异构集群调度
	实时调度

5、Hadoop的压缩算法：apache

1.用一些包含了压缩而且支持splittable的文件格式，好比Sequence File，RCFile或者Avro文件，这些文件格式咱们以后都会讲到。若是为了快速压缩可使用lzo，lz4或者snappy压缩格式。
2.使用提供splittable的压缩格式，好比，bzip2和索引后能够支持splittable的lzo。
3.提早把文件分红几个块，每一个块单独压缩，这样就无需考虑splittable的问题了。

6、Mapreduce怎么处理数据倾斜的问题？

数据倾斜：在执行mapreduce的时候，reduce节点大部分都已经执行完毕，可是老是存在着一个或者几个节点运行较慢，致使整个程序处理时间较长，只是由于某一条key的条数比其余的多不少，因此处理这个条数的节点时间较长，致使某几个节点迟迟运行不完。
解决：
	设置一个hash份数N，用来打散key值。
	对有重复的key，将1~N添加到key的后面，造成新的key值。
	对于key值平均分发到不一样的reduce节点，若是须要和其余数据相关联，		为了保证每一个reduce节点上都有相关联的key，对另外一个key也进行上述处理。 
采用调度策略处理数据倾斜问题。
基于抽样分区解决数据倾斜问题（一篇硕士论文）

7、Hadoop框架中怎么来优化？

Hadoop 框架存在着一些问题：
	namenode、jobtracker单点故障，HDFS小文件，jobtracker同时负责监控和调度，负载过大，数据处理的性能。
	框架调优：
（1）	应用程序调优：书写程序优化
1.	避免没必要要的reduce任务
2.	外部文件引入：对于一些外部文件，如字典，配置文件等须要在task之间共享，能够放到分布式缓存里面DistributedCache
3.	为job添加一个combiner：能够减小shuffle阶段从map task远程拷贝到reduce task的开销
4.	根据数据特征选择使用Writable，也能够根据本身的实际状况书写Writable
5.	重用Writable类型
6.	使用StringBuffer而不是String：SringBuffer是可修改的，String是只读的，若是须要修改，会产生临时对象，StringBuffer不会产生临时对象。
（2）	对hadoop参数调优
（3）	系统实现角度调优：根据系统实现的要求，可能会修改源码等方面。

8、shuffle阶段：

shuffle阶段：将map的输出做为reduce的输入的过程就是shuffle了，这个是mapreduce优化的重点地方。这里我不讲怎么优化shuffle阶段，讲讲shuffle阶段的原理，由于大部分的书籍里都没讲清楚shuffle阶段。Shuffle一开始就是map阶段作输出操做，通常mapreduce计算的都是海量数据，map输出时候不可能把全部文件都放到内存操做，所以map写入磁盘的过程十分的复杂，更况且map输出时候要对结果进行排序，内存开销是很大的，map在作输出时候会在内存里开启一个环形内存缓冲区，这个缓冲区专门用来输出的，默认大小是100mb，而且在配置文件里为这个缓冲区设定了一个阀值，默认是0.80（这个大小和阀值都是能够在配置文件里进行配置的），同时map还会为输出操做启动一个守护线程，若是缓冲区的内存达到了阀值的80%时候，这个守护线程就会把内容写到磁盘上，这个过程叫spill，另外的20%内存能够继续写入要写进磁盘的数据，写入磁盘和写入内存操做是互不干扰的，若是缓存区被撑满了，那么map就会阻塞写入内存的操做，让写入磁盘操做完成后再继续执行写入内存操做，前面我讲到写入磁盘前会有个排序操做，这个是在写入磁盘操做时候进行，不是在写入内存时候进行的，若是咱们定义了combiner函数，那么排序前还会执行combiner操做。每次spill操做也就是写入磁盘操做时候就会写一个溢出文件，也就是说在作map输出有几回spill就会产生多少个溢出文件，等map输出所有作完后，map会合并这些输出文件。这个过程里还会有一个Partitioner操做，对于这个操做不少人都很迷糊，其实Partitioner操做和map阶段的输入分片（Input split）很像，一个Partitioner对应一个reduce做业，若是咱们mapreduce操做只有一个reduce操做，那么Partitioner就只有一个，若是咱们有多个reduce操做，那么Partitioner对应的就会有多个，Partitioner所以就是reduce的输入分片，这个程序员能够编程控制，主要是根据实际key和value的值，根据实际业务类型或者为了更好的reduce负载均衡要求进行，这是提升reduce效率的一个关键所在。到了reduce阶段就是合并map输出文件了，Partitioner会找到对应的map输出文件，而后进行复制操做，复制操做时reduce会开启几个复制线程，这些线程默认个数是5个，程序员也能够在配置文件更改复制线程的个数，这个复制过程和map写入磁盘过程相似，也有阀值和内存大小，阀值同样能够在配置文件里配置，而内存大小是直接使用reduce的tasktracker的内存大小，复制时候reduce还会进行排序操做和合并文件操做，这些操做完了就会进行reduce计算了。

9、sqoop在导入mysql时，如何让数据不重复导入？

使用--参数进行不重复导入：
sqoop import --connect jdbc:mysql://localhost:3306/hive  --username root 
	--password hadoop --table TBLS --fields-terminated-by '\t'  
	--null-string '**'  -m 1 --append  --hive-import  
	--check-column 'TBL_ID' --incremental append --last-value 6(不重复导入 检查列参数 增量导入)

	sqoop简单的操做
1.把数据从mysql导入到hdfs(默认是/user/<username>)中
  sqoop import --connect jdbc:mysql://localhost:3306/hive  --username root 
	--password hadoop --table TBLS --fields-terminated-by '\t'  --null-string '**'  
	-m 1 --append  --hive-import 

2.把数据从hdfs导出到mysql中  
  sqoop export --connect jdbc:mysql://localhost:3306/hive  --username root
	--password hadoop --table id(本身先建立表) --fields-terminated-by '\t' 
	--export-dir '/id' (将id文件传到hdfs上)

3.设置为做业，运行做业
  sqoop job --create myjob -- import --connect jdbc:mysql://localhost:3306/hive 
	--username root --password hadoop --table TBLS --fields-terminated-by '\t' 
	--null-string '**'  -m 1 --append  --hive-import  

4. 查看做业，运行做业，删除做业
  sqoop --list
  sqoop --exec myjob
  sqoop --delete myjob

5. 导入导出的事务是以Mapper任务为单位，有几个Mapper就有几个事物。

一. 问答：

1. 简单描述如何安装配置一个apache开源版hadoop，只描述便可，无需列出完整步骤，能列出步骤更好。

1) 安装JDK并配置环境变量（/etc/profile）

2) 关闭防火墙

3) 配置hosts文件，方便hadoop经过主机名访问（/etc/hosts）

4) 设置ssh免密码登陆

5) 解压缩hadoop安装包，并配置环境变量

6) 修改配置文件（$HADOOP_HOME/conf）

hadoop-env.sh core-site.xml hdfs-site.xml mapred-site.xml

7) 格式化hdfs文件系统（hadoop namenode -format）

8) 启动hadoop （$HADOOP_HOME/bin/start-all.sh）

9) 使用jps查看进程

2. 请列出正常工做的hadoop集群中hadoop都分别须要启动那些进程，他们的做用分别是什么，尽量写的全面些。

1) NameNode: HDFS的守护进程，负责记录文件是如何分割成数据块，以及这些数据块分别被存储到那些数据节点上，它的主要功能是对内存及IO进行集中管理

2) Secondary NameNode：辅助后台程序，与NameNode进行通讯，以便按期保存HDFS元数据的快照。

3) DataNode：负责把HDFS数据块读写到本地的文件系统。

4) JobTracker：负责分配task，并监控全部运行的task。

5) TaskTracker：负责执行具体的task，并与JobTracker进行交互。

3. 请列出你所知道的hadoop调度器，并简要说明其工做方法。

比较流行的三种调度器有：默认调度器FIFO，计算能力调度器Capacity Scheduler，公平调度器Fair Scheduler

1) 默认调度器FIFO

hadoop中默认的调度器，采用先进先出的原则

2) 计算能力调度器Capacity Scheduler

选择占用资源小，优先级高的先执行

3) 公平调度器Fair Scheduler

同一队列中的做业公平共享队列中全部资源

4. Hive有那些方式保存元数据的，各有那些特色。

1) 内存数据库derby，较小，不经常使用

2) 本地mysql，较经常使用

3) 远程mysql，不经常使用

5. 请简述hadoop怎样实现二级排序。

在Hadoop中，默认状况下是按照key进行排序，若是要按照value进行排序怎么办？

有两种方法进行二次排序，分别为：buffer and in memory sort和 value-to-key conversion。

buffer and in memory sort

主要思想是：在reduce()函数中，将某个key对应的全部value保存下来，而后进行排序。这种方法最大的缺点是：可能会形成out of memory。

value-to-key conversion

主要思想是：将key和部分value拼接成一个组合key（实现WritableComparable接口或者调setSortComparatorClass函数），这样reduce获取的结果即是先按key排序，后按value排序的结果，须要注意的是，用户须要本身实现Paritioner，以便只按照key进行数据划分。Hadoop显式的支持二次排序，在Configuration类中有个setGroupingComparatorClass()方法，可用于设置排序group的key值

http://dongxicheng.org/mapreduce/hadoop-join-two-tables/

6. 简述hadoop实现Join的几种方法。

1) reduce side join

reduce side join是一种最简单的join方式，其主要思想以下：

在map阶段，map函数同时读取两个文件File1和File2，为了区分两种来源的key/value数据对，对每条数据打一个标签（tag）,好比：tag=0表示来自文件File1，tag=2表示来自文件File2。即：map阶段的主要任务是对不一样文件中的数据打标签。

在reduce阶段，reduce函数获取key相同的来自File1和File2文件的value list，而后对于同一个key，对File1和File2中的数据进行join（笛卡尔乘积）。即：reduce阶段进行实际的链接操做。

2) map side join

之因此存在reduce side join，是由于在map阶段不能获取全部须要的join字段，即：同一个key对应的字段可能位于不一样map中。Reduce side join是很是低效的，由于shuffle阶段要进行大量的数据传输。

Map side join是针对如下场景进行的优化：两个待链接表中，有一个表很是大，而另外一个表很是小，以致于小表能够直接存放到内存中。这样，咱们能够将小表复制多份，让每一个map task内存中存在一份（好比存放到hash table中），而后只扫描大表：对于大表中的每一条记录key/value，在hash table中查找是否有相同的key的记录，若是有，则链接后输出便可。

为了支持文件的复制，Hadoop提供了一个类DistributedCache，使用该类的方法以下：

（1）用户使用静态方法DistributedCache.addCacheFile()指定要复制的文件，它的参数是文件的URI（若是是HDFS上的文件，能够这样：hdfs://namenode:9000/home/XXX/file，其中9000是本身配置的NameNode端口号）。JobTracker在做业启动以前会获取这个URI列表，并将相应的文件拷贝到各个TaskTracker的本地磁盘上。（2）用户使用DistributedCache.getLocalCacheFiles()方法获取文件目录，并使用标准的文件读写API读取相应的文件。

3) SemiJoin

SemiJoin，也叫半链接，是从分布式数据库中借鉴过来的方法。它的产生动机是：对于reduce side join，跨机器的数据传输量很是大，这成了join操做的一个瓶颈，若是可以在map端过滤掉不会参加join操做的数据，则能够大大节省网络IO。

实现方法很简单：选取一个小表，假设是File1，将其参与join的key抽取出来，保存到文件File3中，File3文件通常很小，能够放到内存中。在map阶段，使用DistributedCache将File3复制到各个TaskTracker上，而后将File2中不在File3中的key对应的记录过滤掉，剩下的reduce阶段的工做与reduce side join相同。

更多关于半链接的介绍，可参考：半链接介绍：http://wenku.baidu.com/view/ae7442db7f1922791688e877.html

4) reduce side join + BloomFilter

在某些状况下，SemiJoin抽取出来的小表的key集合在内存中仍然存放不下，这时候可使用BloomFiler以节省空间。

BloomFilter最多见的做用是：判断某个元素是否在一个集合里面。它最重要的两个方法是：add() 和contains()。最大的特色是不会存在false negative，即：若是contains()返回false，则该元素必定不在集合中，但会存在必定的true negative，即：若是contains()返回true，则该元素可能在集合中。

于是可将小表中的key保存到BloomFilter中，在map阶段过滤大表，可能有一些不在小表中的记录没有过滤掉（可是在小表中的记录必定不会过滤掉），这不要紧，只不过增长了少许的网络IO而已。

更多关于BloomFilter的介绍，可参考：http://blog.csdn.net/jiaomeng/article/details/1495500

7. 请简述MapReduce中combiner、partition的做用。

combiner：

有时一个map可能会产生大量的输出，combiner的做用是在map端对输出先作一次合并，以减小网络传输到reducer的数量。

注意：mapper的输出为combiner的输入，reducer的输入为combiner的输出。

partition：

把map任务输出的中间结果按照key的范围划分红R份(R是预先定义的reduce任务的个数)，划分时一般使用hash函数，如：hash(key) mod R

这样能够保证一段范围内的key，必定会由一个reduce任务来处理。

大数据技术/Hadoop面试题

http://blog.csdn.net/lifuxiangcaohui/article/details/39078657

http://blog.csdn.net/lifuxiangcaohui/article/details/39078847

http://my.oschina.net/winHerson/blog/209420

http://blog.csdn.net/zdp072/article/details/42554431

1. bigdata hadoop 面试问题二
2. BigDATA面试题
3. Hadoop面试题（一）
4. hadoop面试题
5. bigdata learning unit one--Hadoop environment setting
6. 面试问题
7. 面试问题（一）
8. hadoop/spark面试题
9. Hadoop 之面试题
10. Hadoop/Spark相关面试问题总结
更多相关文章...
• Lua 调试(Debug) - Lua 教程
• Markdown 标题 - Markdown 教程
• PHP Ajax 跨域问题最佳解决方案
• IntelliJ IDEA中SpringBoot properties文件不能自动提示问题解决