【大数据面试之对线面试官】MapReduce/HDFS/YARN面试题70连击

时间 2021-01-13

标签 node 面试算法 shell 缓存安全架构 oop 大数据优化栏目 Hadoop 繁體版

原文原文链接

热身30题

1.描述一下HDFS的写流程node

2.描述一下HDFS的读流程面试

3.详细讲解一下HDFS的体系结构算法

4.若是一个datanode出现宕机，恢复流程是什么样的？shell

5.一般你是如何解决Haddop的NameNode宕机的，流程是什么？缓存

6.描述一下NameNode对元数据的管理安全

7.NameNode对元数据的管理机制是什么？架构

8.详细描述一下Yarn的调度流程？oop

9.讲解一下Hadoop中combiner和partition的做用大数据

10.你在MapReduce过程当中遇到过数据倾斜问题吗？你是如何处理的？优化

11.Hadoop的Shuffle分为哪几个阶段？有什么特色

12.Mapreduce的map数量和reduce数量是由什么决定的？

13.你对MapReduce作过什么优化？有什么经验？

14.用过Combiner吗？什么状况要使用Combiner？

15.讲解一下MapReduce的流程？

16.HDFS的系统架构是如何保证数据安全的?

17.在经过客户端向HDFS中写数据的时候，若是某一台机器宕机了，会怎么处理

18.你对Hadoop集群作过哪些优化？有哪些经常使用的优化措施？

19.写出MapReduce求TopN的思路

20.Hadoop集群中有哪些进程？他们各自有什么做用？

21.Hadoop的job和Task之间的区别是什么？

22.Hadoop高可用HA模式如何配置？工做原理是什么？

23.安装过集群吗？大概须要哪几步骤？

24.fsimage和edit的区别

25.详细描述Yarn的三大调度策略

26.说出一些hadoop的经常使用shell命令

27.如何用MapReduce实现求用户PV TOP10？

MapReduce部分深刻

1.谈谈Hadoop序列化和反序列化及自定义bean对象实现序列化?

2.FileInputFormat切片机制

3.在一个运行的Hadoop 任务中，什么是InputSplit？

4.如何断定一个job的map和reduce的数量?

Maptask的个数由什么决定？

6.MapTask和ReduceTask工做原理和机制

7.描述mapReduce有几种排序及排序发生的阶段

8.描述mapReduce中shuffle阶段的工做流程，如何优化shuffle阶段

9.描述mapReduce中combiner的做用是什么，通常使用情景，哪些状况不须要，及和reduce的区别？

10.若是没有定义partitioner，那数据在被送达reducer前是如何被分区的？

11.MapReduce 出现单点负载多大，怎么负载平衡？

12.MapReduce 怎么实现 TopN？写出关键代码

13.Hadoop的缓存机制（DistributedCache）

14.如何使用MapReduce实现两个表的join?

15.什么样的计算不能用MapReduce来提速？

16.ETL是哪三个单词的缩写，说说你用过的ETL场景和哪些技术点？

HDFS部分深刻

HDFS 中的 block 默认保存几份？

2.HDFS 默认 BlockSize 是多大？

3.负责HDFS数据存储的是哪一部分？

4.SecondaryNameNode的目的是什么？

5.文件大小设置，增大有什么影响？

6.hadoop的块大小，从哪一个版本开始是128M

7.HDFS的存储机制

8.Secondary Namenode工做机制？

9.NameNode与SecondaryNameNode 的区别与联系？

10.HDFS组成架构

11.HAnamenode 是如何工做的?

YARN部分深刻

1.简述hadoop1与hadoop2 的架构异同?

2.为何会产生 yarn,它解决了什么问题，有什么优点？

3.HDFS的数据压缩算法?

4.Hadoop的调度器总结?

5.MapReduce 2.0 容错性?

6.Mapreduce推测执行算法及原理?

优化和其余问题

1.MapReduce跑得慢的缘由？

2.MapReduce优化方法？

3.HDFS小文件优化方法？

原文参考：《MapReduce/HDFS/YARN面试题70连击》答案都在文中哦。

欢迎关注，《大数据成神之路》系列文章