大数据面试（大数据整理）

时间 2019-11-21

原文原文链接

1.简述大数据的生态组件html

　　参考连接：node

　　http://wenku.baidu.com/link?url=OYTVLe1e5zvBn8CBy4TSmoRkg4See5GEoX8h8bHcwGBsMKeJCiet7Pr7G_hrc6Q-SHZwMWU0fDrcufpatVgIPfsYgsX3FS1doMI0G4iJoE50A9rJmh2wSc3BYcx_6SBJlinux

2.简要描述如何配置一个apache的hadoop分布式算法

　　http://www.cnblogs.com/juncaoit/p/5874568.htmlapache

　　注意点：jdk的安装缓存

3.mapreduce的原理网络

　　"Map（映射）"和"Reduce（归约），以及中间的shuffle过程app

　　能够分红5个部分来说解分布式

4.讲述combiner与partition的做用oop

　　combine的做用是map端的reduce聚合

　　partition的做用是分区，知道key到哪个reduce

5.讲述hadoop怎么实现二次排序

　　讲key与value进行合并来造成新的key，定义新的数据类型

6.hadoop启动的进程，以及做用

　　hdfs

　　yarn

　　history

7.hdfs的数据压缩算法

　　参考连接：

　　http://blog.csdn.net/yangbutao/article/details/8474731

8.使用mapreduce处理数据倾斜？

　　map /reduce程序执行时，reduce节点大部分执行完毕，可是有一个或者几个reduce节点运行很慢，致使整个程序的处理时间很长，这是由于某一个key的条数比其余key多不少（有时是百倍或者千倍之多），这条key所在的reduce节点所处理的数据量比其余节点就大不少，从而致使某几个节点迟迟运行不完，此称之为数据倾斜。

　　能够进行二次排序。（。。。。。。。。）

9.datanode什么状况下不会进行备份

　　在配置文件中datanode的数量设置为1时

10.hdfs的体系结构

11.介绍/etc下的配置文件

　　/etc/sysconfig/network 修改主机名

　　/etc/hosts 网络的修改

　　/etc/sysconfig/network-scripts/ifcfg-eth0 网关的修改

　　/etc/sysconfig/selinux 权限的修改

　　/etc/ntp.conf 同步时间

12.描述hadoop中哪些地方使用了缓存技术，做用分别是什么？

　　Shuffle中

13.请随意使用各类类型的脚本语言实现：批量将指定目录下的全部文件中的$HADOOP_HOME$替换成/home/ocetl/app/hadoop

　　find /home/ocetl/app/hadoop -exec sed -i 's/\$HADOOP_HOME\$/\/home\/ocetl\/app\/hadoop/g' {} \;

14.Yarn中运行应用程序的基本流程

15.hdfs的存储机制

　　HDFS主要是一个分布式的文件存储系统，由namenode来接收用户的操做请求，而后根据文件大小，以及定义的block块的大小，将大的文件切分红多个block块来进行保存。

　　在HDFS中，文件的读写过程就是client和NameNode以及DataNode一块儿交互的过程。咱们已经知道NameNode管理着文件系统的元数据，DataNode存储的是实际的数据，那么client就会联系NameNode以获取文件的元数据，而真正的文件读取操做是直接和DataNode进行交互的。

　　参考连接：

　　　　http://www.2cto.com/database/201412/357371.html

16.mapreduce中建立DataWritable的做用是什么？

17.实现top10

　　http://blog.csdn.net/mylittlered/article/details/43272013

18.mapreduce开发中使用过哪些算法

　　单词统计pv

　　数据去重uv

　　topn 最受欢迎的排序

19.map中如何调用reduce的？

　　。。。。。。。。。。