大数据面试(大数据整理)

1.简述大数据的生态组件html

  

  参考连接:node

  http://wenku.baidu.com/link?url=OYTVLe1e5zvBn8CBy4TSmoRkg4See5GEoX8h8bHcwGBsMKeJCiet7Pr7G_hrc6Q-SHZwMWU0fDrcufpatVgIPfsYgsX3FS1doMI0G4iJoE50A9rJmh2wSc3BYcx_6SBJlinux

  

2.简要描述如何配置一个apache的hadoop分布式算法

  http://www.cnblogs.com/juncaoit/p/5874568.htmlapache

  注意点:jdk的安装缓存

 

3.mapreduce的原理网络

  "Map(映射)"和"Reduce(归约),以及中间的shuffle过程app

  能够分红5个部分来说解分布式

 

4.讲述combiner与partition的做用oop

  combine的做用是map端的reduce聚合

  partition的做用是分区,知道key到哪个reduce

  

 

5.讲述hadoop怎么实现二次排序

  讲key与value进行合并来造成新的key,定义新的数据类型

  

 

6.hadoop启动的进程,以及做用

  hdfs

  yarn

  history

 

7.hdfs的数据压缩算法

  

  参考连接:

  http://blog.csdn.net/yangbutao/article/details/8474731

 

8.使用mapreduce处理数据倾斜?

  map /reduce程序执行时,reduce节点大部分执行完毕,可是有一个或者几个reduce节点运行很慢,致使整个程序的处理时间很长,这是由于某一个key的条数比其余key多不少(有时是百倍或者千倍之多),这条key所在的reduce节点所处理的数据量比其余节点就大不少,从而致使某几个节点迟迟运行不完,此称之为数据倾斜。

  能够进行二次排序。(。。。。。。。。)

 

9.datanode什么状况下不会进行备份

  在配置文件中datanode的数量设置为1时

 

10.hdfs的体系结构

  

  

11.介绍/etc下的配置文件

  /etc/sysconfig/network 修改主机名

  /etc/hosts 网络的修改

  /etc/sysconfig/network-scripts/ifcfg-eth0 网关的修改

  /etc/sysconfig/selinux 权限的修改

  /etc/ntp.conf 同步时间

 

12.描述hadoop中哪些地方使用了缓存技术,做用分别是什么?

  Shuffle中

 

13.请随意使用各类类型的脚本语言实现:批量将指定目录下的全部文件中的$HADOOP_HOME$替换成/home/ocetl/app/hadoop

  find /home/ocetl/app/hadoop -exec sed -i 's/\$HADOOP_HOME\$/\/home\/ocetl\/app\/hadoop/g' {} \;

 

14.Yarn中运行应用程序的基本流程

  

 

15.hdfs的存储机制

  HDFS主要是一个分布式的文件存储系统,由namenode来接收用户的操做请求,而后根据文件大小,以及定义的block块的大小,将大的文件切分红多个block块来进行保存。

  在HDFS中,文件的读写过程就是client和NameNode以及DataNode一块儿交互的过程。咱们已经知道NameNode管理着文件系统的元数据,DataNode存储的是实际的数据,那么client就会联系NameNode以获取文件的元数据,而真正的文件读取操做是直接和DataNode进行交互的。

  参考连接:

    http://www.2cto.com/database/201412/357371.html

 

16.mapreduce中建立DataWritable的做用是什么?

  

17.实现top10

  http://blog.csdn.net/mylittlered/article/details/43272013

 

18.mapreduce开发中使用过哪些算法

  单词统计pv

  数据去重uv

  topn 最受欢迎的排序

  

19.map中如何调用reduce的?

  。。。。。。。。。。

相关文章
相关标签/搜索