1.简述大数据的生态组件html
参考连接:node
http://wenku.baidu.com/link?url=OYTVLe1e5zvBn8CBy4TSmoRkg4See5GEoX8h8bHcwGBsMKeJCiet7Pr7G_hrc6Q-SHZwMWU0fDrcufpatVgIPfsYgsX3FS1doMI0G4iJoE50A9rJmh2wSc3BYcx_6SBJlinux
2.简要描述如何配置一个apache的hadoop分布式算法
http://www.cnblogs.com/juncaoit/p/5874568.htmlapache
注意点:jdk的安装缓存
3.mapreduce的原理网络
"Map(映射)"和"Reduce(归约),以及中间的shuffle过程app
能够分红5个部分来说解分布式
4.讲述combiner与partition的做用oop
combine的做用是map端的reduce聚合
partition的做用是分区,知道key到哪个reduce
5.讲述hadoop怎么实现二次排序
讲key与value进行合并来造成新的key,定义新的数据类型
6.hadoop启动的进程,以及做用
hdfs
yarn
history
7.hdfs的数据压缩算法
参考连接:
http://blog.csdn.net/yangbutao/article/details/8474731
8.使用mapreduce处理数据倾斜?
map /reduce程序执行时,reduce节点大部分执行完毕,可是有一个或者几个reduce节点运行很慢,致使整个程序的处理时间很长,这是由于某一个key的条数比其余key多不少(有时是百倍或者千倍之多),这条key所在的reduce节点所处理的数据量比其余节点就大不少,从而致使某几个节点迟迟运行不完,此称之为数据倾斜。
能够进行二次排序。(。。。。。。。。)
9.datanode什么状况下不会进行备份
在配置文件中datanode的数量设置为1时
10.hdfs的体系结构
11.介绍/etc下的配置文件
/etc/sysconfig/network 修改主机名
/etc/hosts 网络的修改
/etc/sysconfig/network-scripts/ifcfg-eth0 网关的修改
/etc/sysconfig/selinux 权限的修改
/etc/ntp.conf 同步时间
12.描述hadoop中哪些地方使用了缓存技术,做用分别是什么?
Shuffle中
13.请随意使用各类类型的脚本语言实现:批量将指定目录下的全部文件中的$HADOOP_HOME$替换成/home/ocetl/app/hadoop
find /home/ocetl/app/hadoop -exec sed -i 's/\$HADOOP_HOME\$/\/home\/ocetl\/app\/hadoop/g' {} \;
14.Yarn中运行应用程序的基本流程
15.hdfs的存储机制
HDFS主要是一个分布式的文件存储系统,由namenode来接收用户的操做请求,而后根据文件大小,以及定义的block块的大小,将大的文件切分红多个block块来进行保存。
在HDFS中,文件的读写过程就是client和NameNode以及DataNode一块儿交互的过程。咱们已经知道NameNode管理着文件系统的元数据,DataNode存储的是实际的数据,那么client就会联系NameNode以获取文件的元数据,而真正的文件读取操做是直接和DataNode进行交互的。
参考连接:
http://www.2cto.com/database/201412/357371.html
16.mapreduce中建立DataWritable的做用是什么?
17.实现top10
http://blog.csdn.net/mylittlered/article/details/43272013
18.mapreduce开发中使用过哪些算法
单词统计pv
数据去重uv
topn 最受欢迎的排序
19.map中如何调用reduce的?
。。。。。。。。。。