hadoop/spark面试题

总结于网络html

转自:https://www.cnblogs.com/jchubby/p/5449379.htmlnode

一、简答说一下hadoop的map-reduce编程模型算法

首先map task会从本地文件系统读取数据,转换成key-value形式的键值对集合sql

使用的是hadoop内置的数据类型,好比longwritable、text等数据库

将键值对集合输入mapper进行业务处理过程,将其转换成须要的key-value在输出编程

以后会进行一个partition分区操做,默认使用的是hashpartitioner,能够经过重写hashpartitioner的getpartition方法来自定义分区规则数组

以后会对key进行进行sort排序,grouping分组操做将相同key的value合并分组输出,在这里可使用自定义的数据类型,重写WritableComparator的Comparator方法来自定义排序规则,重写RawComparator的compara方法来自定义分组规则缓存

以后进行一个combiner归约操做,其实就是一个本地段的reduce预处理,以减少后面shufle和reducer的工做量网络

reduce task会经过网络将各个数据收集进行reduce处理,最后将数据保存或者显示,结束整个job数据结构

 

二、hadoop的TextInputFormat做用是什么,如何自定义实现

InputFormat会在map操做以前对数据进行两方面的预处理 
1是getSplits,返回的是InputSplit数组,对数据进行split分片,每片交给map操做一次 
2是getRecordReader,返回的是RecordReader对象,对每一个split分片进行转换为key-value键值对格式传递给map

经常使用的InputFormat是TextInputFormat,使用的是LineRecordReader对每一个分片进行键值对的转换,以行偏移量做为键,行内容做为值

自定义类继承InputFormat接口,重写createRecordReader和isSplitable方法 
在createRecordReader中能够自定义分隔符

 

三、hadoop和spark的都是并行计算,那么他们有什么相同和区别

二者都是用mr模型来进行并行计算,hadoop的一个做业称为job,job里面分为map task和reduce task,每一个task都是在本身的进程中运行的,当task结束时,进程也会结束

spark用户提交的任务成为application,一个application对应一个sparkcontext,app中存在多个job,每触发一次action操做就会产生一个job

这些job能够并行或串行执行,每一个job中有多个stage,stage是shuffle过程当中DAGSchaduler经过RDD之间的依赖关系划分job而来的,每一个stage里面有多个task,组成taskset有TaskSchaduler分发到各个executor中执行,executor的生命周期是和app同样的,即便没有job运行也是存在的,因此task能够快速启动读取内存进行计算

hadoop的job只有map和reduce操做,表达能力比较欠缺并且在mr过程当中会重复的读写hdfs,形成大量的io操做,多个job须要本身管理关系

spark的迭代计算都是在内存中进行的,API中提供了大量的RDD操做如join,groupby等,并且经过DAG图能够实现良好的容错

 

四、为何要用flume导入hdfs,hdfs的构架是怎样的

flume能够实时的导入数据到hdfs中,当hdfs上的文件达到一个指定大小的时候会造成一个文件,或者超过指定时间的话也造成一个文件

文件都是存储在datanode上面的,namenode记录着datanode的元数据信息,而namenode的元数据信息是存在内存中的,因此当文件切片很小或者不少的时候会卡死

 

五、map-reduce程序运行的时候会有什么比较常见的问题

好比说做业中大部分都完成了,可是总有几个reduce一直在运行

这是由于这几个reduce中的处理的数据要远远大于其余的reduce,多是由于对键值对任务划分的不均匀形成的数据倾斜

解决的方法能够在分区的时候从新定义分区规则对于value数据不少的key能够进行拆分、均匀打散等处理,或者是在map端的combiner中进行数据预处理的操做

 

六、简单说一下hadoop和spark的shuffle过程 

hadoop:map端保存分片数据,经过网络收集到reduce端 
spark:spark的shuffle是在DAGSchedular划分Stage的时候产生的,TaskSchedule要分发Stage到各个worker的executor

减小shuffle能够提升性能

 

七、Hive中存放是什么? 

   存的是和hdfs的映射关系,hive是逻辑上的数据仓库,实际操做的都是hdfs上的文件,HQL就是用sql语法来写的mr程序。

 

八、Hive与关系型数据库的关系? 

   没有关系,hive是数据仓库,不能和数据库同样进行实时的CURD操做。 
   是一次写入屡次读取的操做,能够当作是ETL工具。

 

九、Flume工做机制是什么? 

核心概念是agent,里面包括source、chanel和sink三个组件。 
source运行在日志收集节点进行日志采集,以后临时存储在chanel中,sink负责将chanel中的数据发送到目的地。 
只有成功发送以后chanel中的数据才会被删除。 
首先书写flume配置文件,定义agent、source、chanel和sink而后将其组装,执行flume-ng命令。

 

十、Hbase行健列族的概念,物理模型,表的设计原则? 

行健:是hbase表自带的,每一个行健对应一条数据。 
列族:是建立表时指定的,为列的集合,每一个列族做为一个文件单独存储,存储的数据都是字节数组,其中的数据能够有不少,经过时间戳来区分。 
物理模型:整个hbase表会拆分为多个region,每一个region记录着行健的起始点保存在不一样的节点上,查询时就是对各个节点的并行查询,当region很大时使用.META表存储各个region的起始点,-ROOT又能够存储.META的起始点。 
rowkey的设计原则:各个列簇数据平衡,长度原则、相邻原则,建立表的时候设置表放入regionserver缓存中,避免自动增加和时间,使用字节数组代替string,最大长度64kb,最好16字节之内,按天分表,两个字节散列,四个字节存储时分毫秒。 
列族的设计原则:尽量少(按照列族进行存储,按照region进行读取,没必要要的io操做),常常和不常用的两类数据放入不一样列族中,列族名字尽量短。

 

十一、Spark Streaming和Storm有何区别? 

    一个实时毫秒一个准实时亚秒,不过storm的吞吐率比较低。

 

十二、mllib支持的算法? 
    大致分为四大类,分类、聚类、回归、协同过滤。

 

1三、Hadoop高并发? 

    首先确定要保证集群的高可靠性,在高并发的状况下不会挂掉,支撑不住能够经过横向扩展。 
    datanode挂掉了使用hadoop脚本从新启动。

 

1四、RDD机制? 
    rdd分布式弹性数据集,简单的理解成一种数据结构,是spark框架上的通用货币。 
    全部算子都是基于rdd来执行的,不一样的场景会有不一样的rdd实现类,可是均可以进行互相转换。 
    rdd执行过程当中会造成dag图,而后造成lineage保证容错性等。 
    从物理的角度来看rdd存储的是block和node之间的映射。

 

1五、spark有哪些组件? 
   (1)master:管理集群和节点,不参与计算。 
   (2)worker:计算节点,进程自己不参与计算,和master汇报。 
   (3)Driver:运行程序的main方法,建立spark context对象。 
   (4)spark context:控制整个application的生命周期,包括dagsheduler和task scheduler等组件。 
   (5)client:用户提交程序的入口。

 

1六、spark的优化怎么作? 
    经过spark-env文件、程序中sparkconf和set property设置。 
      (1)计算量大,造成的lineage过大应该给已经缓存了的rdd添加checkpoint,以减小容错带来的开销。 
      (2)小分区合并,太小的分区形成过多的切换任务开销,使用repartition。

 

1七、kafka工做原理? 

producer向broker发送事件,consumer从broker消费事件。 
事件由topic区分开,每一个consumer都会属于一个group。 
相同group中的consumer不能重复消费事件,而同一事件将会发送给每一个不一样group的consumer。

相关文章
相关标签/搜索