面试问题

358、大家的集群规模?node

开发集群:10台(8台可用)8核cpumysql

359、大家的数据是用什么导入到数据库的?导入到什么数据库?linux

处理以前的导入:经过hadoop命令导入到hdfs文件系统web

处理完成以后的导出:利用hive处理完成以后的数据,经过sqoop导出到mysql数据库中,以供报表层使用。面试

360、大家业务数据量多大?有多少行数据?(面试了三家,都问这个问题)算法

开发时使用的是部分数据,不是全量数据,有将近一亿行(八、9千万,具体不详,通常开发中也没人会特别关心这个问题)sql

361、大家处理数据是直接读数据库的数据仍是读文本数据?shell

将日志数据导入到hdfs以后进行处理数据库

362、大家写hive的hql语句,大概有多少条?apache

不清楚,我本身写的时候也没有作过统计

363、大家提交的job任务大概有多少个?这些job执行完大概用多少时间?(面试了三家,都问这个问题)

没统计过,加上测试的,会与不少

364、hive跟hbase的区别是?

365、你在项目中主要的工做任务是?

利用hive分析数据

366、你在项目中遇到了哪些难题,是怎么解决的?

某些任务执行时间过长,且失败率太高,检查日志后发现没有执行完就失败,缘由出在hadoop的job的timeout太短(相对于集群的能力来讲),设置长一点便可

367、你本身写过udf函数么?写了哪些?

这个我没有写过

368、你的项目提交到job的时候数据量有多大?(面试了三家,都问这个问题)

不清楚是要问什么

369、reduce后输出的数据量有多大?

370、一个网络商城1天大概产生多少G的日志? 4tb

371、大概有多少条日志记录(在不清洗的状况下)? 7-8百万条

372、日访问量大概有多少个?百万

373、注册数大概多少?不清楚  几十万吧

374、咱们的日志是否是除了apache的访问日志是否是还有其余的日志?关注信息

375、假设咱们有其余的日志是否是能够对这个日志有其余的业务分析?这些业务分析都有什么?

 

三10、面试总结

397、Hadoop体系结构(HDFS与MapReduce的体系结构)、Hadoop相比传统数据存储方式(好比mysql)的优点?

398、Hadoop集群的搭建步骤、Hadoop集群搭建过程当中碰到了哪些常见问题(好比datanode没有起来)、Hadoop集群管理(如何动态增长和卸载节点、safe mode是什么、经常使用的命令kill等)?

399、HDFS的namenode与secondarynamenode的工做原理(重点是日志拉取和合并过程)、hadoop 1.x的HDFS的HA方案(namenode挂掉的状况如何处理、datanode挂掉的状况如何处理)?

400、HDFS的经常使用shell命令有哪些?分别对应哪些Client Java API?:显示文件列表、建立目录、文件上传与下载、文件内容查看、删除文件

401、HDFS的文件上传与下载底层工做原理(或HDFS部分源码分析):FileSystem的create()和open()方法源码分析?

402、MapReduce计算模型、MapReduce基础知识点(MapReduce新旧API的使用、在linux命令行运行MapReduce程序、自定义Hadoop数据类型)?

403、MapReduce执行流程:“天龙八步”,计数器、自定义分区、自定义排序、自定义分组、如何对value进行排序:次排序+自定义分组、归约?

404、MapReduce的shuffle工做原理、MapReduce工做原理(MapReduce源码、InputStream源码、waitForCompletion()源码)、jobtracker如何建立map任务和reduce任务是面试的重点。

405、MapReduce进阶知识:Hadoop的几种文件格式、常见输入输出格式化类、多输入多输出机制、MapReduce的常见算法(各类join原理和优缺点、次排序和总排序)?

406、MapReduce性能优化(shuffle调优、压缩算法、更换调度器、设置InputSplit大小减小map任务数量、map和reduce的slot如何设置、数据倾斜原理和如何解决)?

407、HBase的体系结构和搭建步骤、shell命令与Java API、HBase做为MapReduce的输入输出源、高级Java API、工做原理(重点是combine和split原理)、行键设计原则、性能优化?

408、Hive的工做原理、两种元数据存放方式、几种表之间的区别、数据导入的几种方式、几种文件格式、UDF函数、性能调优(重点是join的时候如何放置大小表)?

409、Zookeeper、Flume、Pig、Sqoop的基本概念和使用方式,ZooKeeper被问到过其如何维护高可用(若是某个节点挂掉了它的处理机制)?

410、Hadoop2:体系结构、HDFS HA、YARN?

##########################################################################

关系型数据库和非关系型数据库的区别?

提示:

关系型数据库经过外键关联来创建表与表之间的关系,非关系型数据库一般指数据以对象的形式存储在数据库中,而对象之间的关系经过每一个对象自身的属性来决定。

对数据库高并发读写、高可扩展性和高可用性的需求,对海量数据的高效率存储和访问的需求,存储的结构不同,非关系数据库是列式存储,在存储结构上更加自由。

412、hive的两张表关联,使用mapreduce是怎么写的?

提示:打标记笛卡尔乘积

413、hive相对于Oracle来讲有那些优势?

提示:

hive是数据仓库,oracle是数据库,hive可以存储海量数据,hive还有更重要的做用就是数据分析,最主要的是免费。

414、如今咱们要对Oracle和HBase中的某些表进行更新,你是怎么操做?

提示:

disable '表名'

     alter '代表', NAME => '列名', VERSIONS =>3

    enable '表名'

415、HBase接收数据,若是短期导入数量过多的话就会被锁,该怎么办? 集群数16台 ,高可用性的环境。

参考:

通 过调用HTable.setAutoFlush(false)方法能够将HTable写客户端的自动flush关闭,这样能够批量写入数据到HBase, 而不是有一条put就执行一次更新,只有当put填满客户端写缓存时,才实际向HBase服务端发起写请求。默认状况下auto flush是开启的。

41六、说说大家作的hadoop项目流程?

417、大家公司的服务器架构是怎么样的(分别说下web跟hadoop)?

418、假若有1000W用户同时访问同一个页面,怎么处理?

提示:优化代码、静态化页面、增长缓存机制、数据库集群、库表散列。。。

419、怎样将mysql的数据导入到hbase中? 不能使用sqoop,速度太慢了

提示:

A、一种能够加快批量写入速度的方法是经过预先建立一些空的regions,这样当数据写入HBase时,会按照region分区状况,在集群内作数据的负载均衡。

B、 hbase里面有这样一个hfileoutputformat类,他的实现能够将数据转换成hfile格式,经过new 一个这个类,进行相关配置,这样会在hdfs下面产生一个文件,这个时候利用hbase提供的jruby的loadtable.rb脚本就能够进行批量导 入。

420、在hadoop组中你主要负责那部分?

     提示:负责编写mapreduce程序,各个部分都要参加

421、怎么知道hbase表里哪些作索引?哪些没作索引?

  提示:

有且仅有一个:rowkey,因此hbase的快速查找创建在rowkey的基础的,而不能像通常的关系型数据库那样创建多个索引来达到多条件查找的效果。

42二、hdfs的原理以及各个模块的职责

42三、mapreduce的工做原理

42四、map方法是如何调用reduce方法的

425、fsimage和edit的区别?

   提示:fsimage:是存储元数据的镜像文件,而edit只是保存的操做日志。

426、hadoop1和hadoop2的区别?

提示:

(1) hdfs的namenode和mapreduce的jobtracker都是单点。

(2) namenode所在的服务器的内存不够用时,那么集群就不能工做了。

(3)mapreduce集群的资源利用率比较低。

    单NN的架构使得HDFS在集群扩展性和性能上都有潜在的问题,在集群规模变大后,NN成为了性能的瓶颈。Hadoop 2.0里的HDFS Federation就是为了解决这两个问题而开发的。扩大NN容量,共享DN数据,且方便客户端访问。

427、hdfs中的block默认报错几份?

提示:3份

428、哪一个程序一般与nn在一个节点启动?并作分析

提示:jobtrack,将二者放在一块儿,减小网络访问,IO访问的时间,提升了效率。

429、列举几个配置文件优化?

430、写出你对zookeeper的理解

提示:大部分分布式应用须要一个主控、协调器或控制器来管理物理分布的子进程(如资源、任务分配等)。目前,大部分应用须要开发私有的协调程序,缺少一个通用的机制协调程序的反复编写浪费,且难以造成通用、伸缩性好的协调器。

ZooKeeper:提供通用的分布式锁服务,用以协调分布式应用。

431、datanode首次加入cluster的时候,若是log报告不兼容文件版本,那须要namenode执行格式化操做,这样处理的缘由是?

提示:

这样处理是不合理的,由于那么namenode格式化操做,是对文件系统进行格式化,namenode格式化时清空dfs/name下空两个目录下的全部文件,以后,会在目录dfs.name.dir下建立文件。

        文本不兼容,有可能时namenode 与 datanode 的 数据里的namespaceID、clusterID不一致,找到两个ID位置,修改成同样便可解决。

432、谈谈数据倾斜,如何发生的,并给出优化方案。

缘由:

(1)key分布不均匀

(2)业务数据自己的特性

(3)建表时考虑不周

(4)某些SQL语句自己就有数据倾斜

map处理数据量的差别取决于上一个stage的reduce输出,因此如何将数据均匀的分配到各个reduce中,就是解决数据倾斜的根本所在。

优化:参数调节;

433、介绍一下HBase过滤器

43四、mapreduce基本执行过程

43五、谈谈hadoop1和hadoop2的区别

436、谈谈HBase集群安装注意事项?

########################################################

需 要注意的地方是 ZooKeeper的配置。这与 hbase-env.sh 文件相关,文件中 HBASE_MANAGES_ZK 环境变量用来设置是使用hbase默认自带的 Zookeeper仍是使用独立的ZooKeeper。HBASE_MANAGES_ZK=false时使用独立的,为true时使用默认自带的。

某个节点的HRegionServer启动失败,这是因为这3个节点的系统时间不一致相差超过集群的检查时间30s。

397、Hadoop体系结构(HDFS与MapReduce的体系结构)、Hadoop相比传统数据存储方式(好比mysql)的优点?

398、Hadoop集群的搭建步骤、Hadoop集群搭建过程当中碰到了哪些常见问题(好比datanode没有起来)、Hadoop集群管理(如何动态增长和卸载节点、safe mode是什么、经常使用的命令kill等)?

399、HDFS的namenode与secondarynamenode的工做原理(重点是日志拉取和合并过程)、hadoop 1.x的HDFS的HA方案(namenode挂掉的状况如何处理、datanode挂掉的状况如何处理)?

400、HDFS的经常使用shell命令有哪些?分别对应哪些Client Java API?:显示文件列表、建立目录、文件上传与下载、文件内容查看、删除文件

401、HDFS的文件上传与下载底层工做原理(或HDFS部分源码分析):FileSystem的create()和open()方法源码分析?

402、MapReduce计算模型、MapReduce基础知识点(MapReduce新旧API的使用、在linux命令行运行MapReduce程序、自定义Hadoop数据类型)?

403、MapReduce执行流程:“天龙八步”,计数器、自定义分区、自定义排序、自定义分组、如何对value进行排序:次排序+自定义分组、归约?

404、MapReduce的shuffle工做原理、MapReduce工做原理(MapReduce源码、InputStream源码、waitForCompletion()源码)、jobtracker如何建立map任务和reduce任务是面试的重点。

405、MapReduce进阶知识:Hadoop的几种文件格式、常见输入输出格式化类、多输入多输出机制、MapReduce的常见算法(各类join原理和优缺点、次排序和总排序)?

406、MapReduce性能优化(shuffle调优、压缩算法、更换调度器、设置InputSplit大小减小map任务数量、map和reduce的slot如何设置、数据倾斜原理和如何解决)?

407、HBase的体系结构和搭建步骤、shell命令与Java API、HBase做为MapReduce的输入输出源、高级Java API、工做原理(重点是combine和split原理)、行键设计原则、性能优化?

408、Hive的工做原理、两种元数据存放方式、几种表之间的区别、数据导入的几种方式、几种文件格式、UDF函数、性能调优(重点是join的时候如何放置大小表)?

409、Zookeeper、Flume、Pig、Sqoop的基本概念和使用方式,ZooKeeper被问到过其如何维护高可用(若是某个节点挂掉了它的处理机制)?

410、Hadoop2:体系结构、HDFS HA、YARN?

相关文章
相关标签/搜索