Hadoop是一个由Apache基金会所开发的分布式系统基础架构。html
hadoop 就是专一于批量数据处理java
Hadoop是一个实现了MapReduce计算模式的可以对大量数据进行分布式处理的软件框架,是以一种可靠、高效、可伸缩的方式进行处理的。node
Hadoop计算框架最核心的设计是HDFS(Hadoop Distributed File System)和MapReduce,HDFS单看全称就知道,实现了一个分布式的文件系统,MapReduce则是提供一个计算模型,基于分治策略。 linux
在大数据关键技术中,Hadoop的分布式文件系统HDFS属于大数据 存储技术git
用户能够在不了解分布式底层细节的状况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。面试
企业发展到必定规模都会搭建单独的BI平台来作数据分析,即OLAP(联机分析处理),通常都是基于数据库技术来构建,基本都是单机产品。除了业务数据的相关分析外,互联网企业还会对用户行为进行分析,进一步挖掘潜在价值,这时数据就会膨胀得很厉害,一天的数据量可能会成千万或上亿,对基于数据库的传统数据分析平台的数据存储和分析计算带来了很大挑战。数据库
分布式文件系统种类:Google File System. HDFS. TFS. Glus-terFS、Ceph、 MogileFS、MooseFS FastDFSvim
为了应对随着数据量的增加、数据处理性能的可扩展性,许多企业纷纷转向Hadoop平台来搭建数据分析平台。Hadoop平台具备分布式存储及并行计算的特性,所以可轻松扩展存储结点和计算结点,解决数据增加带来的性能瓶颈。数组
Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特色,而且设计用来部署在低廉的(low-cost)硬件上;并且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,能够以流的形式访问(streaming access)文件系统中的数据。浏览器
Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。
Hadoop主机
Hadoop分别从三个角度将主机划分为两种角色。
(1)、最基本的划分为Master和Slave,即主人和奴隶,Master算是中间节点,而Slave算是其下的控制节点;
(2)、从HDFS的角度,将主机划分为 NameNode和DataNode(在分布式文件系统中,目录的管理很重要,管理目录至关于主人,而NameNode就是目录管理者);
(3)、从 MapReduce的角度,将主机划分JobTracker 和TaskTracker(一个job常常被划分为多个Task,从这个角度不难理解它们之间的关系);
Hadoop是一个可以对大量数据进行分布式处理的软件框架。 Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。
高可靠性。由于它假设计算元素和存储会失败,所以它维护多个工做数据副本,确保可以针对失败的节点从新分布处理。
高效性,由于它以并行的方式工做,经过并行处理加快处理速度。Hadoop可以在节点之间动态地移动数据,并保证各个节点的动态平衡,所以处理速度很是快。
高扩展性。,可以处理 PB 级数据。在可用的计算机集簇间分配数据并完成计算任务的,这些集簇能够方便地扩展到数以千计的节点中。
高容错性。Hadoop可以自动保存数据的多个副本,而且可以自动将失败的任务从新分配。
低成本。与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本所以会大大下降。
此外,Hadoop 依赖于社区服务,所以它的成本比较低,任何人均可以使用。
Hadoop是一个可以让用户轻松架构和使用的分布式计算平台。用户能够轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有如下几个优势:
高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。
高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇能够方便地扩展到数以千计的节点中。
高效性。Hadoop可以在节点之间动态地移动数据,并保证各个节点的动态平衡,所以处理速度很是快。
高容错性。Hadoop可以自动保存数据的多个副本,而且可以自动将失败的任务从新分配。
低成本。与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本所以会大大下降。
Hadoop 由许多元素构成。其最底部是HDFS,它存储 Hadoop 集群中全部存储节点上的文件。HDFS的上一层是MapReduce 引擎,该引擎由 JobTrackers 和 TaskTrackers 组成。经过对Hadoop分布式计算平台最核心的分布式文件系统HDFS、MapReduce处理过程,以及数据仓库工具Hive和分布式数据库Hbase的介绍,基本涵盖了Hadoop分布式平台的全部技术核心。
本文hadoop的版本为hadoop-2.2.0
1、安装java jdk
一、下载java jdk1.7版本,放在/home/software目录下,
2解压:tar -zxvf java-jdk*****.jar
三、vim /etc/profile
1 2 3 4 5 |
|
四、检测是否成功安装:java -version
2、安装hadoop
一、在linux根路径建立目录cloud:sudo mkdir cloud
二、解压hadoop到cloud目录中:tar -zxvf hadoop-2.2.0.tar.gz -C /cloud/
三、进入目录:/cloud/hadoop/etc/hadoop
3、修改配置文件
一、修改hadoop-env.sh,配置java jdk路径,大概在27行配置,以下:
export JAVA_HOME=/home/software/jdk1.7
二、修改core-site.xml,配置内容以下
1 2 3 4 5 6 7 8 9 10 11 12 |
|
三、修改hdfs-site.xml,修改配置以下
1 2 3 4 5 |
|
四、修改mapred-site.xml 因为在配置文件目录下没有,须要修更名称:mv mapred-site.xml.template mapred-site.xml
<configuration> <!-- 通知框架MR使用YARN --> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
五、修改yarn-site.xml,修改内容以下
1 2 3 4 5 6 7 8 9 10 11 |
|
六、讲hadoop添加到环境变量,而后更新一下环境变量:source /etc/profile
export JAVA_HOME=//home/software/jdk1.7 export HADOOP_HOME=/cloud/hadoop export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin
4、启动hadoop
一、格式化hadoop,进入目录:/cloud/hadoop/etc/hadoo,执行下列之一命令便可
hadoop namenode -format (过期) hdfs namenode -format
二、启动hdfs和yarn
先启动HDFS sbin/start-dfs.sh 再启动YARN sbin/start-yarn.sh
三、验证是否成功,使用命令:jps,输出以下即表示配置成功。
1 2 3 4 5 6 7 |
|
四、能够在浏览器中查看hdfs和mr的状态.hdfs管理界面:http://localhost:50070 MR的管理界面:http://localhost:8088
5、hdfs基本操做和wordcount程序
一、进入hadoop安装目录中的share:/cloud/hadoop/share/hadoop/mapreduce
二、ls列出当前路径下的文件,内容以下,其中带有example字样的为样例程序
1 2 3 4 5 6 7 8 9 10 11 12 |
|
三、新建words文件,内容输入以下,而后使用命令上传到hdfs目录下:hadoop fs -put words hdfs://localhost:9000/words
1 2 3 4 |
|
四、在命令行中敲入:hadoop jar hadoop-mapreduce-examples-2.2.0.jar wordcounthdfs://localhost:9000/wordshdfs://localhost:9000/out
五、打开页面:http://localhost:50070/dfshealth.jsp
六、点击上图中的Browse the filesystem,跳转到文件系统界面,以下所示:
七、继续点击上图的out/part-r-00000,wordcount程序最终运行的结果如图所示:
常见问题 :
一、hadoop主要是用来存储的,怎么作数据分析,它在数据处理上的优点是什么?当初选hadoop的理由是什么?有没有和其余的系统作一个比较?为何选择这个?
二、hadoop的mapreduce是怎样一个过程?(简历上写着了解一些hadoop技术。。。)map是怎么切分数据的?
答:回答了下整个处理过程,最后我说数据处理好后返回给用户(返回个毛啊,直接存HDFS里),结果面试官很是惊讶,而后我又说每一个结点处理好后还要通过排序、分组等再返回结果(真是悲剧,又说了次返回)。
三、master单点失效问题,yarn是什么,最新版是怎么解决单点失效问题的?
答:《hadoop技术内幕:深刻解析YARN架构设计与实现原理》
四、链表和数组的区别?
五、
参考连接 :
https://blog.csdn.net/u012842205/article/details/52267291
连接:
hadoop经常使用服务管理命令 : http://blog.51cto.com/caiguangguang/1579849
Hadoop集群配置(最全面总结):https://blog.csdn.net/hguisu/article/details/7237395
史上最详细的Hadoop环境搭建:http://gitbook.cn/books/5954c9600326c7705af8a92a/index.html
Hadoop的讲解专栏 : https://blog.csdn.net/column/details/18130.html
大数据 系列: http://club.topsage.com/forum-743-1.html
浅析Hadoop分布式文件系统 : https://mp.weixin.qq.com/s?src=3×tamp=1535268492&ver=1&signature=IzeGJ7px3Y0KdbFXBDhwEsWrPHqHStK8FY-VE2NWOz*U4WaESnCAKMJYr2dIyNGxn6yq285KAe8KPnyc-iAR7E9UqPYMKO2pX4hLAOSPyE6NeReb1IJiMoQAy7QqGkjknGrwILvUFXhjEZ71Nd3Sn24Mc-l1qJFwOG-L69DB8xY=
Hadoop分布式文件系统HDFS的工做原理详述 : https://mp.weixin.qq.com/s?src=3×tamp=1535268492&ver=1&signature=9f4rYV9MBZ2kbADkjAGQaHVrpS8WOUrpbzC12pflTBGTjaZ57*FRl06bgr8MrbCUCtGOwc3An13Udc0zKmrjvM9iCiOj3jUrfZqetf1h*3Wc7GlaU4Nz64koANv6*ABI1HsWpA3N7xljH4Cn2k1Z4Q==
Hadoop分布式文件系统:架构和设计要点 : https://mp.weixin.qq.com/s?src=3×tamp=1535268492&ver=1&signature=cOaIC8LeZ7x1h-8*nR35Gib7vU*ibCzA8SSURam4gu3T7p2I-P3Ue5GPsQ5gvK*je3AONpFoToNoG-3fGw*H2RPeuTYFTFeZkCrqswkuJ6Vfbpa0sfZnrTvwStnAtPWej750SsmLgDR1dUY1ZcFbsA==
Hadoop分布式文件系统3-HDFS应用 :https://mp.weixin.qq.com/s?src=11×tamp=1535268492&ver=1083&signature=vh2TIbN4laRGYmFjm0YjUC*V3p7jJNn*y5jRorgB4DojePHD4qdf7yW2D-9b2ujOndcLIJTpVUJGUWpmbKe0DrX7EiL14eqFvl24dDer-I-XR7IZLovBw7Io-S31P-E*&new=1
Hadoop分布式文件系统-从RAID提及 : https://mp.weixin.qq.com/s?src=11×tamp=1535268492&ver=1083&signature=0WeQe5IIK7M40bOO4tFi*eX3lgMVGP4GiOa6bVM7Yrro4UwaTYLY0QpYBtv9LF4yGdqlrqsZQKfiOmWLnnVRepd8*69LhXuhHI6MCAn5vjNdFkzXACh0H94iccqOYIkZ&new=1
Hadoop分布式文件系统1-从RAID提及 : https://mp.weixin.qq.com/s?src=11×tamp=1535268492&ver=1083&signature=vh2TIbN4laRGYmFjm0YjUC*V3p7jJNn*y5jRorgB4DouDr5U9eiErTFgKVC2Nx-BphbKFtatgSHasxXiNGwBhpBAUmLoAheJxpUBE7LfAet9aDUYvsPNM9eFxTnYIao1&new=1
Hadoop RPC 源码解析 : https://blog.csdn.net/paul_wei2008/article/details/19556053
Hadoop SafeModeException: xxxxxxx. Name node is in safe mode解决办法 : https://blog.csdn.net/SMCwwh/article/details/7490685
hadoop (5篇) : https://blog.csdn.net/qq_28893679/article/category/7712341
脚本之家 hadoop 系列 : https://www.jb51.net/list/list_267_1.htm#
原 SSH免密码登录 : https://blog.csdn.net/Sky786905664/article/details/52067398
转 Linux下开启Hadoop的9000端口方法 : https://blog.csdn.net/Sky786905664/article/details/52062899
转 Hadoop启动时提示的:$HADOOP_HOME is deprecated. : https://blog.csdn.net/Sky786905664/article/details/52061662
转 《Hadoop基础教程》之初识Hadoop : https://blog.csdn.net/Sky786905664/article/details/51819599
原 hadoop入门(hadoop安装-hdfs简单介绍) : https://blog.csdn.net/ioy84737634/article/details/46761983
Hadoop学习---Zookeeper+Hbase配置学习 : https://www.cnblogs.com/ftl1012/p/9350554.html
Hadoop学习---Hadoop的HBase的学习 : https://www.cnblogs.com/ftl1012/p/9350518.html
Hadoop学习---Hadoop的MapReduce的原理 : https://www.cnblogs.com/ftl1012/p/9350459.html
Hadoop学习---Hadoop的深刻学习 : https://www.cnblogs.com/ftl1012/p/9350261.html
Hadoop学习---Eclipse中hadoop环境的搭建 : https://www.cnblogs.com/ftl1012/p/9350238.html
Hadoop学习---CentOS中hadoop伪分布式集群安装 : https://www.cnblogs.com/ftl1012/p/9350180.html
Hadoop学习---Ubuntu中hadoop彻底分布式安装教程 : https://www.cnblogs.com/ftl1012/p/9350035.html
Windows下搭建hadoop 搭建本地hadoop开发环境 : https://www.jianshu.com/p/ea9682377090
Hadoop、Storm、Samza、Spark和Flink大数据框架对比 : https://www.ixdba.net/archives/2017/03/585.htm
集群环境下Hadoop2.5.2+Zookeeper3.4.6+Hbase0.98+Hive1.0.0安装目录总汇 : http://blog.51cto.com/vekergu/p5
hadoop分布式集群搭建 ; https://www.cnblogs.com/ityouknow/p/7343995.html
史上最详细、最全面的Hadoop环境搭建 : https://mp.weixin.qq.com/s/cJ8BeApMW1KGAsZgHBCgog
Hadoop运维必须知道的10个运维技能 : https://www.ixdba.net/archives/2017/03/580.htm
Hadoop/Yarn/MapReduce内存分配(配置)方案 : https://www.ixdba.net/archives/2017/03/536.htm
Hadoop YARN配置参数剖析—Fair Scheduler相关参数 : https://www.ixdba.net/archives/2017/03/528.htm
Hadoop入门扫盲:hadoop发行版介绍与选择 : https://www.ixdba.net/archives/2016/11/437.htm
Hadoop HA 安装、布署 : https://mp.weixin.qq.com/s/47esMUkKqzVPzbTfL1PCuw
Hadoop (34) : https://blog.csdn.net/qq_20545159/article/category/5784915
Hadoop集群搭建总结及Hadoop2.5集群伪分布、彻底分布搭建总结 :https://mp.weixin.qq.com/s/llSziXPnNgwO6sn6EoX1WA
Hadoop3.0: YARN Resource配置说明 : https://mp.weixin.qq.com/s/zG1C4c5Hz4UVoME0tfRpqQ
hadoop3.0 Yarn支持网络资源:network原理设计文档说明【中文】: https://mp.weixin.qq.com/s/Lfy7eovk-3mbBWaOkvLp8Q
Hadoop3.0集群安装知识 : https://mp.weixin.qq.com/s/UGuQcQJR1fnw5mp8dbB9Ow
Hadoop3.0通用版集群安装高可靠详细教程【包括零基础】 : https://mp.weixin.qq.com/s/vtNvIQzRtfbEzpjinZlGGA
扩展Yarn资源模型详解1 : https://mp.weixin.qq.com/s/_p1Pa5PzajJPsMdbkpAvNA
Hadoop3.0扩展Yarn资源模型详解2:资源Profiles说明 : https://mp.weixin.qq.com/s/BEsAFw4sbRzwS6shcqAYbg
Hadoop3.0Yarn添加网络、磁盘IO等资源资料汇总及实战配置遇到的问题和解决办法 : https://mp.weixin.qq.com/s/U0pAPMWgow9mJ0rzjs-p-Q
【性能优化的秘密】Hadoop如何将TB级大文件的上传性能优化上百倍?【石杉的架构笔记】 : https://mp.weixin.qq.com/s/2HM9NMRHizKTJoYjg8lZ1Q
hadoop (22篇) : https://www.cnblogs.com/duanxz/category/691548.html
Hadoop进阶之路 : https://www.cnblogs.com/yinzhengjie/tag/Hadoop%E8%BF%9B%E9%98%B6%E4%B9%8B%E8%B7%AF/