写给后端的Hadoop初级入门教程：概念篇

时间 2019-12-16

原文原文链接

前言：

Hello你们好，我是韩数。距离咱们上一个系列写给后端的Nginx初级入门教程已通过去整整25天了，中间穿插了两篇区块链相关的文章，其实吧，这二十来天我一直在憋大招，那就是这个最新的系列写给后端的Hadoop初级入门教程，因为Hadoop自己的技术细节仍是不少的，Hadoop基础环境的搭建，分布式伪分布式的部署，集群启动的准备,hdfs文件系统，MR编程模型，以及最后的优化等等，整个一套写下来工做量仍是蛮大的，好在我快放寒假了(开心)，这样使得我有充足的时间和精力去写这套教程，一来是为了帮助本身在写做的时候更加深刻地理解这方面的知识，而来是但愿能够帮助到那些刚刚准备入门大数据的朋友们去理解和使用Hadoop这门技术。毕竟你们都知道，如今网上搜到的那些技术教程，质量良莠不齐，一不当心踩到坑就是：java

一电脑，一根烟，一篇教程学半天，调试半天却不对，想送做者上青天。git

好湿好湿，本篇文章做为整套Hadoop入门教程的第一篇，咱们依然从最基础的概念提及，什么是大数据，大数据如何影响咱们的生活？什么是Hadoop，Hadoop和其余大数据技术相比又有哪些优点？明白了这些问题，我相信再学大数据，虽然不能说有buff加成，可是至少知道本身接下来要学的这玩意儿是个啥了。github

不废话，直接上东西编程

什么是大数据：

大数据 (Big Data) : 主要是指没法在必定范围内用常规软件工具进行捕捉，管理和处理的数据集合，是须要新处理模式才能具备更强的决策力，洞察发现力和流程优化能力的海量，高增加率和多样化的信息资产。后端

一句话解释：大数据就是大量数据，数据多到传统方案没法处理的程度。架构

固然数据的体量并非最重要的，重要的是隐藏在这些数据中的信息，这些信息不管是在商业上仍是在研究上都有着巨大的价值，电商经过挖掘这些数据中的信息为每一个用户画像，而且推荐合适的商品给用户增长购买，固然，也能够顺便调整一下改个价格杀个熟什么的。框架

大数据的单位：

但咱们毕竟是严谨的理科生啊，你说大数据大数据，多大才是大数据？为了解决这个问题，减小撕逼，科学家就制定了一系列的数据单位，从小到大依次是：运维

bit Byte KB MB GB TB PB EB ZB YB BB NB(牛逼) 和 DB（呆逼）分布式

固然，光讲这些单位有什么意思，我怎么能知道这些单位能存多少数据？为了方便你们更加直接的感觉到这些数据单位的威力，我找了一些小栗子：工具

全世界所产生的印刷材料的数据大概是200PB。
全世界人类总共说过的话大概是5EB。
国外知名网站P站2017年网站产生的总数据量为 3732PB 。
一百万个汉字大概所须要的内存是2MB。

刚才好像混入了什么奇怪的东西。

大数据的特色：

大量：必须的，不大都很差意思叫大数据。
高速：这么多数据确定要快速消化掉的，处理几十年也等不起啊，今年双十一的成交额总不能算到明年双十一再公布吧。
多样：不一样的场景会产生不一样的数据，优酷就是用户浏览数据，视频数据，QQ音乐就是音乐数据。
低价值密度：这个意思是即便数据量很大，可是咱们关注的始终的特定的部分，而非总体，就像警察叔叔调监控同样，一年前一个月前的数据一般对他来讲是没什么用的，他只要那么几个关键节点的监控数据就能够了。

应用场景就不说了，哪都是应用场景。

Hadoop是什么？

知道了什么是大数据，咱们就得思考另一个问题，弄这么多的数据我放哪啊？

杠精：不明摆着的么，固然放硬盘里啊，要不放哪儿，还能写纸上？ 我：硬盘我知道，但是万一这块硬盘坏了，那数据不就没了吗？

路人：你系不系傻，你多放几块硬盘，分别放上去不就好了吗？

这个时候Hadoop来了，弟弟们都往边上靠靠，大家那种办法太笨拙，交给我，轻轻松松地给你搞定，小意思。

Hadoop是一个由Apache基金会所开发的分布式系统基础架构，主要用来解决大数据的存储和分析计算问题。

固然，Hadoop和Spring同样，到如今已经无法去仅仅理解为Hadoop这门技术了，就像你跟别人说，我这个新电商项目基于Spring写的，那别人确定不会以为你只用了Spring，会以为你可能用了Spring MVC，boot，JPA等一系列Spring生态的技术。一样地，Hadoop也是如此，不只仅是表明Hadoop自己这项技术，同时也表明围绕Hadoop的技术生态。

并且你们千万不要把事情想复杂，觉得分布式存储什么这些概念都是多么深奥的东西，的确，官方概念确实是有点抽象晦涩了，可是我以为，任何一项理论都必定来源于生活，由于是生活给予了他们灵感，可是生活并非十分复杂的，因此任何深奥复杂的理论必定能够在生活中找到一个通俗易懂的解释。

什么是分布式存储，不跟你们吹，我初中的时候就已经在搞这个了，那时候流行看玄幻小说，那种大部头知道吧，特厚，一般一个班就只有那么一本，被教导主任没收了就完蛋了，谁都没得看，因而当时盛行把一本玄幻小说一页一页撕下来，每一个同窗几页，你们互相换着看，就算老师发现了也就只是没收了一部分，没办法所有歼灭。你看，分布式有了，存储有了，这不就是分布式存储吗？为了防止一本书被老师没收了致使这本书不完整，那就买三本，也这么几页几页分开存，这不就是多备份吗，没那么复杂，别老纠结那些学者写的给学者看的概念。

Hadoop发展史：

这个也没啥好讲的，我这里就列几个关键的点，感兴趣的朋友下去能够本身搜，网上一搜一大堆。

一个叫Dung Cutting 没事用java写了一个全文搜索的框架 - Lucene
数据量大的时候，Lucene性能跟不上了就。
巧了，Google自己也是作全文搜索的，为啥人家性能就那么顶呢？
经过学习谷歌，搞了个Nutch
后来谷歌公开了部分GFS和MapReduce的细节。
Dung Cutting 一看这答案都给本身了，因而花了两年，注意是业余时间，本身实现了DFS和MapReduce，`Nutch·性能一下字就提上去了，一个字，牛逼。
后来Hadoop做为Lucene子项目Nutch的一部分被正式引进了Apache基金会。
而后Map-Reduce和NDFS一块被整合进了Hadoop项目里面，Hadoop就这么诞生了。

为啥人家业余时间就能搞出来这么牛逼的东西，我业余时间王者荣耀王者都上不去，难道有中间商赚差价？

Hadoop发行版本：

和Linux差很少，不一样的公司在此基础上分别定制了本身的发行版本，Hadoop发行版本主要有三个，分别是：

Apache版本：最原始（最基础）的版本，对于入门学习最好，毕竟是出生地，血统也是最正的。
Cloudera ：在大型互联网企业中用的较多。
Hortonworks：文档比较全。

不用想，咱们确定选Apache，也没啥别的缘由，就是由于它基础，简单，不要钱。

Hadoop优点是什么？

Hadoop为啥这么牛逼，致使咱们如今一说大数据开发，就会想到Hadoop？

毕竟写程序不是谈恋爱，没什么就算你很差我也依然爱你这回事，咱们坏得很，哪一个好用使哪一个。

Hadoop在江湖中能混到今天的地位主要靠如下四点：

高可靠性：Hadoop底层使用多个数据副本，即便Hadoop某个计算元素或存储出现故障，也不会致使数据的丢失，想一想上面讲的分布式存储的例子。
高扩展性：在集群间分配任务数据，能够方便的扩展数以千计的节点。就是，有一天运维早上一上班，卧槽，集群存储不够了，可是问题不大，由于在集群中加入一个新的节点或者去掉一个节点都分分钟的事儿。
高效性：在MapReduce的思想下，Hadoop是并行工做的，以加快任务处理速度。
高容错性：可以将失败的任务从新分配。

你说了一堆优势，Hadoop就没啥缺点吗？必须有，可是这个要到后面写到HDFS，MR的时候才能说，要不如今都不知道Hdfs是啥，说缺点的话不形象，就跟说人坏话同样，当着人家面儿说才有效果。

下面开始技术总结：

今天这篇文章呢，做为整套Hadoop系列教程的第一篇，主要是按照我写博客的习惯讲了一些基本的概念，但愿你们看过以后内心可以对大数据和Hadoop有个基本的认识，另外，我写技术文章比较口语化，废话比较多，这个欢迎你们提建议，放心，提了我也不改，可是我写小说啥的仍是很是严肃的，并且废话文你读起来比那些深奥玩弄概念的文章快多了（滑稽），下一篇文章呢，咱们一样也是概念篇，主要讲HDFS，YARN，MR这三个Hadoop核心概念，以后就是实打实的要和代码接触了。

很是感谢能读到这里的朋友，大家的支持和关注是我坚持高质量分享下去的动力。

相关代码已经上传至本人github。必定要点个star啊啊啊啊啊啊啊

万水千山老是情，给个star行不行

韩数的开发笔记

欢迎点赞，关注我，有你好果子吃（滑稽）