大数据成神之路

时间 2019-12-06

标签数据之路繁體版

原文原文链接

你们好，本人目前在某BAT公司任职大数据架构师，自2010年开始接触大数据，至今已经有N多年了，从一无所知的小白到一线互联网公司大数据架构师虽然坎坷，却也收货良多。决心写下这个大数据成神之路文章。面试

大数据成神之路系列：（部分）
Java高级特性加强-集合
 Java高级特性加强-多线程
 Java高级特性加强-Synchronized
Java高级特性加强-volatile
Java高级特性加强-并发集合框架
 Java高级特性加强-分布式
 Java高级特性加强-Zookeeper
Java高级特性加强-JVM
Java高级特性加强-NIOredis

总目录：算法

* Java高级特性加强(多线程，并发包) 
* JVM深度解析和面试点
* 分布式理论基础和原理
* 分布式理论基础-Zookeeper的Paxos一致性算法
* 大数据框架开发基础-NIO和RPC
* 大数据框架基石之网路通讯-Netty
* Hadoop三驾马车之Mapreduce
* Hadoop三驾马车之HDFS 
* Hadoop三驾马车之Yarn　
* OLAP引擎-HiveSQL的高级调优和原理分析
* 离线列式大数据存储-Hbase的原理和亿级数据下的生产应用
* Nosql之王-Redis高级特性和实现原理
* 分布式消息队列Kafka原理及与流式计算的集成
* 第三代流式计算引擎-Spark的原理和生产应用(一)
* 第三代流式计算引擎-Spark的原理和生产应用(二)
* 第三代流式计算引擎-Spark的原理和生产应用(三)
* Flink-当前最火的实时计算引擎(一)
* Flink-当前最火的实时计算引擎(二)
* Flink-当前最火的实时计算引擎(三)
* 大数据算法(一)
* 大数据算法(二)

这是一个硬核大数据学习及面试专栏
硬核文章“硬”在哪里？sql

大数据领域核心的面试考察点

你是否有过这样的困扰？数据库

我用Spark开发了N个项目，面试却被认为根本不懂Spark
我有超过3-5年的大数据开发经验，面试一问三不知，知识形不成体系
我在网站买了几千块的视频资料，却没有整理过学习过的技术，似懂非懂
我是Java后端开发，急需突破但愿转行大数据，却无从下手
我是应届生，但愿毕业从事大数据开发
若是上面的困扰你中了任何一条，那么恭喜你，这个专栏就是为你而写的。编程

在这个专栏里，做者不会卖情怀，也不会讲段子，做者多年浸淫大数据开发领域，将会把整个大数据领域核心的考察点，其中包括大数据领域的经常使用框架和中间件，大数据的基础，面试过程当中必问的概念和原理进行整理和讲解。后端

大数据基础必知必会

大数据须要掌握的语言是什么？有什么核心知识点？什么是CAP？什么是Quorum机制？
大数据的本质无非就是海量数据的计算，查询与存储，分布式计算，那么问题来了，海量数据存储通常是用什么文件系统？目前主流的文件系统是如何设计的？他们是如何管理原数据的？可靠性和扩展性怎么作的？分布式的概念有哪些？分布式计算中的问题有什么？这么多的计算框架他们分别有什么特色？适合什么样的场景？实践应用有哪些坑？这些框架核心原理和代码有哪些？
用过redis却连它的基本数据结构都不清楚？我Spark+kafka贼溜但连PULL和PUSH模式都表达不清？
上面的夺命N连问，你惧怕了吗？别怕，做者带你把他们一一解决。缓存

大数据框架的核心部分源码解读

阿里巴巴面试最喜欢问的一个问题：“你知道XXX的实现原理么?”微信

做者曾经被这个问题问的脊背发凉，冷汗直流，后来发奋图强，认真阅读过不少优秀框架的源码，并在Spark的基础上结合本身的业务开发了一套实时计算框架。网络

套用网络上的一句话：

在工程师的世界里，概念、原理都是抽象的，惟有源码是具象的。
随着咱们阅读更多的优秀的源码，咱们的想象力才会更加具象，咱们的理解才会更加干净。

在本专栏中，每一个章节都包含核心源码解读，让读者不只知其然且知其因此然，之后在之后面对面试官的时候能够和他侃侃而谈。

模拟真实场景下的面试问题和拓展

众所周知，BAT等一二线公司有本身的简历库，面试人每次面试都有记录，好比阿里每次投递简历到第二次投递至少半年，甚至有些公司屡次面试会上系统的黑名单，这些有限的面试机会值得倍加珍惜。

做者做为面试过几乎全部一二线公司的"老炮"，曾经拿到过N多offer，做者为每一个章节设计了一个问题提问环节，模拟真实面试场景下面试官的提问，咱们该如何做答，回答如何”戏感“实足，又不生硬，不只把本身的干货展现给面试官还能稍微作些拓展，让面试官眼前一亮。

做者专栏都有哪些内容?
做者该专栏目前设计了20+个大章节，涵盖了目前大数据开发领域一线公司主流的技术框架和面试考察点，每一个小章节又包含了架构原理和源码解析，实际项目中的应用和常见的坑，面试关注点以及如何做答三个小部分，每一篇文章都会很长很长，作到图文并茂。但愿你们耐下心来跟我一篇一篇的看下来，成为offer收割机，争取到更大的公司更大的平台的机会。

专栏大纲预告

* Java高级特性加强(多线程，并发包) 
* JVM深度解析和面试点
* 分布式理论基础和原理
* 分布式理论基础-Zookeeper的Paxos一致性算法
* 大数据框架开发基础-NIO和RPC
* 大数据框架基石之网路通讯-Netty
* Hadoop三驾马车之Mapreduce
* Hadoop三驾马车之HDFS 
* Hadoop三驾马车之Yarn　
* OLAP引擎-HiveSQL的高级调优和原理分析
* 离线列式大数据存储-Hbase的原理和亿级数据下的生产应用
* Nosql之王-Redis高级特性和实现原理
* 分布式消息队列Kafka原理及与流式计算的集成
* 第三代流式计算引擎-Spark的原理和生产应用(一)
* 第三代流式计算引擎-Spark的原理和生产应用(二)
* 第三代流式计算引擎-Spark的原理和生产应用(三)
* Flink-当前最火的实时计算引擎(一)
* Flink-当前最火的实时计算引擎(二)
* Flink-当前最火的实时计算引擎(三)
* 大数据算法(一)
* 大数据算法(二)

第一章 Java高级特性加强(多线程，并发包)

大多数大数据框架都是Java开发的，并发和多线程是大数据框架的基础，也是大数据面试的重灾区，做者会使用图文的方式讲解多线程和并发相关的原理和生产实践。

第二章 JVM是Javaer绕不过去的坎

我相信你们已经有所体会，JVM已经成了Java界区分一个开发者是否基础扎实的试金石，随着Java版本的更新迭代，JVM也在不断进化，做者带你揭开JVM的真容。

第三章分布式理论

所谓大道至简，万变不离其宗，分布式理论比如习武扎马步，是修习上乘武学的基本功。

第四章 Zookeeper

本章将全面剖析Zookeeper的原理和实现，它在Hadoop等大数据框架中扮演者不可或缺的角色。

第五章 NIO和RPC

NIO是和RPC是大数据框架数据通讯的广泛采用的方案，做者将深刻浅出的介绍其原理并带你们实现简单的通讯框架。

第六章 Netty

看成者打出Netty的时候，若是你是一个Java开发，却没有据说过，那么恭喜你面试第一轮就可能被挡在门外。Netty是Java实现的，提供异步的、事件驱动的网络应用程序框架和工具，它的高性能和高可靠性已经被无数个应用验证了，任何一个大数据框架都离不开Netty。

第7、8、九章 Hadoop的三驾马车

Hadoop无需多言，是大多数人接触大数据最早接触的框架，基于Hadoop已经发展出来了庞大的大数据生态，几乎全部的分布式理论都在Hadoop上有所实践。

第十章 HiveSql

Hive架构在Hadoop之上，使得查询和分析数据方便。提供简单的sql查询功能，能够将sql语句转换为MapReduce任务进行运行，这一章涉及到了HiveSql的原理和高级调优，也是面试的重灾区。

第十一章 Hbase的原理和亿级数据下的生产应用

做为列式数据库，他和传统的数据库有什么区别，在生产实践中应该注意哪些事项，将在这一章节有详细讲解。

第十二章 Hbase的原理和亿级数据下的生产应用

做为列式数据库，他和传统的数据库有什么区别，在生产实践中应该注意哪些事项，将在这一章节有详细讲解。

第十三章 Redis是大数据领域最经常使用的缓存数据库

在大数据分析框架中，Redis扮演着存储计算结果，快速读取的角色，本章将全面介绍Redis和其中复杂的数据结构实现，并带读者了解Redis的新特性。

第十5、十6、十七章 Spark

做者用三章来介绍Spark架构，Spark Streaming 和Structured Streaming，里面包含了Spark核心的原理实现和生产实践，有图有文，通俗易懂且有深度。

第十8、十9、二十章 Flink-当前最火的实时计算引擎

Flink是近几年热度最高的实时计算引擎，包含了诸多特性，是真正的流式计算引擎，本章节包含了Flink的基本架构和编程模型以及最生产上的应用案例。

第二11、二十二章大数据开发中的算法

大数据算法是面试必备技能，做者将讲解常见的大数据算法面试题目，例如海量数据求TopN，Bitmap和Bloomfilter的应用等。

看到这里你是否是怕了?
不要怕！

在写做的过程当中，做者会作到图文并茂，通俗易懂，干货满满，不讲废话，不凑篇幅。若是发现某个章节东西较多，做者会拆分红小节，作到不遗漏重要知识点。

做者寄语
学习的过程是枯燥无味也是充满乐趣的，套用老猫的一句话：

他背起双手看着柳十岁，平静而认真地说道：“大道险且漫长，少有同行到最后，你已上路，更须专心，此去经年，忘却乃天然之事，莫刻意记起，那般不美”。

欢迎关注‘大数据技术与架构’ 微信公众号，获取更多关于Spark、flink、hadoop的资料下载。