如何学习大数据技术

学习大数据技术,首先要明确大数据的概念。数据库

大数据的概念做者认为有以下几点:学习

1.数据的来源多样性。例如关系数据库+文本+excel等大数据

2.数据量大。TB级别的数据。excel

3.业务应用领域。实时性高与实时性不高的应用。数据分析


学习大数据应该就是要解决上述三个技术问题。技术

针对第一个问题,就是ETL技术-数据的抽取,清洗,加载。传统数据抽取、清洗、加载是没法作到的。例如一个1TB的数据,须要抽取一些客户的基本信息。上万的文件,多种数据库,每一个数据库有不少节点等,这些问题如何解决。第二是时间问题,若是这个ETL过长须要半个月时间,那么就没有意义的。数据

针对第二个问题,数据如何存储,如何查询。TB级的数据如何存储,如何查询,面对亿级别的数据集合,如何提高查询速度。查询

针对第三个问题,实时分析系统和非实时分析系统。实时分析系统咱们如何解决在海量的数据中,及时根据数据分析模型,得出分析报告。非实时系统咱们技术要求可能会低些。集合


围绕解决上述问题为中心,进行探讨学习之路-称为大数据学习之路文件

以上及供参考,欢迎评论交流探讨。