hadoop框架结构学习详述

hadoop框架结构学习详述算法

近年,随着互联网的发展特别是移动互联网的发展,数据的增加呈现出一种爆炸式的成长势头。单是谷歌的爬虫程序天天下载的网页超过1亿个(2000年数据,)数据的爆炸式增加直接推进了海量数据处理技术的发展。谷歌公司提出的大表、分布式文件系统和分布式计算的三大技术构架,解决了海量数据处理的问题。谷歌公司随即将设计思路开源,发表了具备划时代意义的三篇论文,很快根据谷歌设计思路的开源框架就出现了,就是现在很是火爆的hadoop、Maperduce和许多Nosql系统。这三大技术也是整个大数据技术的核心基础。sql

目前国内的hadoop商业发行版也是比较多,这些hadoop商业版大部分都是由国外发行的,纯国产的发行版不是不少,好比DKhadoop,能够说是目前国内自主作hadoop商业版比较好的了。下面就以大快搜索DKhadoop为例来给你们介绍一下hadoop框架结构!数据库

图示:DKhadoop技术技术架构图编程

hadoop框架结构核心:服务器

hadoop的框架结构最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,MapReduce为海量的数据提供了计算。架构

大数据一体化开发框架:框架

大数据的应用开发过于偏向底层,设计技术面很是普遍,学习的难度天然要大的不少。对于新手入门更是难上加难。DKhadoop则是大快搜索将一系列技术框架在底层进行了从新封装。把大数据开发中的一些通用的,重复使用的基础代码、算法封装为类库,下降了大俗局的学习门槛,下降开发难度。机器学习

DKhadoop框架结构构成模块:分布式

咱们以DKhadoop发行版为例:oop

一、框架由:数据源与SQL引擎、数据采集(自定义爬虫)模块、数据处理模块、机器学习算法、天然语言处理模块、搜索引擎模块,六部分组成。

二、大快的大数据通用计算平台(DKH),已经集成相同版本号的开发框架的所有组件。若是在开源大数据框架上部署大快的开发框架,须要平台的组件支持以下:

(1)数据源与SQL引擎:DK.Hadoop、spark、hive、sqoop、flume、kafka

(2)数据采集:DK.hadoop

(3)数据处理模块:DK.Hadoop、spark、storm、hive

(4)机器学习和AI:DK.Hadoop、spark

(5)NLP模块:上传服务器端JAR包,直接支持

(6)搜索引擎模块:不独立发布

Dkhadoop是大快深度整合,从新编译后的HADOOP发行版,可单独发布。独立部署FreeRCH(大快大数据一体化开发框架)时,必需的组件。DK.HADOOP整合集成了NOSQL数据库,简化了文件系统与非关系数据库之间的编程;DK.HADOOP改进了集群同步系统,使得HADOOP的数据处理更加高效。

关于hadoop框架结构暂且简单介绍这些,感兴趣的朋友能够找一下大快搜索的DKhadoop试一下。

相关文章
相关标签/搜索