hadoop大数据架构

概要

大数据是目前很是火热的词,基本各行各业都离不开大数据,利用金融数据分析一个公司的走势,利用监控数据能够抓住一个在逃逃犯。这些都是大数据应用程序。
在这里插入图片描述apache

大数据技术的相关概念

数据无处不在,各行各业无时无刻不在产生大量的数据。
在这里插入图片描述
如何保存和分析像海洋同样的数据,成为了一道难题。传统的单机存储存在存储容量小、读写速率慢、计算效率低下的缺点。Google提出了一系列大数据技术。好比MapReduce,bigtable,gfs。这些技术给大数据存储和分析带来了革命性的改变。首先下降了成本,数据能用PC机存储,而不是超级计算机。其次使用软件提升可靠性,而不是硬件。最后简化了分布式并行计算,不须要控制同步和数据交换。Google只提供了一些论文,没有开源源代码。因此一个模仿Google的开源技术来了。就是hadoop。
在这里插入图片描述
hadoop是apache的顶级项目之一,主要负责分布式存储和分布式计算。 hadoop由两个部分组成:hdfs存储海量数据,mapreduce实现任务分解和处理。hadoop能够实现如下功能:
在这里插入图片描述
为何选择hadoop,首先扩展性强,能够经过简单地添加硬件实现,其次成本很低,不须要使用高端的机器,只用我的电脑就能够。最后hadoop的生态圈成熟,围绕hadoop产生了不少工具。分布式

相关文章
相关标签/搜索