大数据系统基础(自主模式) 2.1大数据和云计算关系概述

数量大  作海量的计算和存储数据库

算的速度快  处理速度快网络

数据产生的地方和数据处理的地方每每不是同一个地方架构

作一个智能城市的应用  数据产生是在业外。好比说由各个地方,由传感器采集来的,那数据处理是在数据中内心面进行的,若是能把收集到的数据快速传输到数据中内心头,这须要一个很快的广域网的数据传输。因此这个也是由数据量和咱们对数据处理速度的要求共同决定的。固然还有一些更不明显的需求,并且大数据这个事情,刚刚起步,具体它会发展成什么样的你们也不是很清楚,因此咱们须要一个很是灵活,因此灵活是大数据一个很是重要的特征。大数据,价值密度很是的低,存储不少不少的数据,分析不少不少的数据,实际上它真正有用的只有那一点点。在这种状况下,咱们要求大数据系统有一个低成本的特性,不然的话任何企业也不可能负担的起咱们用很是昂贵的系统,象咱们过去作数据仓库和数据库那种方式作出来的存储系统。咱们不可能利用那些系统来处理大数据,由于成本过高了。框架

那么如何实现这些需求呢?这是大数据系统设计和不少的分布式系统设计的三个核心的理念。并行化:一个事情一我的干不了,咱们把它切成不少个小块分给好多人同时干,这样你干的就快乐。这就是并行化的概念。分布式

规模经济:若是你作一个这个事情,实际上它的成本是很低的,可是若是你规模经济,同时你把它作不少不少,你把规模作大,你把设计成本你把这些个一次投入的成本都摊销到这些个规模上去,这时候你的平均成本就低了,因此这是一个规模经济的概念。oop

第三个是虚拟化,硬件、软件都是多种多样的,你把这些多种多样的东西放在一块儿,你很差管理很差调度,咱们须要定义一个很是漂亮的接口,而后把那些个很是恶心的具体的实现隐藏在下面,这些给你们一个好看的接口,这样的话方便调度和管理,这就是虚拟化的概念。大数据

这三个其实都是一些很是朴实的观点,由于作计算机的人,为何叫作IT民工,他就是一些很是朴实的想法,可是这些想法推动到真正的系统中去,咱们会发现这个系统设计出来才可以解决这样的问题。云计算

大数据系统的基本的软硬件架构:设计

固然最基础的硬件,从硬件层来讲咱们就是计算资源、存储资源,以及把它们用网络链接起来。这是硬件层。刚才咱们说到这种硬件层其实是多种多样的,咱们很难管理。因此咱们有一层虚拟化层,咱们把存储网络和云计算都虚拟化,这样提供一个标准的接口。到云计算这一层,其实是经过这个很好的虚拟化的这样抽象的接口,咱们把这些资源进行统一的调度和管理。3d

在云计算上层,由于咱们有资源了,这时候咱们提供的接口的是什么?我要多少存储,我要多少计算资源,我要多少网络,这个云就会提供给我。因此在这上层咱们能够建设一系列的大数据处理的叫作框架,这个框架其实是体现了一种并行化的思想,它利用这些资源,把这些资源组织在一块儿,让它们协同工做,而后提供一个更加高层的接口。这种更加高层的接口隐藏了底下这些并行化的这些理念,因此让你们开发应用会更加容易。比方说上面咱们能够开发智能城市应用,开发一些视频的应用,多媒体的应用等等。可是当你开发这些应用的时候,你会发现,你不用再想底下的这层复杂的这种实现了。

虚拟化及如下的这一层,是云计算的基础。云这一层,主要讲的是资源的调度和管理。咱们是如何把这些资源分配给不一样的框架的。Hadoop、Spark大数据处理的框架。它们是提供怎样的一个抽象,你怎样来作这个应用。总体的最底下的这一系列的系统,为大数据应用的开发,提供了一个很是很是好的环境。真正应用开发的人,或者说数据分析师们,已经不须要再想底下的这些个复杂的东西是怎么回事了。

相关文章
相关标签/搜索