心得(一)

# 云计算的概念
百科是这么说的:云计算是基于互联网的相关服务的增长、使用和交付模式,一般涉及经过互联网来提供动态易扩展且常常是虚拟化的资源。
那个人理解呢,云计算分如下几点:
一、基于互联网
二、是一项服务
三、动态易扩展
四、虚拟化
五、是一个资源前端

云计算软件有OpenStack、Hadoop。
OpenStack是一个云操做系统,经过数据中心可控制大型的计算、存储、网络等资源池。全部的管理经过前端界面管理员就能够完成,一样也能够经过web接口让最终用户部署资源。
Hadoop是一款支持数据密集型分布式应用程序并以Apache 2.0许可协议发布的开源软件框架。
这二者的特色分别是:OpenStack侧重资源管理,Hadoop侧重支撑数据分析。
# 虚拟化是什么?
云计算的核心技术之一就是虚拟化技术。所谓虚拟化,是指经过虚拟化技术将一台计算机虚拟为多台逻辑计算机。在一台计算机上同时运行多个逻辑计算机,每一个逻辑计算机可运行不一样的操做系统,而且应用程序均可以在相互独立的空间内运行而互不影响,从而显著提升计算机的工做效率。web

而咱们平时经常使用的VMware呢,是一种虚拟化技术,VMware经过软件层面实现虚拟化,因此虚拟化不等于VMware。
# 大数据又是什么?
大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。大数据也能够定义为来自各类来源的大量非结构化或结构化数据。
因此大数据首先是数据量巨大,其次数据的类型能够为结构化或非结构化的。sql

在谈大数据时,它所能实现的价值是技术发展的最终目的,所以怎么样才可使价值体现得更多,得先从数据处理的过程提及:数据先要经过存储层存储下来,而后根据数据需求和目标来创建相应的数据模型和数据分析指标体系对数据进行分析产生价值。而中间的时效性又经过中间数据处理层提供的强大的并行计算和分布式计算能力来完成。三层相互配合,让大数据最终产生价值。所以可知,云计算的做用是提升数据计算的时效性。
# Hadoop?
Hadoop是一个可以对大量数据进行分布式处理的软件框架,以一种可靠、高效、可伸缩的方式进行数据处理;Hadoop 依赖于社区服务,所以它的成本比较低,任何人均可以使用;Hadoop是一个可以让用户轻松架构和使用的分布式计算平台。数据库

##Hadoop架构
从资源提供上分类:
1.Hadoop Distributed File System(HDFS),它存储 Hadoop 集群中全部存储节点上的文件。
2.MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。
从服务提供上分类:
1.HDFS的操做:HDFS能够建立、删除、移动或重命名文件等。
2.HDFS的编程:NameNode 是一个一般在 HDFS 实例中的单独机器上运行的软件。它负责管理文件系统名称空间和控制外部客户机的访问。NameNode 决定是否将文件映射到 DataNode 上的复制块上。DataNode 也是一个一般在 HDFS实例中的单独机器上运行的软件。Hadoop 集群包含一个 NameNode 和大量 DataNode。DataNode 一般以机架的形式组织,机架经过一个交换机将全部系统链接起来。
3.MapReduce提供分布式并行计算:MapReduce经过把对数据集的大规模操做分发给网络上的每一个节点实现可靠性;每一个节点会周期性的返回它所完成的工做和最新的状态。
4.HBase数据库:面向列的数据库。
5.HIVE数据仓库:能够将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,能够将sql语句转换为MapReduce任务进行运行。编程

数据仓库的功能:
1.OLAP(On-Line Analytical Processing)联机分析处理。能够分维度、时间、地区进行读取查询。
2.数据挖掘,找出数据背后的行为模式。
3.实时分析处理。便可实时分析高级别的任务。
数据库与数据仓库的区别:
数据库主要是为了处理基本的数据读取和写入,数据仓库主要是为了对历史数据进行分析和查询,也能够这么说,数据仓库是一个只读优化的数据库。网络

相关文章
相关标签/搜索