版权声明:本文为博主原创文章,未经博主容许不得转载。mysql
1. Hive是什么sql
1) Hive是什么?数据库
这里引用 Hive wiki 上的介绍:apache
Hive is a data warehouse infrastructure built on top of Hadoop. It provides tools to enable easy data ETL, a mechanism to put structures on the data, and the capability to querying and analysis of large data sets stored in Hadoop files. Hive defines a simple SQL-like query language, called QL, that enables users familiar with SQL to query the data. At the same time, this language also allows programmers who are familiar with the MapReduce fromwork to be able to plug in their custom mappers and reducers to perform more sophisticated analysis that may not be supported by the built-in capabilities of the language.浏览器
Hive 是创建在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,能够用来进行数据提取转化加载(ETL),这是一种能够存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 QL,它容许熟悉 SQL 的用户查询数据。同时,这个语言也容许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 没法完成的复杂的分析工做。服务器
Hive does not mandate read or written data be in the “Hive format”—there is no such thing. Hive works equally well on Thrift, control delimited, or your specialized data formats. Please see File Format and SerDe in Developer Guide for details.
Hive 没有专门的数据格式。 Hive 能够很好的工做在 Thrift 之上,控制分隔符,也容许用户指定数据格式。网络
2) Hive不是什么?
oracle
Hive基于hadoop,hadoop是批处理系统,不能保证低延迟,所以,hive的查询也不能保证低延迟。
Hive的工做模式是提交一个任务,等到任务结束时被通知,而不是实时查询。相对应的是,相似于oracle这样的系统当运行于小数据集的时候,响应很是快,可当处理的数据集很是大的时候,可能须要数小时。须要说明的是,hive即便在很小的数据集上运行,也可能须要数分钟才能完成。
总之,低延迟不是hive追求的首要目标。hive的设计目标是:可伸缩、可扩展、容错及输入格式松耦合。
app
Hive 资源
Hive 自己提供了较丰富的文档,如下连接提供了 Hive 的一些基础文档:
大多数有关 Hive 的使用和特性的问题能够从以上的连接中寻找到答案。固然,因为 Hive 自己在不断的发展中,文档的更新速度不少时候都赶不上 Hive 自己的更新速度,若但愿了解 Hive 的最新动态或者遇到 Bug,能够加入 Hive 的邮件列表:
* User: hive-user@hadoop.apache.org
* Developer: hive-dev@hadoop.apache.org
1. 为何使用Hive
2. Hive体系结构
Hive 的结构如图所示,
主要分为如下几个部分:
MetaStore相似于的目录。它存放了有个表、区、列、类型、规则模型的全部信息。而且它能够经过thrift接口进修改和查询。它为编译器提供高效的服务,因此,它会存放在一个传统的RDBMS,利用关系模型进管理。这个信息很是重要,因此须要备份,而且支持查询的可扩展性。
Hive 将元数据存储在 RDBMS 中,有三种模式能够链接到数据库:
首先,Hive 没有专门的数据存储格式,也没有为数据创建索引,用户能够很是自由的组织 Hive 中的表,只须要在建立表的时候告诉 Hive 数据中的列分隔符和行分隔符,Hive 就能够解析数据。
其次,Hive 中全部的数据都存储在 HDFS 中,Hive 中包含如下数据模型:Table,External Table,Partition,Bucket。
1)表table:一个表就是hdfs中的一个目录
2)区Partition:表内的一个区就是表的目录下的一个子目录
3)桶Bucket:若是有分区,那么桶就是区下的一个单位,若是表内没有区,那么桶直接就是表下的单位,桶通常是文件的形式。
因为 Hive 采用了 SQL 的查询语言 HQL,所以很容易将 Hive 理解为数据库。其实从结构上来看,Hive 和数据库除了拥有相似的查询语言,再无相似之处。本文将从多个方面来阐述 Hive 和数据库的差别。数据库能够用在 Online 的应用中,可是Hive 是为数据仓库而设计的,清楚这一点,有助于从应用角度理解 Hive 的特性。
因为 SQL 被普遍的应用在数据仓库中,所以,专门针对 Hive 的特性设计了类 SQL 的查询语言 HQL。熟悉 SQL 开发的开发者能够很方便的使用 Hive 进行开发。
Hive 是创建在Hadoop 之上的,全部 Hive 的数据都是存储在HDFS 中的。而数据库则能够将数据保存在块设备或者本地文件系统中。
Hive 中没有定义专门的数据格式,数据格式能够由用户指定,用户定义数据格式须要指定三个属性:列分隔符(一般为空格、”\t”、”\x001″)、行分隔符 (”\n”)以及读取文件数据的方法(Hive 中默认有三个文件格式 TextFile,SequenceFile 以及 RCFile)。因为在加载数据的过程当中,不须要从用户数据格式到 Hive 定义的数据格式的转换,所以,Hive 在加载的过程当中不会对数据自己进行任何修改,而只是将数据内容复制或者移动到相应的 HDFS
目录中。而在数据库中,不一样的数据库有不一样的存储引擎,定义了本身的数据格式。全部数据都会按照必定的组织存储,所以,数据库加载数据的过程会比较耗时。
由 于 Hive 是针对数据仓库应用设计的,而数据仓库的内容是读多写少的。所以,Hive 中不支持对数据的改写和添加,全部的数据都是在加载的时候中肯定好的。而数据库中的数据一般是须要常常进行修改的,所以可使用 INSERT INTO … VALUES 添加数据,使用 UPDATE… SET 修改数据。
之 前已经说过,Hive 在加载数据的过程当中不会对数据进行任何处理,甚至不会对数据进行扫描,所以也没有对数据中的某些 Key 创建索引。Hive 要访问数据中知足条件的特定值时,须要暴力扫描整个数据,所以访问延迟较高。因为 MapReduce 的引入, Hive 能够并行访问数据,所以即便没有索引,对于大数据量的访问,Hive 仍然能够体现出优点。数据库中,一般会针对一个或者几个列创建索引,所以对于少许的特定条件的数据的访问,数据库能够有很高的效率,较低的延迟。因为数据 的访问延迟较高,决定了
Hive 不适合在线数据查询。
Hive 中大多数查询的执行是经过 Hadoop 提供的 MapReduce 来实现的(相似 select * from tbl 的查询不须要 MapReduce)。而数据库一般有本身的执行引擎。
之 前提到,Hive 在查询数据的时候,因为没有索引,须要扫描整个表,所以延迟较高。另一个致使 Hive 执行延迟高的因素是 MapReduce 框架。因为 MapReduce 自己具备较高的延迟,所以在利用 MapReduce 执行 Hive 查询时,也会有较高的延迟。相对的,数据库的执行延迟较低。固然,这个低是有条件的,即数据规模较小,当数据规模大到超过数据库的处理能力的时 候,Hive 的并行计算显然能体现出优点。
由 于 Hive 是创建在 Hadoop 之上的,所以 Hive 的可扩展性是和 Hadoop 的可扩展性是一致的(世界上最大的 Hadoop 集群在 Yahoo!,2009年的规模在4000 台节点左右)。而数据库因为 ACID 语义的严格限制,扩展行很是有限。目前最早进的并行数据库 Oracle 在理论上的扩展能力也只有 100 台左右。
因为 Hive 创建在集群上并能够利用 MapReduce 进行并行计算,所以能够支持很大规模的数据;对应的,数据库能够支持的数据规模较小。
参考:https://cwiki.apache.org/confluence/display/Hive/Tutorial
1)数据单元
按照数据的粒度大小,hive数据能够被组织成:
1)databases: 避免不一样表产生命名冲突的一种命名空间
2)tables:具备相同scema的同质数据的集合
3)partitions:一个表能够有一个或多个决定数据如何存储的partition key
4)buckets(或clusters):在同一个partition中的数据能够根据某个列的hash值分为多个bucket。partition和bucket并不是必要,可是它们能大大加快数据的查询速度。
2)、数据类型
(1)简单类型:
TINYINT - 1 byte integer
SMALLINT - 2 byte integer
INT - 4 byte integer
BIGINT - 8 byte
BOOLEAN - TRUE/ FALSE
FLOAT - 单精度
DOUBLE - 双精度
STRING - 字符串集合
(2)复杂类型:
Structs: structs内部的数据能够经过DOT(.)来存取,例如,表中一列c的类型为STRUCT{a INT; b INT},咱们能够经过c.a来访问域a。
Maps(Key-Value对):访问指定域能够经过['element name']进行,例如,一个Map M包含了一个group->gid的k-v对,gid的值能够经过M['group']来获取。
Arrays:array中的数据为相同类型,例如,假如array A中元素['a','b','c'],则A[1]的值为'b'。
3)、内建运算符和函数
包括关系运算符(A=B, A!=B, A<B等等)、
算术运算符(A+B, A*B, A&B, A|B等等)、
逻辑运算符(A&&B, A|B等等)、
复杂类型上的运算符(A[n], M[key], S.x)、
各类内建函数:round,floor,substr
4)、语言能力
hive查询语言提供基本的类sql操做,这些操做基于table和partition,包括:
1. 使用where语句过滤制定行
2. 使用select查找指定列
3. join两张table
4. group by
5. 一个表的查询结果存入另外一张表
6. 将一个表的内容存入本地目录
7. 将查询结果存储到hdfs上
8. 管理table和partition(creat、drop、alert)
9. 在查询中嵌入map-reduce程序
Hive query language provides the basic SQL like operations. These operations work on tables or partitions. These operations are:
The format of Apache weblog is customizable, while most webmasters use the default.
For default Apache weblog, we can create a table with the following command.
More about !RegexSerDe can be found here in HIVE-662 and HIVE-1719.
CREATE
TABLE
apachelog (
host STRING,
identity STRING,
user
STRING,
time
STRING,
request STRING,
status STRING,
size
STRING,
referer STRING,
agent STRING)
ROW FORMAT SERDE
'org.apache.hadoop.hive.serde2.RegexSerDe'
WITH
SERDEPROPERTIES (
"input.regex"
=
"([^]*) ([^]*) ([^]*) (-|\\[^\\]*\\]) ([^ \"]*|\"[^\"]*\") (-|[0-9]*) (-|[0-9]*)(?: ([^ \"]*|\".*\") ([^ \"]*|\".*\"))?"
)
STORED
AS
TEXTFILE;