初步认识Hive

时间 2019-12-06

标签初步认识 hive 栏目 Hadoop 繁體版

原文原文链接

初步认识Hivesql

hive是基于Hadoop的一个数据仓库工具，能够将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，能够将sql语句转换为MapReduce任务进行运行。其优势是学习成本低，能够经过类SQL语句快速实现简单的MapReduce统计，没必要开发专门的MapReduce应用，十分适合数据仓库的统计分析。数据库

Hive 并不适合那些须要低延迟的应用，例如，联机事务处理（OLTP）。Hive 查询操做过程严格遵照Hadoop MapReduce 的做业执行模型，Hive 将用户的HiveQL 语句经过解释器转换为MapReduce 做业提交到Hadoop 集群上，Hadoop 监控做业执行过程，而后返回做业执行结果给用户。Hive 并不是为联机事务处理而设计，Hive 并不提供实时的查询和基于行级的数据更新操做。Hive 的最佳使用场合是大数据集的批处理做业，例如，网络日志分析。网络

Hive 的设计特色以下：函数

● 支持索引，加快数据查询。工具

● 不一样的存储类型，例如，纯文本文件、HBase 中的文件。oop

● 将元数据保存在关系数据库中，大大减小了在查询过程当中执行语义检查的时间。学习

● 能够直接使用存储在Hadoop 文件系统中的数据。大数据

● 内置大量用户函数UDF 来操做时间、字符串和其余的数据挖掘工具，支持用户扩展UDF 函数来完成内置函数没法实现的操做。spa

● 类SQL 的查询方式，将SQL 查询转换为MapReduce 的job 在Hadoop集群上执行。设计

Hive和传统数据库的比较

基本数据类型

hive支持多种不一样长度的整型和浮点型数据，支持布尔型，也支持无长度限制的字符串类型。例如：TINYINT、SMALINT、BOOLEAN、FLOAT、

DOUBLE、STRING等基本数据类型。这些基本数据类型和其余sql方言同样，都是保留字。

Hive基本数据类型：TINYINT,SMALLINT,INT,BIGINT,BOOLEAN,FLOAT,DOUBLE,STRING,BINARY,TIMESTAMP,DECIMAL,CHAR,VARCHAR,DATE。

集合数据类型

hive中的列支持使用struct、map和array集合数据类型。大多数关系型数据库中不支持这些集合数据类型，由于它们会破坏标准格式。关系型数据库中为实现集合数据类型是由多个表之间创建合适的外键关联来实现。在大数据系统中，使用集合类型的数据的好处在于提升数据的吞吐量，减小寻址次数来提升查询速度。

 1 CREATE TABLE STUDENTINFO
 2 
 3 (
 4 
 5 NAME STRING,
 6 
 7 FAVORITE ARRAY<STRING>,
 8 
 9 COURSE MAP<STRING,FLOAT>,
10 
11 ADDRESS STRUCT<CITY:STRING,STREET:STRING>
12 
13 )

查询语法：SELECT S.NAME,S.FAVORITE[0],S.COURSE["ENGLISH"],S.ADDRESS.CITY FROM STUDENTINFO S;

数据存储

1.首先，Hive 没有专门的数据存储格式，也没有为数据创建索引，用户能够很是自由的组织 Hive 中的表，只须要在建立表的时候告诉 Hive 数据中的列分隔符和行分隔符，Hive 就能够解析数据。

2.其次，Hive 中全部的数据都存储在 HDFS 中，Hive 中包含如下数据模型：表(Table)，外部表(External Table)，分区(Partition)，桶(Bucket)。

3.Hive 中的 Table 和数据库中的 Table 在概念上是相似的，每个 Table 在 Hive 中都有一个相应的目录存储数据。例如，一个表 pvs，它在 HDFS 中的路径为：/wh/pvs，其中，wh 是在 hive-site.xml 中由 ${hive.metastore.warehouse.dir} 指定的数据仓库的目录，全部的 Table 数据（不包括 External Table）都保存在这个目录中。

4.Partition 对应于数据库中的 Partition 列的密集索引，可是 Hive 中 Partition 的组织方式和数据库中的很不相同。在 Hive 中，表中的一个 Partition 对应于表下的一个目录，全部的 Partition 的数据都存储在对应的目录中。例如：pvs 表中包含 ds 和 city 两个 Partition，则对应于 ds = 20090801, ctry = US 的 HDFS 子目录为：/wh/pvs/ds=20090801/ctry=US；对应于 ds = 20090801, ctry = CA 的 HDFS 子目录为；/wh/pvs/ds=20090801/ctry=CA

5.Buckets 对指定列计算 hash，根据 hash 值切分数据，目的是为了并行，每个 Bucket 对应一个文件。将 user 列分散至 32 个 bucket，首先对 user 列的值计算 hash，对应 hash 值为 0 的 HDFS 目录为：/wh/pvs/ds=20090801/ctry=US/part-00000；hash 值为 20 的 HDFS 目录为：/wh/pvs/ds=20090801/ctry=US/part-00020。

6.External Table 指向已经在 HDFS 中存在的数据，能够建立 Partition。它和 Table 在元数据的组织上是相同的，而实际数据的存储则有较大的差别。

注意：

Table 的建立过程和数据加载过程（这两个过程能够在同一个语句中完成），在加载数据的过程当中，实际数据会被移动到数据仓库目录中；以后对数据对访问将会直接在数据仓库目录中完成。删除表时，表中的数据和元数据将会被同时删除。

External Table 只有一个过程，加载数据和建立表同时完成（CREATE EXTERNAL TABLE ……LOCATION），实际数据是存储在 LOCATION 后面指定的 HDFS 路径中，并不会移动到数据仓库目录中。当删除一个 External Table 时，仅删除元数据，表中的数据不会真正被删除。