Hive基础

时间 2019-11-19

标签 hive 基础栏目 Hadoop 繁體版

原文原文链接

目录(?)[+]web

1. Hive是什么sql

1) Hive是什么？数据库

这里引用 Hive wiki 上的介绍：apache

Hive is a data warehouse infrastructure built on top of Hadoop. It provides tools to enable easy data ETL, a mechanism to put structures on the data, and the capability to querying and analysis of large data sets stored in Hadoop files. Hive defines a simple SQL-like query language, called QL, that enables users familiar with SQL to query the data. At the same time, this language also allows programmers who are familiar with the MapReduce fromwork to be able to plug in their custom mappers and reducers to perform more sophisticated analysis that may not be supported by the built-in capabilities of the language.浏览器

Hive 是创建在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，能够用来进行数据提取转化加载（ETL），这是一种能够存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言，称为 QL，它容许熟悉 SQL 的用户查询数据。同时，这个语言也容许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 没法完成的复杂的分析工做。服务器

Hive does not mandate read or written data be in the “Hive format”—there is no such thing. Hive works equally well on Thrift, control delimited, or your specialized data formats. Please see File Format and SerDe in Developer Guide for details.

Hive 没有专门的数据格式。 Hive 能够很好的工做在 Thrift 之上，控制分隔符，也容许用户指定数据格式。网络

2) Hive不是什么？
oracle

Hive基于hadoop，hadoop是批处理系统，不能保证低延迟，所以，hive的查询也不能保证低延迟。
Hive的工做模式是提交一个任务，等到任务结束时被通知，而不是实时查询。相对应的是，相似于oracle这样的系统当运行于小数据集的时候，响应很是快，可当处理的数据集很是大的时候，可能须要数小时。须要说明的是，hive即便在很小的数据集上运行，也可能须要数分钟才能完成。
总之，低延迟不是hive追求的首要目标。hive的设计目标是：可伸缩、可扩展、容错及输入格式松耦合。
app

Hive 资源

Hive 自己提供了较丰富的文档，如下连接提供了 Hive 的一些基础文档：

FaceBook 镜像（被墙）：[[http://mirror.facebook.com/facebook/hive]]
Wiki 页面：[[http://wiki.apache.org/hadoop/Hive]]
入门指南：[[http://wiki.apache.org/hadoop/Hive/GettingStarted]]
查询语言指南：[[http://wiki.apache.org/hadoop/Hive/HiveQL]]
演示文稿：[[http://wiki.apache.org/hadoop/Hive/Presentations]]
蓝图：[[http://wiki.apache.org/hadoop/Hive/Roadmap]]

大多数有关 Hive 的使用和特性的问题能够从以上的连接中寻找到答案。固然，因为 Hive 自己在不断的发展中，文档的更新速度不少时候都赶不上 Hive 自己的更新速度，若但愿了解 Hive 的最新动态或者遇到 Bug，能够加入 Hive 的邮件列表：
* User: hive-user@hadoop.apache.org
* Developer: hive-dev@hadoop.apache.org

1. 为何使用Hive

面临的问题

人员学习成本过高

项目周期要求过短

我只是须要一个简单的环境

MapReduce 如何搞定

复杂查询好难

Join如何实现

为何要使用Hive

•操做接口采用类SQL语法，提供快速开发的能力

•避免了去写MapReduce，减小开发人员的学习成本

•扩展功能很方便

Hive的特色

•可扩展

Hive能够自由的扩展集群的规模，通常状况下不须要重启服务

•延展性

Hive支持用户自定义函数，用户能够根据本身的需求来实现本身的函数

•容错

良好的容错性，节点出现问题SQL仍可完成执行

2. Hive体系结构

Hive 的结构如图所示，

主要分为如下几个部分：

用户接口，包括命令行CLI，Client，Web界面WUI，JDBC/ODBC接口等
中间件：包括thrift接口和JDBC/ODBC的服务端，用于整合和其余程序。
元数据metadata存储，一般是存储在关系数据库如 mysql, derby 中的系统参数
底层驱动：包括HiveQL解释器、编译器、优化器、执行器（引擎）。
Hadoop：用 HDFS 进行存储，利用 MapReduce 进行计算。

用户接口主要有三个：CLI，Client 和 WUI。其中最经常使用的是 CLI，Cli 启动的时候，会同时启动一个 Hive 副本。Client 是 Hive 的客户端，用户链接至 Hive Server。在启动 Client 模式的时候，须要指出 Hive Server 所在节点，而且在该节点启动 Hive Server。 WUI 是经过浏览器访问 Hive。
Hive 将元数据存储在数据库中，如 mysql、derby。Hive 中的元数据包括表的名字，表的列和分区及其属性，表的属性（是否为外部表等），表的数据所在目录等。
解释器、编译器、优化器完成 HQL 查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在 HDFS 中，并在随后有 MapReduce 调用执行。
Hive 的数据存储在 HDFS 中，大部分的查询由 MapReduce 完成（包含 * 的查询，好比 select * from tbl 不会生成 MapRedcue 任务）。

Hive与Hadoop以前的关系：

3. Hive元数据存储

MetaStore相似于的目录。它存放了有个表、区、列、类型、规则模型的全部信息。而且它能够经过thrift接口进修改和查询。它为编译器提供高效的服务，因此，它会存放在一个传统的RDBMS，利用关系模型进管理。这个信息很是重要，因此须要备份，而且支持查询的可扩展性。

Hive 将元数据存储在 RDBMS 中，有三种模式能够链接到数据库：

Single User Mode：此模式链接到一个 In-memory 的数据库 Derby，通常用于 Unit Test。

Multi User Mode：经过网络链接到一个数据库中，是最常用到的模式。

、

Remote Server Mode：用于非 Java 客户端访问元数据库，在服务器端启动一个 MetaStoreServer，客户端利用 Thrift 协议经过 MetaStoreServer 访问元数据库。

BUCKETING_COLS ：

Hive字段注释，字段名，字段类型，字段序号)

元数据库信息，存放HDFSHive全部hive序列化反序列化信息，如行分隔符、列分隔符、NULLSEQUENCE_TABLE对象的下一个可用ID，如’org.apache.hadoop.hive.metastore.model.MTable’, 21，则下一个新建立的hive表其TBL_ID就是21，同时SEQUENCE_TABLE表中271786被更新为26(这里每次都是+5?)。一样，COLUMN，PARTITION等都有相应的记录

SERDES ：

SERDE_PARAMS：

SORT_COLS ：

TABLE_PARAMS：表的基本信息

上面表的内容来看，hive整个建立表的过程已经比较清楚了

根据解析到的信息构建对应的表、字段、分区等对象，从SEQUENCE_TABLE中获取构建对象的最新ID，与构建对象信息(名称，类型等)一同经过DAO方法写入到元数据表中去，成功后将SEQUENCE_TABLE中对应的最新ID+5。

4. Hive的数据存储

首先，Hive 没有专门的数据存储格式，也没有为数据创建索引，用户能够很是自由的组织 Hive 中的表，只须要在建立表的时候告诉 Hive 数据中的列分隔符和行分隔符，Hive 就能够解析数据。

其次，Hive 中全部的数据都存储在 HDFS 中，Hive 中包含如下数据模型：Table，External Table，Partition，Bucket。

1）表table：一个表就是hdfs中的一个目录

2）区Partition：表内的一个区就是表的目录下的一个子目录

3）桶Bucket：若是有分区，那么桶就是区下的一个单位，若是表内没有区，那么桶直接就是表下的单位，桶通常是文件的形式。

Hive 中的 Table 和数据库中的 Table 在概念上是相似的，每个 Table 在 Hive 中都有一个相应的目录存储数据。例如，一个表 pvs，它在 HDFS 中的路径为：/wh/pvs，其中，wh 是在 hive-site.xml 中由 ${hive.metastore.warehouse.dir} 指定的数据仓库的目录，全部的 Table 数据（不包括 External Table）都保存在这个目录中。
Partition 对应于数据库中的 Partition 列的密集索引，可是 Hive 中 Partition 的组织方式和数据库中的很不相同。在 Hive 中，表中的一个 Partition 对应于表下的一个目录，全部的 Partition 的数据都存储在对应的目录中。例如：pvs 表中包含 ds 和 city 两个 Partition，则对应于 ds = 20090801, ctry = US 的 HDFS 子目录为：/wh/pvs/ds=20090801/ctry=US；对应于 ds = 20090801, ctry = CA 的 HDFS 子目录为；/wh/pvs/ds=20090801/ctry=CA。表是否分区，如何添加分区，均可以经过-语言完成。经过分区，即目录的存放形式，能够比较容易地完成对分区条件的查询。
Buckets 对指定列计算 hash，根据 hash 值切分数据，目的是为了并行，每个 Bucket 对应一个文件。将 user 列分散至 32 个 bucket，首先对 user 列的值计算 hash，对应 hash 值为 0 的 HDFS 目录为：/wh/pvs/ds=20090801/ctry=US/part-00000；hash 值为 20 的 HDFS 目录为：/wh/pvs/ds=20090801/ctry=US/part-00020 。桶是的最终的存储形式。在建立表时，用户能够对桶和列进详细地描述。
External Table 指向已经在 HDFS 中存在的数据，能够建立 Partition。它和 Table 在元数据的组织上是相同的，而实际数据的存储则有较大的差别。

Table 的建立过程和数据加载过程（这两个过程能够在同一个语句中完成），在加载数据的过程当中，实际数据会被移动到数据仓库目录中；以后对数据对访问将会直接在数据仓库目录中完成。删除表时，表中的数据和元数据将会被同时删除。
External Table 只有一个过程，加载数据和建立表同时完成（CREATE EXTERNAL TABLE ……LOCATION），实际数据是存储在 LOCATION 后面指定的 HDFS 路径中，并不会移动到数据仓库目录中。当删除一个 External Table 时，仅删除

5. Hive和普通关系型数据库的差别

因为 Hive 采用了 SQL 的查询语言 HQL，所以很容易将 Hive 理解为数据库。其实从结构上来看，Hive 和数据库除了拥有相似的查询语言，再无相似之处。本文将从多个方面来阐述 Hive 和数据库的差别。数据库能够用在 Online 的应用中，可是Hive 是为数据仓库而设计的，清楚这一点，有助于从应用角度理解 Hive 的特性。

RDBMS HQL HDFS 无 MapReduce 高大

因为 SQL 被普遍的应用在数据仓库中，所以，专门针对 Hive 的特性设计了类 SQL 的查询语言 HQL。熟悉 SQL 开发的开发者能够很方便的使用 Hive 进行开发。

Hive 是创建在Hadoop 之上的，全部 Hive 的数据都是存储在HDFS 中的。而数据库则能够将数据保存在块设备或者本地文件系统中。

Hive 中没有定义专门的数据格式，数据格式能够由用户指定，用户定义数据格式须要指定三个属性：列分隔符（一般为空格、”\t”、”\x001″）、行分隔符（”\n”）以及读取文件数据的方法（Hive 中默认有三个文件格式 TextFile，SequenceFile 以及 RCFile）。因为在加载数据的过程当中，不须要从用户数据格式到 Hive 定义的数据格式的转换，所以，Hive 在加载的过程当中不会对数据自己进行任何修改，而只是将数据内容复制或者移动到相应的 HDFS
目录中。而在数据库中，不一样的数据库有不一样的存储引擎，定义了本身的数据格式。全部数据都会按照必定的组织存储，所以，数据库加载数据的过程会比较耗时。

由于 Hive 是针对数据仓库应用设计的，而数据仓库的内容是读多写少的。所以，Hive 中不支持对数据的改写和添加，全部的数据都是在加载的时候中肯定好的。而数据库中的数据一般是须要常常进行修改的，所以可使用 INSERT INTO … VALUES 添加数据，使用 UPDATE… SET 修改数据。

之前已经说过，Hive 在加载数据的过程当中不会对数据进行任何处理，甚至不会对数据进行扫描，所以也没有对数据中的某些 Key 创建索引。Hive 要访问数据中知足条件的特定值时，须要暴力扫描整个数据，所以访问延迟较高。因为 MapReduce 的引入， Hive 能够并行访问数据，所以即便没有索引，对于大数据量的访问，Hive 仍然能够体现出优点。数据库中，一般会针对一个或者几个列创建索引，所以对于少许的特定条件的数据的访问，数据库能够有很高的效率，较低的延迟。因为数据的访问延迟较高，决定了
Hive 不适合在线数据查询。

Hive 中大多数查询的执行是经过 Hadoop 提供的 MapReduce 来实现的（相似 select * from tbl 的查询不须要 MapReduce）。而数据库一般有本身的执行引擎。

之前提到，Hive 在查询数据的时候，因为没有索引，须要扫描整个表，所以延迟较高。另一个致使 Hive 执行延迟高的因素是 MapReduce 框架。因为 MapReduce 自己具备较高的延迟，所以在利用 MapReduce 执行 Hive 查询时，也会有较高的延迟。相对的，数据库的执行延迟较低。固然，这个低是有条件的，即数据规模较小，当数据规模大到超过数据库的处理能力的时候，Hive 的并行计算显然能体现出优点。

由于 Hive 是创建在 Hadoop 之上的，所以 Hive 的可扩展性是和 Hadoop 的可扩展性是一致的（世界上最大的 Hadoop 集群在 Yahoo!，2009年的规模在4000 台节点左右）。而数据库因为 ACID 语义的严格限制，扩展行很是有限。目前最早进的并行数据库 Oracle 在理论上的扩展能力也只有 100 台左右。

因为 Hive 创建在集群上并能够利用 MapReduce 进行并行计算，所以能够支持很大规模的数据；对应的，数据库能够支持的数据规模较小。

6. Hive的基本概念

参考：https://cwiki.apache.org/confluence/display/Hive/Tutorial

1）数据单元
    按照数据的粒度大小，hive数据能够被组织成：
  1）databases：避免不一样表产生命名冲突的一种命名空间
    2）tables：具备相同scema的同质数据的集合
    3）partitions：一个表能够有一个或多个决定数据如何存储的partition key
  4）buckets（或clusters）：在同一个partition中的数据能够根据某个列的hash值分为多个bucket。partition和bucket并不是必要，可是它们能大大加快数据的查询速度。

2)、数据类型
    （1）简单类型：
  TINYINT - 1 byte integer
SMALLINT - 2 byte integer
INT - 4 byte integer
BIGINT - 8 byte
BOOLEAN - TRUE/ FALSE
FLOAT - 单精度
DOUBLE - 双精度
STRING - 字符串集合
    （2）复杂类型：
Structs： structs内部的数据能够经过DOT（.）来存取，例如，表中一列c的类型为STRUCT{a INT; b INT}，咱们能够经过c.a来访问域a。
Maps（Key-Value对）：访问指定域能够经过['element name']进行，例如，一个Map M包含了一个group->gid的k-v对，gid的值能够经过M['group']来获取。
Arrays：array中的数据为相同类型，例如，假如array A中元素['a','b','c']，则A[1]的值为'b'。

3）、内建运算符和函数

包括关系运算符(A=B, A!=B, A<B等等）、

算术运算符（A+B, A*B, A&B, A|B等等）、

逻辑运算符（A&&B, A|B等等）、

复杂类型上的运算符（A[n], M[key], S.x）、

各类内建函数：round，floor，substr

4）、语言能力
    hive查询语言提供基本的类sql操做，这些操做基于table和partition，包括：
    1. 使用where语句过滤制定行
    2. 使用select查找指定列
    3. join两张table
    4. group by
    5. 一个表的查询结果存入另外一张表
    6. 将一个表的内容存入本地目录
    7. 将查询结果存储到hdfs上
    8. 管理table和partition(creat、drop、alert)
    9. 在查询中嵌入map-reduce程序

Hive query language provides the basic SQL like operations. These operations work on tables or partitions. These operations are:

Ability to filter rows from a table using a where clause.
Ability to select certain columns from the table using a select clause.
Ability to do equi-joins between two tables.
Ability to evaluate aggregations on multiple "group by" columns for the data stored in a table.
Ability to store the results of a query into another table.
Ability to download the contents of a table to a local (e.g., nfs) directory.
Ability to store the results of a query in a hadoop dfs directory.
Ability to manage tables and partitions (create, drop and alter).
Ability to plug in custom scripts in the language of choice for custom map/reduce jobs.

6. Hive实际应用

一、Apache Weblog Data

The format of Apache weblog is customizable, while most webmasters use the default.
For default Apache weblog, we can create a table with the following command.

More about !RegexSerDe can be found here in HIVE-662 and HIVE-1719.

 
  CREATE  
  TABLE  
  apachelog ( 
 
  host STRING, 
 
  identity STRING, 
 
  user  
  STRING, 
 
  time  
  STRING, 
 
  request STRING, 
 
  status STRING, 
 
  size  
  STRING, 
 
  referer STRING, 
 
  agent STRING) 
 
  ROW FORMAT SERDE  
  'org.apache.hadoop.hive.serde2.RegexSerDe' 
 
  WITH  
  SERDEPROPERTIES ( 
 
  "input.regex"  
  =  
  "([^]*) ([^]*) ([^]*) (-|\\[^\\]*\\]) ([^ \"]*|\"[^\"]*\") (-|[0-9]*) (-|[0-9]*)(?: ([^ \"]*|\".*\") ([^ \"]*|\".*\"))?" 
 
  ) 
 
  STORED  
  AS  
  TEXTFILE; 
 
   引自原文：http://blog.csdn.net/hguisu/article/details/18986759

Hive基础

RDBMS HQL HDFS 无 MapReduce 高 大

一、Apache Weblog Data

RDBMS HQL HDFS 无 MapReduce 高大