深刻学习Hive应用场景及架构原理

时间 2019-11-24

标签深刻学习 hive 应用场景架构原理栏目 Hadoop 繁體版

原文原文链接

Hive背景介绍

Hive最初是Facebook为了知足对海量社交网络数据的管理和机器学习的需求而产生和发展的。互联网如今进入了大数据时代，大数据是如今互联网的趋势，而hadoop就是大数据时代里的核心技术，可是hadoop的mapreduce操做专业性太强，因此facebook在这些基础上开发了hive框架，毕竟世界上会sql的人比会java的人多的多，hive能够说是学习hadoop相关技术的一个突破口。那么，hive是什么呢?html

Hive简介

简单的说：hive是基于hadoop的数据仓库。java

那么为何说hive是基于Hadoop的呢？mysql

之因此说hive是构建在Hadoop之上的数据仓库，简单的说是由于：jquery

①数据存储在hdfs上程序员

②数据计算用mapreduce算法

下面咱们来深刻分析一下：sql

Hive是一种创建在Hadoop文件系统上的数据仓库架构，并对存储在HDFS中的数据进行分析和管理；它能够将结构化的数据文件映射为一张数据库表，并提供完整的 SQL 查询功能，能够将 SQL 语句转换为 MapReduce 任务进行运行，经过本身的 SQL 去查询分析须要的内容，这套 SQL 简称 Hive SQL（HQL），使不熟悉 MapReduce 的用户也能很方便地利用 SQL 语言对数据进行查询、汇总、分析。同时，这个语言也容许熟悉 MapReduce 开发者们开发自定义的mappers和reducers来处理内建的mappers和reducers没法完成的复杂的分析工做。Hive还容许用户编写本身定义的函数UDF，用来在查询中使用。Hive中有3种UDF：User Defined Functions（UDF）、User Defined Aggregation Functions（UDAF）、User Defined Table Generating Functions（UDTF）。也就是说对存储在HDFS中的数据进行分析和管理，咱们不想使用手工，咱们创建一个工具吧，那么这个工具就能够是hive。数据库

Hive常见的应用场景

(1)日志分析：大部分互联网公司使用hive进行日志分析，包括百度、淘宝等。apache

1)统计网站一个时间段内的pv、uv浏览器

2)多维度数据分析

(2)海量结构化数据离线分析

Hive的特色（优缺点）

（一）hive的优势

(1)简单容易上手：提供了类SQL查询语言HQL

(2)可扩展：为超大数据集设计了计算/扩展能力（MR做为计算引擎，HDFS做为存储系统）

通常状况下不须要重启服务Hive能够自由的扩展集群的规模。

(3)提供统一的元数据管理

(4)延展性：Hive支持用户自定义函数，用户能够根据本身的需求来实现本身的函数

(5)容错：良好的容错性，节点出现问题SQL仍可完成执行

（二）hive的缺点（局限性）

(1)hive的HQL表达能力有限

1)迭代式算法没法表达，好比pagerank

2)数据挖掘方面，好比kmeans

(2)hive的效率比较低

1)hive自动生成的mapreduce做业，一般状况下不够智能化

2)hive调优比较困难，粒度较粗

3)hive可控性差

Hive 工做原理

Hive 工做原理以下图所示。

Hive构建在Hadoop之上

（1）HQL中对查询语句的解释、优化、生成查询计划是由Hive完成的

（2）全部的数据都是存储在Hadoop中

（3）查询计划被转化为MapReduce任务，在Hadoop中执行（有些查询没有MR任务，如：select * from table）

（4）Hadoop和Hive都是用UTF-8编码的

Hive编译器的组成：

Hive编译流程以下

Hive和数据库的异同

因为Hive采用了SQL的查询语言HQL，所以很容易将Hive理解为数据库。其实从结构上来看，Hive和数据库除了拥有相似的查询语言，再无相似之处。数据库能够用在Online的应用中，可是Hive是为数据仓库而设计的，清楚这一点，有助于从应用角度理解Hive的特性。

Hive和数据库的比较以下表：

MapReduce 开发人员能够把本身写的 Mapper 和 Reducer 做为插件支持 Hive 作更复杂的数据分析。它与关系型数据库的 SQL 略有不一样，但支持了绝大多数的语句（如 DDL、DML）以及常见的聚合函数、链接查询、条件查询等操做。

Hive 不适合用于联机(online) 事务处理，也不提供实时查询功能。它最适合应用在基于大量不可变数据的批处理做业。Hive 的特色是可伸缩（在Hadoop 的集群上动态的添加设备），可扩展、容错、输入格式的松散耦合。Hive 的入口是DRIVER ，执行的 SQL 语句首先提交到 DRIVER 驱动，而后调用 COMPILER 解释驱动，最终解释成 MapReduce 任务执行，最后将结果返回。

Hive 数据类型

Hive 提供了基本数据类型和复杂数据类型，复杂数据类型是 Java 语言所不具备的。本课程介绍 Hive 的两种数据类型以及数据类型之间的转换。

（一）基本数据类型

由上表咱们看到hive不支持日期类型，在hive里日期都是用字符串来表示的，而经常使用的日期格式转化操做则是经过自定义函数进行操做。

hive是用java开发的，hive里的基本数据类型和java的基本数据类型也是一一对应的，除了string类型。有符号的整数类型：TINYINT、SMALLINT、INT和BIGINT分别等价于java的byte、short、int和long原子类型，它们分别为1字节、2字节、4字节和8字节有符号整数。Hive的浮点数据类型FLOAT和DOUBLE,对应于java的基本类型float和double类型。而hive的BOOLEAN类型至关于java的基本数据类型boolean。

对于hive的String类型至关于数据库的varchar类型，该类型是一个可变的字符串，不过它不能声明其中最多能存储多少个字符，理论上它能够存储2GB的字符数。

（二）复杂数据类型

Hive 有三种复杂数据类型 ARRAY、MAP 和 STRUCT。ARRAY 和 MAP 与 Java 中的 Array 和 Map 相似，而STRUCT 与 C语言中的 Struct 相似，它封装了一个命名字段集合，复杂数据类型容许任意层次的嵌套。

复杂数据类型的声明必须使用尖括号指明其中数据字段的类型。定义三列，每列对应一种复杂的数据类型，以下所示。

CREATE TABLE complex(
	col1 ARRAY< INT>, col2 MAP< STRING,INT>, col3 STRUCT< a:STRING,b:INT,c:DOUBLE> )

（三）类型转化

Hive 的原子数据类型是能够进行隐式转换的，相似于 Java 的类型转换，例如某表达式使用 INT 类型，TINYINT 会自动转换为 INT 类型，可是 Hive 不会进行反向转化，例如，某表达式使用 TINYINT 类型，INT 不会自动转换为 TINYINT 类型，它会返回错误，除非使用 CAST 操做。

（1）隐式类型转换规则以下。

1）、任何整数类型均可以隐式地转换为一个范围更广的类型，如 TINYINT 能够转换成 INT，INT 能够转换成 BIGINT。

2）、全部整数类型、FLOAT 和 String 类型均可以隐式地转换成 DOUBLE。

3）、TINYINT、SMALLINT、INT 均可以转换为 FLOAT。

4）、BOOLEAN 类型不能够转换为任何其它的类型。

（2）可使用 CAST 操做显示进行数据类型转换，例如 CAST('1' AS INT) 将把字符串'1' 转换成整数 1；若是强制类型转换失败，如执行 CAST('X' AS INT)，表达式返回空值 NULL。

Hive 架构

下面是Hive的架构图。

Hive的体系结构能够分为如下几部分

（1）用户接口主要有三个：CLI，Client 和 WUI。其中最经常使用的是CLI，Cli启动的时候，会同时启动一个Hive副本。Client是Hive的客户端，用户链接至Hive Server。在启动 Client模式的时候，须要指出Hive Server所在节点，而且在该节点启动Hive Server。 WUI是经过浏览器访问Hive。

（2）Hive将元数据存储在数据库中，如mysql、derby。Hive中的元数据包括表的名字，表的列和分区及其属性，表的属性（是否为外部表等），表的数据所在目录等。

（3）解释器、编译器、优化器完成HQL查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在HDFS中，并在随后有MapReduce调用执行。

（4）Hive的数据存储在HDFS中，大部分的查询、计算由MapReduce完成（包含*的查询，好比select * from tbl不会生成MapRedcue任务）。

（一）用户接口

Hive 对外提供了三种服务模式，即 Hive 命令行模式（CLI），Hive 的 Web 模式（WUI），Hive 的远程服务（Client）。下面介绍这些服务的用法。

一、 Hive 命令行模式

Hive 命令行模式启动有两种方式。执行这条命令的前提是要配置 Hive 的环境变量。

1) 进入 /home/hadoop/app/hive 目录，执行以下命令。

./hive

2) 直接执行命令。

hive --service cli

Hive 命令行模式用于 Linux 平台命令行查询，查询语句基本跟 MySQL 查询语句相似，运行结果以下所示。

[hadoop@djt01 hive]$ hive
hive> show tables;
OK
stock
stock_partition
tst
Time taken: 1.088 seconds, Fetched: 3 row(s)
hive> select * from tst;
OK
Time taken: 0.934 seconds
hive> exit;
[hadoop@djt01 hive]$

二、Hive Web 模式

Hive Web 界面的启动命令以下。

hive --service hwi

经过浏览器访问 Hive，默认端口为 9999。

三、 Hive 的远程服务

远程服务（默认端口号 10000）启动方式命令以下，“nohup...&” 是 Linux 命令，表示命令在后台运行。

nohup hive --service hiveserver &	//在Hive 0.11.0版本以前，只有HiveServer服务可用
nohup hive --service hiveserver2 &	//在Hive 0.11.0版本以后，提供了HiveServer2服务

Hive 远程服务经过 JDBC 等访问来链接 Hive ，这是程序员最须要的方式。

本课程咱们安装的是hive1.0版本，因此启动 hive service 命令以下。

hive  --service hiveserver2 &	//默认端口10000
hive --service hiveserver2 --hiveconf hive.server2.thrift.port 10002 &	//能够经过命令行直接将端口号改成10002

hive的远程服务端口号也能够在hive-default.xml文件中配置，修改hive.server2.thrift.port对应的值便可。

< property> < name>hive.server2.thrift.port< /name> < value>10000< /value> < description>Port number of HiveServer2 Thrift interface when hive.server2.transport.mode is 'binary'.< /description> < /property>

Hive 的 JDBC 链接和 MySQL 相似，以下所示。

import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.SQLException;
public class HiveJdbcClient {
	private static String driverName = "org.apache.hive.jdbc.HiveDriver";//hive驱动名称  hive0.11.0以后的版本
	//private static String driverName = "org.apache.hadoop.hive.jdbc.HiveDriver";//hive驱动名称  hive0.11.0以前的版本
	public static  void main(String[] args) throws SQLException {
		
		try{
			Class.forName(driverName);
		}catch(ClassNotFoundException e){
			e.printStackTrace();
			System.exit(1);
		}
		//第一个参数：jdbc:hive://djt01:10000/default  链接hive2服务的链接地址
		//第二个参数：hadoop  对HDFS有操做权限的用户
		//第三个参数：hive  用户密码  在非安全模式下，指定一个用户运行查询，忽略密码
		Connection con = DriverManager.getConnection("jdbc:hive://djt01:10000/default", "hadoop", "");
		System.out.print(con.getClientInfo());
	}
}

（二）元数据存储。

Hive将元数据存储在RDBMS中，有三种模式能够链接到数据库：

（1）单用户模式。此模式链接到一个In-memory 的数据库Derby，通常用于Unit Test。

（2）多用户模式。经过网络链接到一个数据库中，是最常用到的模式。

（3）远程服务器模式。用于非Java客户端访问元数据库，在服务器端启动MetaStoreServer，客户端利用Thrift协议经过MetaStoreServer访问元数据库。

对于数据存储，Hive没有专门的数据存储格式，也没有为数据创建索引，用户能够很是自由的组织Hive中的表，只须要在建立表的时候告诉Hive数据中的列分隔符和行分隔符，Hive就能够解析数据。Hive中全部的数据都存储在HDFS中，存储结构主要包括数据库、文件、表和视图。Hive中包含如下数据模型：Table内部表，External Table外部表，Partition分区，Bucket桶。Hive默承认以直接加载文本文件，还支持sequence file 、RCFile。

（三）解释器、编译器、优化器。

1)解析器（parser）：将查询字符串转化为解析树表达式。

2)语义分析器（semantic analyzer）：将解析树表达式转换为基于块（block-based）的内部查询表达式。

3)逻辑策略生成器（logical plan generator）：将内部查询表达式转换为逻辑策略，这些策略由逻辑操做树组成。

4)优化器（optimizer）：经过逻辑策略构造多途径并以不一样方式重写。

Hive 文件格式

hive文件存储格式包括如下几类：

一、TEXTFILE

二、SEQUENCEFILE

三、RCFILE

四、ORCFILE(0.11之后出现)

其中TEXTFILE为默认格式，建表时不指定默认为这个格式，导入数据时会直接把数据文件拷贝到hdfs上不进行处理。

SEQUENCEFILE，RCFILE，ORCFILE格式的表不能直接从本地文件导入数据，数据要先导入到textfile格式的表中，而后再从表中用insert导入SequenceFile,RCFile,ORCFile表中。

（一）TEXTFILE 格式

默认格式，数据不作压缩，磁盘开销大，数据解析开销大。可结合Gzip、Bzip2使用(系统自动检查，执行查询时自动解压)，但使用这种方式，hive不会对数据进行切分，从而没法对数据进行并行操做。

示例：

create table if not exists textfile_table(
site string,
url  string,
pv   bigint,
label string)
row format delimited
fields terminated by '\t'
stored as textfile;
插入数据操做：
set hive.exec.compress.output=true;  
set mapred.output.compress=true;  
set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;  
set io.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;  
insert overwrite table textfile_table select * from textfile_table;

（二）SEQUENCEFILE 格式

SequenceFile是Hadoop API提供的一种二进制文件支持，其具备使用方便、可分割、可压缩的特色。 SequenceFile支持三种压缩选择：NONE，RECORD，BLOCK。Record压缩率低，通常建议使用BLOCK压缩。

示例：

create table if not exists seqfile_table(
site string,
url  string,
pv   bigint,
label string)
row format delimited
fields terminated by '\t'
stored as sequencefile;
插入数据操做：
set hive.exec.compress.output=true;  
set mapred.output.compress=true;  
set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;  
set io.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;  
SET mapred.output.compression.type=BLOCK;
insert overwrite table seqfile_table select * from textfile_table;

（三）RCFILE 文件格式

RCFILE是一种行列存储相结合的存储方式。首先，其将数据按行分块，保证同一个record在一个块上，避免读一个记录须要读取多个block。其次，块数据列式存储，有利于数据压缩和快速的列存取。

RCFILE文件示例：

create table if not exists rcfile_table(
site string,
url  string,
pv   bigint,
label string)
row format delimited
fields terminated by '\t'
stored as rcfile;
插入数据操做：
set hive.exec.compress.output=true;  
set mapred.output.compress=true;  
set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;  
set io.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;  
insert overwrite table rcfile_table select * from textfile_table;

（四）再看TEXTFILE、SEQUENCEFILE、RCFILE三种文件的存储状况：

[hadoop@djt01 ~]$ hadoop dfs -dus /user/hive/warehouse/*
hdfs://hadoop@djt01:19000/user/hive/warehouse/hbase_table_1    0
hdfs://hadoop@djt01:19000/user/hive/warehouse/hbase_table_2    0
hdfs://hadoop@djt01:19000/user/hive/warehouse/orcfile_table    0
hdfs://hadoop@djt01:19000/user/hive/warehouse/rcfile_table    102638073
hdfs://hadoop@djt01:19000/user/hive/warehouse/seqfile_table   112497695
hdfs://hadoop@djt01:19000/user/hive/warehouse/testfile_table  536799616
hdfs://hadoop@djt01:19000/user/hive/warehouse/textfile_table  107308067
[hadoop@djt01 ~]$ hadoop dfs -ls /user/hive/warehouse/*/
-rw-r--r--   2 hadoop supergroup   51328177 2014-03-20 00:42 /user/hive/warehouse/rcfile_table/000000_0
-rw-r--r--   2 hadoop supergroup   51309896 2014-03-20 00:43 /user/hive/warehouse/rcfile_table/000001_0
-rw-r--r--   2 hadoop supergroup   56263711 2014-03-20 01:20 /user/hive/warehouse/seqfile_table/000000_0
-rw-r--r--   2 hadoop supergroup   56233984 2014-03-20 01:21 /user/hive/warehouse/seqfile_table/000001_0
-rw-r--r--   2 hadoop supergroup  536799616 2014-03-19 23:15 /user/hive/warehouse/testfile_table/weibo.txt
-rw-r--r--   2 hadoop supergroup   53659758 2014-03-19 23:24 /user/hive/warehouse/textfile_table/000000_0.gz
-rw-r--r--   2 hadoop supergroup   53648309 2014-03-19 23:26 /user/hive/warehouse/textfile_table/000001_1.gz

总结： 相比TEXTFILE和SEQUENCEFILE，RCFILE因为列式存储方式，数据加载时性能消耗较大，可是具备较好的压缩比和查询响应。数据仓库的特色是一次写入、屡次读取，所以，总体来看，RCFILE相比其他两种格式具备较明显的优点。

以上就是博主为你们介绍的这一板块的主要内容，这都是博主本身的学习过程，但愿能给你们带来必定的指导做用，有用的还望你们点个支持，若是对你没用也望包涵，有错误烦请指出。若有期待可关注博主以第一时间获取更新哦，谢谢！