HIVE从入门到精通

时间 2019-11-06

标签 hive 入门精通栏目 Hadoop 繁體版

原文原文链接

1背景java

应用于工业的商务智能收集分析所需的数据集正在大量增加，使得传统的数据仓库解决方案变得过于昂贵。Hadoop是一个流行的开源map-reduce实现，用于像yahoo, Facebook一类的公司。来存储和处理商用硬件上的大范围数据集。然而map-reduce程序模型仍是处于很低级别，即须要开发者来书写客户程序，这些程序每每难于维护与重用。正则表达式

用hbase作数据库，但因为hbase没有类sql查询方式,因此操做和计算数据很是不方便，因而整合hive，让hive支撑在hbase数据库层面的hql查询。hive也叫作数据仓库。sql

2定义数据库

Hive是基于Hadoop(HDFS, MapReduce)的一个数据仓库工具，能够将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。apache

本质是将SQL转换为MapReduce程序。工具

3体系结构oop

Hive自己创建在Hadoop的体系结构上，能够将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，能够将sql语句转换为MapReduce任务进行。并按照该计划生成MapReduce任务后交给Hadoop集群处理，Hive的体系结构如图1-1所示：网站

图1-1 Hive的体系结构url

4Hive的数据存储orm

Hive的存储是创建在Hadoop文件系统之上的。Hive自己没有专门的数据存储格式，也不能为数据创建索引，用户能够自由地组织Hive中的表，只须要在建立表的时候告诉Hive数据中的列分隔符和行分隔符就能够解析数据了。

Hive中主要包含四类数据模型：表（Table）、外部表（External Table）、分区（Partition）和桶（Bucket）。

Hive中的表和数据库中的表在概念上是相似的，每一个表在Hive中都有一个对应的存储目录。例如一个表pokes在HDFS中的路径为/warehouse/pokes，其中/warehouse是hive-site.xml配置文件中由${hive.metastore.warehouse.dir}指定的数据仓库的目录。

Hive中每一个分区都对应数据库中相应分区列的一个索引，可是分区的组织方式和传统关系型数据库不一样。在Hive中，表中的一个分区对应表下的一个目录，全部分区的数据都存储在对应的目录中。例如，图1-2中htable表中包含year、month和day三个分区，分别对应三个目录：对于year=2012，month=01，day=01的HDFS子目录为：/warehouse/htable/year=2012/ month=01/ day=01；对于year=2012，month=02，day=14的HDFS子目录为：/warehouse/htable/year=2012/ month=02/ day=14;

桶对指定列进行哈希计算时，根据哈希值切分数据，每一个桶对应一个文件。例如，将图1-2中htable表中属性列Uniqueid列分散到32个桶中，首先要对Uniqueid进行hash计算，对应哈希值为0的桶写入HDFS的目录为：/warehouse/htable/year=2012/ month=01/ day=01/part-0；对应哈希值为1的桶写入HDFS的目录为：/warehouse/htable/year=2012/ month=01/ day=01/part-1。图1-2 Hive数据存储

1、 hive功能简介

功能简介PARTITIONED BY关键字为表格分区 4.经过CLUSTERED BY关键字将PATITION划分红BUCKET 5.定义每条记录的存储格式，包括：字段之间如何分隔；集合字段中的元素如何分隔； Map的key值如何分隔 6.指定存储格式为Hadoop的SequenceFile

(2)查看表结构 DESCRIBE tablename; (3)修改表格为表格添加字段 ALTER TABLE pokes ADD COLUMNS (new_col INT);

(4)删除表格 DROP TABLE tablename;

DML (1)、导入数据导入操做，只是将文件复制到对应的表格目录中，并不会对文档的schema进行校验从HDFS导入 LOAD DATA INPATH 'data.txt' INTO TABLE page_view PARTITION(date='2008-06-08', country='US') 从本地导入，并覆盖原数据 LOAD DATA LOCAL INPATH 'data.txt' OVERWRITE INTO TABLE page_view PARTITION(date='2008-06-08', country='US')

Hive体系结构 hiveserver hiveserver启动方式：hive --service hiveserver HiveServer支持多种链接方式：Thrift、JDBC、ODBC

metastore metastore用来存储hive的元数据信息(表格、数据库定义等)，默认状况下是和hive绑定的，部署在同一个JVM中，将元数据存储到Derby中这种方式很差的一点是没有办法为一个Hive开启多个实例(Derby在多个服务实例之间没有办法共享)

Hive提供了加强配置，可将数据库替换成MySql等关系数据库，将存储数据独立出来在多个服务实例之间共享

甚至还能够将metastore Service也独立出来，部署到其余JVM中去，在经过远程调用的方式去访问

metastore的经常使用配置： hive.metastore.warehouse.dir 存储表格数据的目录 hive.metastore.local 使用内嵌的metastore服务(默认为true) hive.metastore.uris 若是不使用内嵌的metastore服务，需指定远端服务的uri javax.jdo.option.ConnectionURL 所使用数据库的url javax.jdo.option.ConnectionDriverName 数据库驱动类 javax.jdo.option.ConnectionUserName 链接用户名 javax.jdo.option.ConnectionPassword 链接密码

hive数据存储格式

定义表格时如不指定Row Format和Stored As从句，hive采用以下默认配置： CREATE TABLE ... ROW FORMAT DELIMITED FIELDS TERMINATED BY '\001' COLLECTION ITEMS TERMINATED BY '\002' MAP KEYS TERMINATED BY '\003' LINES TERMINATED BY '\n' STORED AS TEXTFILE; 默认为纯文本文件TEXTFILE

若是存储的数据不是纯文本，而包含二进制的数据，可用SequenceFile和RCFile RCFile：基于列存储，相似于HBase，查询Table时，若是要检索的数据不是整条记录，而是具体的column，RCFile较比SequenceFile高效一些，只需遍历指定column对应的数据文件便可使用RCFile，建立Table时使用以下语法： CREATE TABLE ... ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.columnar.ColumnarSerDe' STORED AS RCFILE;

除此以外，Hive还可经过正则表达式的方式指定输入数据源的格式： CREATE TABLE stations (usaf STRING, wban STRING, name STRING) ROW FORMAT SERDE 'org.apache.hadoop.hive.contrib.serde2.RegexSerDe' WITH SERDEPROPERTIES ( "input.regex" = "(\d{6}) (\d{5}) (.{29}) .*" ); 参考资料： http://www.alidata.org/archives/595 https://cwiki.apache.org/confluence/display/Hive/Home hadoop权威指南

了解更多详情请登陆超人学院网站http://www.crxy.cn或者每周日晚八点半相约免费公开课 https://ke.qq.com/course/53102#term_id=100145289 具体详情请联系QQ2435014406

1. HIVE从入门到精通
2. Hbase从入门到精通
3. Linux从入门到精通
4. docker从入门到精通
5. CUDA从入门到精通
6. RBAC从入门到精通
7. SAP从入门到精通
8. Fiddler从入门到精通
9. GOOGLE从入门到精通
10. Python从入门到精通
更多相关文章...
• Memcached入门教程 - NoSQL教程
• Neo4j数据库入门教程 - NoSQL教程
• YAML 入门教程
• Java Agent入门实战（一）-Instrumentation介绍与使用