5-Hadoop之旅-Hive(一)

Hive能作什么?html

  • Hive是基于Hadoop的一个数据仓库工具,能够将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,能够将sql语句转换为MapReduce任务进行运行。其优势是学习成本低,能够经过类SQL语句快速实现简单的MapReduce统计,没必要开发专门的MapReduce应用,十分适合数据仓库的统计分析。
  • Hive是创建在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,能够用来进行数据提取转化加载(ETL http://www.javashuo.com/article/p-uuxsovvc-cd.html),这是一种能够存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL(Hive SQL),它容许熟悉 SQL 的用户查询数据。同时,这个语言也容许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 没法完成的复杂的分析工做(HQL函数库)。

 

为何要使用Hive?java

  • 操做接口采用类SQL语法,提供快速开发的能力
  • 避免了去写MapReduce,减小开发人员的学习成本
  • 扩展功能很方便

 

Hive与传统数据库对比mysql

  Hive RDBMS
查询语言 HQL SQL
数据存储 HDFS Raw Device or Local FS
执行 MapReduce Excutor
执行延迟
处理数据规模
数据类型 所有数据(历史和在线---分析) 在线数据
冗余程度     高冗余 低冗余(经过范式)
... ... ...
... ...

...sql

 

Hive的架构数据库

  • 用户接口主要有三个:CLI,Client 和WUI。其中最经常使用的是CLI,Cli启动的时候,会同时启动一个Hive副本。Client是Hive的客户端,用户链接至Hive Server。在启动Client模式的时候,须要指出Hive Server所在节点,而且在该节点启动Hive Server。WUI是经过浏览器访问Hive。
  • Hive将元数据存储在数据库中,如mysql、derby。Hive中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。
  • 解释器、编译器、优化器完成HQL查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在HDFS中,并在随后有MapReduce调用执行。
  • Hive的数据存储在HDFS中,大部分的查询、计算由MapReduce完成(包含*的查询,好比select * from tbl不会生成MapRedcue任务)。
  • Thriff (参考http://www.ibm.com/developerworks/cn/java/j-lo-apachethrift/

 

Hive相关概念apache

  • Operator(最小的处理单元):每一个操做符表明HDFS的一个操做或者一道MapReduce做业    
  • Operator都是Hive定义的一个处理过程
  • Operator定义(树状结构):
  • protectedList<Operator<?extendsSerializable>>childOperators;
    protectedList<Operator<?extendsSerializable>>parentOperators;
    protectedbooleandone;// 初始化值为false

     

  • ANTLR词法语法分析工具解析HQL

 

 

 

 

 

 

 

 

 

 

 

 

Hive的三种模式浏览器

  • Local模式:该模式链接到一个In-memory的数据库Derby,通常用于Unit Test

        

  • Hive单用户模式:经过网络链接到一个数据库中,是最常常使用到的模式
  • Hive多用户模式:用于非Java客户端访问元数据库,在服务器端启动MetaStoreServer,客户端利用Thrift协议经过MetaStoreServer访问元数据库
1.本地 derby

这种方式是最简单的存储方式,只须要在 hive-site.xml 作以下配置即可

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>javax.jdo.option.ConnectionURL</name> <value>jdbc:derby:;databaseName=metastore_db;create=true</value> </property>
<property>
<name>javax.jdo.option.ConnectionDriverName</name>
<value>org.apache.derby.jdbc.EmbeddedDriver</value>
</property>
<property>
<name>hive.metastore.local</name>
<value>true</value>
</property>
<property>
<name>hive.metastore.warehouse.dir</name>
<value>/user/hive/warehouse</value>
</property>
</configuration>
 
注:使用 derby 存储方式时,运行 hive 会在当前目录生成一个 derby 文件和一个 metastore_db
目录。这种存储方式的弊端是在同一个目录下同时只能有一个 hive 客户端能使用数据库,不然会提示以下错误

[html] view plaincopyprint? hive> show tables;
FAILED: Error in metadata: javax.jdo.JDOFatalDataStoreException: Failed to start database 'metast ore_db', see the next exception for details.
NestedThrowables:
java.sql.SQLException: Failed to start database 'metastore_db', see the next exception for details.
FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask hive> show tables;
FAILED: Error in metadata: javax.jdo.JDOFatalDataStoreException: Failed to start database 'metastore_db', see the next exception for details.
NestedThrowables:
java.sql.SQLException: Failed to start database 'metastore_db', see the next exception for details.
FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask

2.本地 mysql

这种存储方式须要在本地运行一个 mysql 服务器,并做以下配置(须要将 mysql 的驱动 jar 包拷贝到$HIVE_HOME/lib 目录下)。
# /opt/hive-1.2.1/conf/hive-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>hive.metastore.warehouse.dir</name> <value>/user/hive_remote/warehouse</value> </property>
<property>
<name>hive.metastore.local</name>
<value>true</value>
</property>
<property>
<name>javax.jdo.option.ConnectionURL</name> <value>jdbc:mysql://localhost/hive_remote?createDatabaseIfNotExist=true</value> </property>
<property>
<name>javax.jdo.option.ConnectionDriverName</name>
<value>com.mysql.jdbc.Driver</value>
</property>
<property>
<name>javax.jdo.option.ConnectionUserName</name>
<value>hive</value>
</property>
<property>
<name>javax.jdo.option.ConnectionPassword</name>
<value>password</value>
</property>
</configuration>

附:

安装 mysql
Yum install mysql-server -y
启动服务
service mysqld start
mysql
修改 mysql 权限:
GRANT ALL PRIVILEGES ON *.* TO 'root'@'%' IDENTIFIED BY '123' WITH GRANT OPTION; flush privileges;
delete from user where Host != '%';

删除多余会对权限形成影响的数据刷新权限
[ERROR] Terminal initialization failed; falling back to unsupported java.lang.IncompatibleClassChangeError: Found class jline.Terminal, but interface was expected
at jline.TerminalFactory.create(TerminalFactory.java:101)

错误的缘由: Hadoop jline 版本和 hive 的 jline 不一致

3.远端 mysql
3.1.remote 一体

这种存储方式须要在远端服务器运行一个 mysql 服务器,而且须要在 Hive 服务器启动 meta
服务。
这里用 mysql 的测试服务器,ip 位 192.168.1.214,新建 hive_remote 数据库,字符集位 latine1 <?xml version="1.0"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>hive.metastore.warehouse.dir</name>
<value>/user/hive/warehouse</value>
</property>
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://192.168.57.6:3306/hive?createDatabaseIfNotExist=true</value>
</property>
<property>
<name>javax.jdo.option.ConnectionDriverName</name>
<value>com.mysql.jdbc.Driver</value>
</property>
<property>
<name>javax.jdo.option.ConnectionUserName</name>
<value>hive</value>
</property>
<property>
<name>javax.jdo.option.ConnectionPassword</name>
<value>password</value>
</property>
<property>
<name>hive.metastore.local</name>
<value>false</value>
</property>
<property>
<name>hive.metastore.uris</name>
<value>thrift://192.168.1.188:9083</value>
</property>
</configuration>

注:这里把 hive 的服务端和客户端都放在同一台服务器上了。服务端和客户端能够拆开,

3.2.Remote 分开

将 hive-site.xml 配置文件拆为以下两部分

-服务端配置文件 启动:hive --service metastore

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>hive.metastore.warehouse.dir</name>
<value>/user/hive/warehouse</value>
</property>
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://192.168.57.6:3306/hive?createDatabaseIfNotExist=true</value>
</property>
<property>
<name>javax.jdo.option.ConnectionDriverName</name>
<value>com.mysql.jdbc.Driver</value>
</property>
<property>
<name>javax.jdo.option.ConnectionUserName</name>
<value>root</value>
</property>
<property>
<name>javax.jdo.option.ConnectionPassword</name>
<value>123456</value>
</property>
</configuration>

-客户端配置文件 启动:hive

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>hive.metastore.warehouse.dir</name>
<value>/user/hive/warehouse</value>
</property>
<property>
<name>hive.metastore.local</name>
<value>false</value>
<property>
<name>hive.metastore.uris</name>
<value>thrift://slave2:9083</value>
</property>
</configuration>
相关文章
相关标签/搜索