一、Hive的简介、原理及安装

时间 2019-11-06

标签 hive 简介原理安装栏目 Hadoop 繁體版

原文原文链接

1、简介

Hive是一个SQL解析引擎，他能够将sql转化为 TEZ、mapreduce、spark 等计算框架而且提交到yarn等资源调度平台上进行计算。它借助于MySQL数据库对hdfs上的文件进行表的映射，从而知道表的文件格式、分区字段、字段类型等等信息。java

切换引擎的方式
set hive.execution.engine=tez
set hive.execution.engine=mr

2、主要用途

用来作离线数据分析，比直接用mapreduce开发效率更高，由于只须要写SQL语句，自定翻译成MapReduce。mysql

3、原理

一、Hive中有一个引擎，用于解析SQL语句而且翻译成MapReduce程序。而sql语句能够来源于：web、cli、jdbc/odbc等。hive的元数据存储在一个数据库中（mysql、oracle等）其实就是一些映射关系，好比须要分析的数据在hdfs的哪里，按什么分段，有哪些字段等等。真正的分析数据在HDFS上。web
二、使用的必要条件：用户必须指定：读取文件的方式（Hive 中默认有三个文件格式 TextFile，SequenceFile 以及 RCFile）、行分隔符、列分隔符。sql

4、安装

HIVE是一个hdfs的数据仓库工具，不是分布式的，直接解压就可以使用。shell

一、解压hive数据库
二、解决一下版本不兼容问题：替换 /root/apps/hadoop/share/hadoop/yarn/lib中的老版本jline 为hive的lib中的jline-2.12.jar服务器

三、在安装目录下的conf中vi hive-site.xml ====>为了指向mysql数据库来存储元数据。oracle

<configuration>
  <property>
      <name>javax.jdo.option.ConnectionURL</name>
      <value>jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=true</value>
      <description>JDBC connect string for a JDBC metastore</description>
  </property>

  <property>
      <name>javax.jdo.option.ConnectionDriverName</name>
      <value>com.mysql.jdbc.Driver</value>
      <description>Driver class name for a JDBC metastore</description>
  </property>

  <property>
      <name>javax.jdo.option.ConnectionUserName</name>
      <value>root</value>
      <description>username to use against metastore database</description>
  </property>

  <property>
      <name>javax.jdo.option.ConnectionPassword</name>
      <value>root</value>
      <description>password to use against metastore database</description>
  </property>
  </configuration>

四、启动交互式shell模式app

hive/bin/hive    就能够链接上了。

五、若是想做为一个服务器，给其余的客户端链接，则须要启动：框架

bin/hiveserver2  

  而后再其余的机器用
  hive/bin/beeline  回车	   
  beeline> !connect jdbc:hive2//hadoop1:10000