Hive基本介绍

4.1 基本介绍:

 

Hive是基于Hadoop的一个数据仓库工具,能够将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,能够将sql语句转换为MapReduce任务进行运行。其优势是学习成本低,能够经过类SQL语句快速实现简单的MapReduce统计,没必要开发专门的MapReduce应用,十分适合数据仓库的统计分析。mysql

 

  Hive是创建在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,能够用来进行数据提取转化加载(ETL),这是一种能够存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它容许熟悉 SQL 的用户查询数据。同时,这个语言也容许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 没法完成的复杂的分析工做。web

 

4.2 和关系数据库的区别

 Hive和关系数据库仍是有很大的不一样sql

  1. hive和关系数据库存储文件的系统不一样,hive使用的是hadoop的HDFS(hadoop的分布式文件系统),关系数据库则是服务器本地的文件系统;
  2. hive使用的计算模型是mapreduce,而关系数据库则是本身设计的计算模型;
  3. 关系数据库都是为实时查询的业务进行设计的,而Hive则是为海量数据作数据挖掘设计的,实时性不好;实时性的区别致使hive的应用场景和关系数据库有很大的不一样;
  4. Hive很容易扩展本身的存储能力和计算能力,这个是继承hadoop的,而关系数据库在这个方面要比数据库差不少。

 

4.3 组件

 服务端组件:数据库

  Driver组件:该组件包括Complier、Optimizer和Executor,它的做用是将咱们写的HiveQL(类SQL)语句进行解析、编译优化,生成执行计划,而后调用底层的mapreduce计算框架。编程

  Metastore组件:元数据服务组件,这个组件存储hive的元数据,hive的元数据存储在关系数据库里,hive支持的关系数据库有derby、mysql。元数据对于hive十分重要,所以hive支持把metastore服务独立出来,安装到远程的服务器集群里,从而解耦hive服务和metastore服务,保证hive运行的健壮性。服务器

  Thrift服务:thrift是facebook开发的一个软件框架,它用来进行可扩展且跨语言的服务的开发,hive集成了该服务,能让不一样的编程语言调用hive的接口。架构

  

客户端组件:app

  CLI:command line interface,命令行接口。框架

  Thrift客户端:上面的架构图里没有写上Thrift客户端,可是hive架构的许多客户端接口是创建在thrift客户端之上,包括JDBC和ODBC接口。编程语言

  WEBGUI:hive客户端提供了一种经过网页的方式访问hive所提供的服务。这个接口对应hive的hwi组件(hive web interface),使用前要启动hwi服务。

 

4.4 入门使用

 

首先建立一个普通的文本文件,里面只有一行数据,该行也只存储一个字符串

echo  ‘sharpxiajun’ > /home/hadoop/test.txt

 

而后咱们建一张hive的表:

hive –e “create table test (value string);

 

 

接下来加载数据:

Load data local inpath ‘home/hadoop/test.txt’ overwrite into table test

 

最后咱们查询下表:

hive –e ‘select * from test’;

 

4.5 其余

 

l  关系数据库里,表的加载模式是在数据加载时候强制肯定的(表的加载模式是指数据库存储数据的文件格式),若是加载数据时候发现加载的数据不符合模式,关系数据库则会拒绝加载数据,这个就叫“写时模式”,写时模式会在数据加载时候对数据模式进行检查校验的操做。Hive在加载数据时候和关系数据库不一样,hive在加载数据时候不会对数据进行检查,也不会更改被加载的数据文件,而检查数据格式的操做是在查询操做时候执行,这种模式叫“读时模式”。在实际应用中,写时模式在加载数据时候会对列进行索引,对数据进行压缩,所以加载数据的速度很慢,可是当数据加载好了,咱们去查询数据的时候,速度很快。可是当咱们的数据是非结构化,存储模式也是未知时候,关系数据操做这种场景就麻烦多了,这时候hive就会发挥它的优点。

l  关系数据库一个重要的特色是能够对某一行或某些行的数据进行更新、删除操做,hive不支持对某个具体行的操做,hive对数据的操做只支持覆盖原数据和追加数据。Hive也不支持事务和索引。更新、事务和索引都是关系数据库的特征,这些hive都不支持,也不打算支持,缘由是hive的设计是海量数据进行处理,全数据的扫描时常态,针对某些具体数据进行操做的效率是不好的,对于更新操做,hive是经过查询将原表的数据进行转化最后存储在新表里,这和传统数据库的更新操做有很大不一样。

l  Hive也能够在hadoop作实时查询上作一份本身的贡献,那就是和hbase集成,hbase能够进行快速查询,可是hbase不支持类SQL的语句,那么此时hive能够给hbase提供sql语法解析的外壳,能够用类sql语句操做hbase数据库。

相关文章
相关标签/搜索