1.1- 1.2 hive入门

时间 2019-11-08

标签 1.1 1.2 hive 入门栏目 Hadoop 繁體版

原文原文链接

1、hive是什么数据库

由Facebook开源用于解决海量结构化日志的数据统计；

Hive是基于Hadoop的一个数据仓库工具，能够将结构化的数据文件映射成一张表，
并提供类SQL查询功能；

构建在Hadoop之上的数据仓库：
    使用HQL做为查询接口；
    使用HDFS存储；
    使用MapReduce计算；

本质是：将HQL转化成MapReduce程序

灵活性和扩展性比较好：支持UDF，自定义存储格式等；

适合离线数据处理；

2、为何用hive？服务器

直接使用 MapReduce 所面临的问题：

　　一、人员学习成本过高

　　二、项目周期要求过短

　　三、MapReduce实现复杂查询逻辑开发难度太大

为何要使用 Hive：

　　一、更友好的接口：操做接口采用类 SQL 的语法，提供快速开发的能力

　　二、更低的学习成本：避免了写 MapReduce，减小开发人员的学习成本

　　三、更好的扩展性：可自由扩展集群规模而无需重启服务，还支持用户自定义函数

3、hive特色架构

优势：

　　一、可扩展性,横向扩展，Hive 能够自由的扩展集群的规模，通常状况下不须要重启服务 横向扩展：经过分担压力的方式扩展集群的规模 纵向扩展：一台服务器cpu i7-6700k 4核心8线程，8核心16线程，内存64G => 128G

　　二、延展性，Hive 支持自定义函数，用户能够根据本身的需求来实现本身的函数

　　三、良好的容错性，能够保障即便有节点出现问题，SQL 语句仍可完成执行

缺点：

　　一、Hive 不支持记录级别的增删改操做，可是用户能够经过查询生成新表或者将查询结 果导入到文件中（当前选择的 hive-2.3.2 的版本支持记录级别的插入操做）

　　二、Hive 的查询延时很严重，由于 MapReduce Job 的启动过程消耗很长时间，因此不能 用在交互查询系统中。

　　三、Hive 不支持事务（由于不没有增删改，因此主要用来作 OLAP（联机分析处理），而 不是 OLTP（联机事务处理），这就是数据处理的两大级别）。

4、hive与RDBMS对比分布式

Hive 只适合用来作海量离线数据统计分析，也就是数据仓库。函数

5、hive架构工具

描述：oop

#
用户接口/界面                     
Hive是一个数据仓库基础工具软件，能够建立用户和HDFS之间互动。
用户界面，Hive支持是Hive的Web UI，Hive命令行，HiveHD洞察（在Windows服务器）。
          
#
元存储              
Hive选择各自的数据库服务器，用以储存表，数据库，列模式或元数据表，它们的数据类型和HDFS映射。
元数据包括：表名、表所属的数据库（默认是default）、表的拥有者、列分区字段、表的类型（是不是外部表）、表的数据所在目录等；
    
默认存储在自带的derby数据库中，推荐使用采用MySQL存储Metastore；    
        
#
HiveQL处理引擎              
HiveQL相似于SQL的查询上Metastore模式信息。这是传统的方式进行MapReduce程序的替代品之一。
相反，使用Java编写的MapReduce程序，能够编写为MapReduce工做，并处理它的查询。
    

#
执行引擎              
HiveQL处理引擎和MapReduce的结合部分是由Hive执行引擎。执行引擎处理查询并产生结果和MapReduce的结果同样。
它采用MapReduce方法。
        

#
HDFS 或 HBASE              
Hadoop的分布式文件系统或者HBASE数据存储技术是用于将数据存储到文件系统。


#
驱动器：Driver
包含：解析器、编译器、优化器、执行器；
  解析器：将SQL字符串转换成抽象语法树AST，这一步通常都用第三方工具库完成，好比antlr；
         对AST进行语法分析，好比表是否存在、字段是否存在、SQL语义是否有误（好比select中被断定为聚合的字段在group by中是否有出现）；
  编译器：将AST编译生成逻辑执行计划；
  优化器：对逻辑执行计划进行优化；
  执行器：把逻辑执行计划转换成能够运行的物理计划。对于Hive来讲，就是MR/TEZ/Spark；

1. [CS224n] week1-assginment1-1.1-1.2
2. FontAwesome-入门-1.1
3. 1.1 初识 Hive
4. Pytorch入门 1.2 Linear_regression
5. 1.2 C++快速入门
6. 一、Java基础1.1~1.2
7. 1.1-1.3 HBase入门
8. HIve入门
9. Hive快速入门
10. Hive入门
更多相关文章...
• Memcached入门教程 - NoSQL教程
• Neo4j数据库入门教程 - NoSQL教程
• YAML 入门教程
• Java Agent入门实战（一）-Instrumentation介绍与使用