1、什么是Hivemysql
Hive是创建在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,能够用来进行数据提取转化加载(ETL),这是一种能够存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它容许熟悉 SQL 的用户查询数据。同时,这个语言也容许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 没法完成的复杂的分析工做。sql
Hive 没有专门的数据格式。 Hive 能够很好的工做在 Thrift 之上,控制分隔符,也容许用户指定数据格式。数据库
2、Hive的应用场景apache
.编译器将一个Hive QL转换操做符
.操做符是Hive的最小的处理单元
.每一个操做符表明HDFS的一个操做或者一道MapReduce做业浏览器
操做符
|
描述
|
TableScanOperator
|
扫描hive表数据
|
ReduceSinkOperator
|
建立将发送到Reducer端的<Key,Value>对
|
JoinOperator
|
Join两份数据
|
SelectOperator
|
选择输出列
|
FileSinkOperator
|
创建结果数据,输出至文件
|
FilterOperator
|
过滤输入数据
|
GroupByOperator
|
GroupBy语句
|
MapJoinOperator
|
/*+mapjoin(t) */
|
LimitOperator
|
Limit语句
|
UnionOperator
|
Union语句
|