FusionInsight大数据开发---Hive应用开发

时间 2020-06-09

标签 fusioninsight 数据开发 hive 应用栏目 Hadoop 繁體版

原文原文链接

Hive应用开发

1. 了解Hive的基本架构原理
守护进程：python

Hive的应用场景web

2. 掌握JDBC客户端开发流程
JDBC开发-参数初始化数据库

JDBC开发-拼接URL安全

JDBC开发-执行SQL架构

JDBC开发-SQL实现spa

规则建议：
开发调式：在开发程序时，可经过使用Hive的客户端Beeline先进行调试，检验语句与结果正确性，再部署基于JDBC等的应用程序。
获取数据库链接：Hive的数据库URL再拼接时已经通过安全认证，因此Hive数据库的用户名和密码为null或空。调试

JDBC超时限制:Hive提供的JDBC实现的超时限制，默认是5分钟。接口

执行HQL：再JAVA　JDBC应用开发中，拼装HQL语句，注意HQL语句不能以“;“结尾。进程

HQL语法规则之判空：判断字段为空使用：”is null“，判断不为空，即有值，使用："is not null"ip

UDF的管理：建议由管理员建立永久UDF，避免每次使用时都去add jar，和从新定义UDF。

UDF的注解：Hive的UDF会有一些默认属性。@UDFType(deterministic = false)

使用分区表：当数据量较大时，且常常须要按天统计时，建议使用分区表，按天存放数据。

动态分区表：为了不插入动态分区数据过程当中，产生过多的小文件，在执行插入时，在分区字段上加distribut by。

文件格式选择：Hive支持多种存储格式，好比TextFile,RCFile,ORC,Sequence,Parquet.