1. 了解Hive的基本架构原理
守护进程:python
Hive的应用场景web
2. 掌握JDBC客户端开发流程
JDBC开发-参数初始化数据库
JDBC开发-拼接URL安全
JDBC开发-执行SQL架构
JDBC开发-SQL实现spa
规则建议:
开发调式:在开发程序时,可经过使用Hive的客户端Beeline先进行调试,检验语句与结果正确性,再部署基于JDBC等的应用程序。
获取数据库链接:Hive的数据库URL再拼接时已经通过安全认证,因此Hive数据库的用户名和密码为null或空 。调试
JDBC超时限制:Hive提供的JDBC实现的超时限制,默认是5分钟。接口
执行HQL:再JAVA JDBC应用开发中,拼装HQL语句,注意HQL语句不能以“;“结尾。进程
HQL语法规则之判空:判断字段为空使用:”is null“,判断不为空,即有值,使用:"is not null"ip
UDF的管理:建议由管理员建立永久UDF,避免每次使用时都去add jar,和从新定义UDF。
UDF的注解:Hive的UDF会有一些默认属性。@UDFType(deterministic = false)
使用分区表:当数据量较大时,且常常须要按天统计时,建议使用分区表,按天存放数据。
动态分区表:为了不插入动态分区数据过程当中,产生过多的小文件,在执行插入时,在分区字段上加distribut by。
文件格式选择:Hive支持多种存储格式,好比TextFile,RCFile,ORC,Sequence,Parquet.