语法:sql
ROW_NUMBER() OVER(PARTITION BY COLUMN ORDER BY COLUMN)
简单的说row_number()从1开始,为每一条分组记录返回一个数字,这里的ROW_NUMBER() OVER (ORDER BY xlh DESC) 是先把xlh列降序,再为降序之后的每条xlh记录返回一个序号。apache
以上是row_number() over()的基本用法,下面本人就给他赋予一个新的用法。bash
当你要往一个表中导入数据时,须要一个自增的id字段,那么就须要使用如下两个函数搭配产生:row_number() over()函数
若是什么参数都不加,直接使用这两个字段,那么直接产生的是从1开始增长的数字。oop
例如:spa
insert into table User_Attribute select row_number() over() as id,customid from tbl_custom;
若是单独使用函数row_number(),则会报错,错误内容以下:.net
FAILED: SemanticException org.apache.hadoop.hive.ql.metadata.HiveException: Only COMPLETE mode supported for row_number function
那么上面的自增完成了,确定会有指定一个基数进行自增的需求,这个时候怎么办呢?code
本人曾经试着在两个方法的括号里填写参数,实在是作不到,那么本人就从另外一个角度进行思考,想出了以下格式的方式:blog
(row_number() over())+number
number即为你指定的基数,上面的语句就能够写成以下:hadoop
insert into table User_Attribute select (row_number() over())+1000 as id,customid from tbl_custom;
那么此时插入Hive表中的数据就是从1000开始增长的ID。插入的下一条的id就为1001,依次递增。
上一篇:Hive应用:数据外置内部表
下一篇:Hive应用:设置字段默认值