DB2去重的几种方法

有两个意义上的重复记录,一是彻底重复的记录,也即全部字段均重复的记录,二是部分关键字段重复的记录,好比Name字段重复,而其余字段不必定重复或都重复能够忽略。函数

例以下表:table1spa

用户办理套餐的记录表,可看出,user_id=33333有两条彻底重复的记录,user_id=11111的tc_name和open_date不同3d

一、对于彻底重复的记录,直接使用distinct 便可blog

  select it

          distinct user_id,name,tc_name,open_dateio

  from  table

          table1date

可获得以下结果:select

能够看出,彻底重复的记录已经只剩下惟一的一条,可是部分重复的记录该方法无效方法

 

二、对于彻底重复的记录,还可使用group by

select
        user_id,name,tc_name,open_date
from
        table1
group by
        user_id,name,tc_name,open_date

结果和上图一致,即:

该方法也只对彻底重复的记录有效

 

三、row_number()over() 分等级以后限定 row=1

select
        user_id,name,tc_name,open_date
from
(
    select
          user_id,name,tc_name,open_date
         ,row_number()over(partition by user_id order by open_date desc) as row
   from
         table1
)
where row=1

该方法获得的结果以下:

 

该方法不只除掉了彻底重复的记录,并且还除掉了不彻底重复的记录,对open_date进行排等级,按照开通日期的倒序排列,且取出第一条记录,即开通时间最近的记录

 

 

四、max等聚合函数

select
       user_id,name,max(tc_name),max(open_date)
from
       table1
group by
        user_id,name

该方法得出的结果以下,对彻底重复记录和部分重复记录都有效,注:部分重复的记录要对全部重复字段使用max或min等才有效

相关文章
相关标签/搜索