大厂高频面试题-连续登陆问题

背景web

对于数据开发人员来讲，手写sql是比较熟悉的了，就有这样一道题，面试时须要手写sql，这就是很是经典的连续登陆问题，大厂小厂都爱问，这种题说简单也不简单，说难也不难，关键是要有思路。
面试

真题sql

hql统计连续登录的三天及以上的用户ruby

这个问题能够扩展到不少类似的问题：连续几个月充值会员、连续天数有商品卖出、连续打车、连续逾期。bash

数据提供
微信

 用户ID、登入日期 user01,2018-02-28 user01,2018-03-01 user01,2018-03-02 user01,2018-03-04 user01,2018-03-05 user01,2018-03-06 user01,2018-03-07 user02,2018-03-01 user02,2018-03-02 user02,2018-03-03 user02,2018-03-06

输出字段
app

+---------+--------+-------------+-------------+--+|   uid   | times  | start_date  |  end_date   |+---------+--------+-------------+-------------+--+

群内讨论编辑器

这道题在群里发出后，你们就展开了激烈的讨论：学习

解决方案大数据

能够看出来，有不少种不一样的解决方案。

这里就为你们提供一种比较常见的方案：

建表

create table wedw_dw.t_login_info( user_id string  COMMENT '用户ID',login_date date COMMENT '登陆日期')row format delimitedfields terminated by ',';

导数据

hdfs dfs -put /test/login.txt /data/hive/test/wedw/dw/t_login_info/

验证数据

select * from wedw_dw.t_login_info;+----------+-------------+--+| user_id  | login_date  |+----------+-------------+--+| user01   | 2018-02-28  || user01   | 2018-03-01  || user01   | 2018-03-02  || user01   | 2018-03-04  || user01   | 2018-03-05  || user01   | 2018-03-06  || user01   | 2018-03-07  || user02   | 2018-03-01  || user02   | 2018-03-02  || user02   | 2018-03-03  || user02   | 2018-03-06  |+----------+-------------+--+

解决方案

select t2.user_id         as user_id,count(1)           as times,min(t2.login_date) as start_date,max(t2.login_date) as end_datefrom(    select     t1.user_id    ,t1.login_date    ,date_sub(t1.login_date,rn) as date_diff    from    (        select         user_id        ,login_date        ,row_number() over(partition by user_id order by login_date asc) as rn         from        wedw_dw.t_login_info    ) t1) t2group by  t2.user_id,t2.date_diffhaving times >= 3;

结果

+----------+--------+-------------+-------------+--+| user_id  | times  | start_date  |  end_date   |+----------+--------+-------------+-------------+--+| user01   | 3      | 2018-02-28   | 2018-03-02  || user01    | 4      | 2018-03-04  | 2018-03-07  || user02   | 3      | 2018-03-01   | 2018-03-03  |+----------+--------+-------------+-------------+--+

思路

先把数据按照用户id分组，根据登陆日期排序

select         user_id        ,login_date        ,row_number() over(partition by user_id order by login_date asc) as rn         from        wedw_dw.t_login_info

+----------+-------------+-----+--+| user_id  | login_date  | rn  |+----------+-------------+-----+--+| user01   | 2018-02-28  | 1   || user01   | 2018-03-01  | 2   || user01   | 2018-03-02  | 3   || user01   | 2018-03-04  | 4   || user01   | 2018-03-05  | 5   || user01   | 2018-03-06  | 6   || user01   | 2018-03-07  | 7   || user02   | 2018-03-01  | 1   || user02   | 2018-03-02  | 2   || user02   | 2018-03-03  | 3   || user02   | 2018-03-06  | 4   |+----------+-------------+-----+--+

2.用登陆日期减去排序数字rn，获得的差值日期若是是相等的，则说明这两天确定是连续的

select     t1.user_id    ,t1.login_date    ,date_sub(t1.login_date,rn) as date_diff    from    (        select         user_id        ,login_date        ,row_number() over(partition by user_id order by login_date asc) as rn         from        wedw_dw.t_login_info    ) t1    ;

+----------+-------------+-------------+--+| user_id  | login_date  |  date_diff  |+----------+-------------+-------------+--+| user01   | 2018-02-28  | 2018-02-27  || user01   | 2018-03-01  | 2018-02-27  || user01   | 2018-03-02  | 2018-02-27  || user01   | 2018-03-04  | 2018-02-28  || user01   | 2018-03-05  | 2018-02-28  || user01   | 2018-03-06  | 2018-02-28  || user01   | 2018-03-07  | 2018-02-28  || user02   | 2018-03-01  | 2018-02-28  || user02   | 2018-03-02  | 2018-02-28  || user02   | 2018-03-03  | 2018-02-28  || user02   | 2018-03-06  | 2018-03-02  |+----------+-------------+-------------+--+

3.根据user_id和日期差date_diff 分组，最小登陆日期即为这次连续登陆的开始日期start_date，最大登陆日期即为结束日期end_date，登陆次数即为分组后的count(1)

select t2.user_id         as user_id,count(1)           as times,min(t2.login_date) as start_date,max(t2.login_date) as end_datefrom(    select     t1.user_id    ,t1.login_date    ,date_sub(t1.login_date,rn) as date_diff    from    (        select         user_id        ,login_date        ,row_number() over(partition by user_id order by login_date asc) as rn         from        wedw_dw.t_login_info    ) t1) t2group by  t2.user_id,t2.date_diffhaving times >= 3;

+----------+--------+-------------+-------------+--+| user_id  | times  | start_date  |  end_date   |+----------+--------+-------------+-------------+--+| user01   | 3      | 2018-02-28   | 2018-03-02  || user01    | 4      | 2018-03-04  | 2018-03-07  || user02   | 3      | 2018-03-01   | 2018-03-03  |+----------+--------+-------------+-------------+--+