只有光头才能变强。html
文本已收录至个人GitHub仓库,欢迎Star:https://github.com/ZhongFuCheng3y/3yjava
最近在公司作了几张报表,还记得刚开始要作报表的时候都快把SQL给忘光了(当时在广州休假了1个月多,在实习期间也没咋写过SQL),回到公司的第一个需求就是作报表。git
因而我很不要脸地跟带个人学长说:“SQL我好像忘光了,group 分组查询好像都忘得差很少了,我得复习一下”。github
这篇文章来记录一下我曾经忘掉的group查询、join查询等一些比较实用/经常使用的SQL正则表达式
group
查询就是分组查询,为何要分组查询?由于咱们想按某个维度进行统计。下面来看个图:sql
好比说,我想知道:天天Java3y这个公众号的点击量是多少。
按咱们人工而言,思路很简单:把相同的天数以及公众号名称为Java3y的数据找出来,再将每一个点击量相加,就得出告终果了。json
用上SQL咱们可能会这样写:数组
select name,time,sum(pv) as pv from xxx_table where name = 'Java3y' group by name,time
记得有一天,有个群友在群上问了一个问题:函数
其实他的需求很简单:检索出数据分组后时间最高的记录。但他是这样干的:工具
order by
order by
后的记录进行分组示例图:
有的工具能够支持这种的写法:
select * from xxx_table group by name
这种写法没有被禁止,并能够得出结果,好比获得的结果是:
Java4y 20 7月15号 Java3y 30 7月15号
这种写法实际上是不合理的,要知道的是:使用group by
分组统计以后,咱们的select 后面只能跟着group by 的字段,或者是聚合函数。
由于,咱们对数据进行了分组查询,数据的分布状况,咱们是不关心的。
记住:先分组,后统计(先把数据归类后,再对相同的数据进行统计)
去重是咱们常常会遇到的问题,打个比方说,因为各类缘由(不论是业务上仍是说是脏数据),如今我有两条重复的数据(除了ID,其他的字段都是相同的):
我这边只但愿留下某一条记录做为查询结果就行了,咱们能够写下如下的SQL:
select * from user where id in( select min(id) from user where name = 'Java3y' and pv = 20 and time='7-25' group by name,pv,time; )
上面这条SQL是很是很是实用的,除了我说的去重之外,其实咱们能够再”思考“一下:
group by
分组统计以后,咱们的select 后面只能跟着group by 的字段,或者是聚合函数。group by
了之后,还想要查询结果中包含group by
以外的字段(通常状况下,咱们都不可能将group by 涵盖全部的字段),咱们就能够上面那样,将查询后的结果做为子查询,放在外部查询的where 子句后,这样外部查询是能够select 出其余字段的。(SQL写得比较少的朋友可能没什么感触啊,但我但愿上面那种写法你们可以记住,之后必定会遇到相似的状况的)
join查询不知道你们在刚学的时候是怎么理解的,反正我当初好像就挺迷迷糊糊的。我以为join查询能够简单理解成这样:我想要的查询结果,一张表搞不掂,那我就join另外一张表
好比说,如今我有两张的表:
如今我想知道在7月25号时:每一个公众号的点击量、公众号名称、号主名称、公众号的建立日期
那join其实就是把两张表合起来的一个操做:
两张表合并起来之后咱们就会发现,这张“大表”就含有这两张表的全部字段啦,那我想要什么都有了!
值得注意的是:在join的时候,会产生笛卡尔积(至于什么是笛卡尔积我这里就不说了,反正咱们要记住的是join表时必定要写关联条件去除笛卡尔积)
另外,left join
和right join
也是咱们常常用到,若是咱们单纯写join
关键字,那会被当成是inner join
。下面我简单解释一下:
inner join
的话,只有符合关联条件的数据才会存在最大表中left join
的话,即使关联条件不符合,左边表的数据必定会存在大表中right join
的话,即使关联条件不符合,右边表的数据必定会存在大表中看下面的图:
此时咱们的两张表关联的条件是“公众号” :若是是inner join
,那么最后咱们的表只有两条记录。若是是left join
,那么最后咱们的表有三条数据。若是是right join
,那么咱们最后的表只有两条数据
SQL中的case when then else end用法其实跟咱们程序语言中的if-else
非常相似,在写SQL的时候也经常会用到。
我用得比较多的语法以下:
CASE WHEN sex = '1' THEN '男' WHEN sex = '2' THEN '女' ELSE '其余' END
在when后面能够跟多个表达式,好比说:
CASE WHEN sex = '1' and name ='Java3y' THEN '男' WHEN sex = '2' and name ='Java4y' THEN '女' ELSE '其余' END
若是要为case when
表达式取别名,在end
关键字后边直接加就行了
更多用法详情参考:
我这边会有这种状况:将json数据存到MySQL上。我去网上搜了一下以及问了同事,为何要将json存到MySQL的字段上时,他们的答复都差很少:
参考资料:
我这边作报表通常来hive或presto上搞的,因此解析json的也是在那上面。
hive解析json函数:
get_json_object(param1,'$.param2') -- 若是是数组 get_json_object(xjson,'$.[0].param2')
presto 对json的处理函数:
-- 数组 (去除第index个json) json_array_get(xjson,index) -- 单个jsoin对象 json_extract(xjson,'$.param2')
参考资料:
昨天/近7天/本月按照这种指标来查询也是很是常见的:
昨天 SELECT * FROM 表名 WHERE TO_DAYS( NOW( ) ) - TO_DAYS( 时间字段名) <= 1 7天 SELECT * FROM 表名 where DATE_SUB(CURDATE(), INTERVAL 7 DAY) <= date(时间字段名) 近30天 SELECT * FROM 表名 where DATE_SUB(CURDATE(), INTERVAL 30 DAY) <= date(时间字段名) 本月 SELECT * FROM 表名 WHERE DATE_FORMAT( 时间字段名, '%Y%m' ) = DATE_FORMAT( CURDATE( ) , '%Y%m' ) 上一月 SELECT * FROM 表名 WHERE PERIOD_DIFF( date_format( now( ) , '%Y%m' ) , date_format( 时间字段名, '%Y%m' ) ) =1
在presto中使用时间格式,须要明确写出关键字timestamp
,好比:
select supplier,count(id) from xxx_table where sendtime >= timestamp '2019-06-01'
参考资料:
这里我简单整理一下我最近用过函数:
length --计算字符串长度 concat --链接两个字符串 substring -- 截取字符串 count -- 统计数量 max -- 最大 min -- 最小 sum -- 合计 floor/ceil --...数学函数
再来分享一下最近遇到的一个需求,如今有的数据以下:
【Java3y简单】快乐学习 【Java3y简单】快乐学习渣渣 【Java3y通俗易懂】简单学 【Java3y通俗易懂】简单学芭芭拉 【Java3y平易近人】无聊学 【Java3y初学者】枯燥学 【Java3y初学者】枯燥学呱呱 【Java3y大数据】欣慰学 【Java3y学习】巴拉巴拉学 【Java3y学习】巴拉巴拉学哈哈 【Java3y好】雨女无瓜学
如今我统计出【】括号里边出现的频次,好比说:Java3y通俗易懂
出现的频次是多少。当时一直都没想到好的思路,都快要搜“SQL 正则表达式 快速入门”了,请教了一下同事,同事很快就写出来了:
select substring_index(left(title , INSTR(title , '】') -1 ) , '【',-1) FROM `xxx_table`
哇~,awesome
乐于输出干货的Java技术公众号:Java3y。公众号内有200多篇原创技术文章、海量视频资源、精美脑图,关注便可获取!
以为个人文章写得不错,点赞!