[SQL]中级SQL(1)

时间 2020-01-19

标签 sql 中级栏目 SQL 繁體版

原文原文链接

关联

基础SQL

正文

这里咱们会遇到subquery，它能够出如今select子句中或者where子句或者from子句中。它会产生一个对应的结果表格，咱们能够给这个表示命名。html

数据集

咱们这一篇文章采用PostgreSQL的SQL语法。重点咱们关注select...from...where这种读操做，分析query　(analytical query)。
数据集在　https://hyper-db.de/interface...　能够直接使用。另外在这个网页不容许进行写操做:insert, update, delete之类的transactional query。固然create table和drop table也不被容许。mysql

架构 Schema:
sql

下载:
https://db.in.tum.de/teaching...segmentfault

Schma和大部分SQL语句来自Prof. Alfons Kemper, Ph.D.的课件和书。api

课件：架构

书：　https://db.in.tum.de/teaching...spa

中级SQL

在pruefen中搜索note小于平局值的：

select *
from pruefen
where note < (
    select avg(note)
    from pruefen
    )

对每个professoren，对应的vorlesungen的sws求和：

-- correlated sub-query
select p.persnr, p.name, (
    select sum(v.sws) as lehrbelastung
    from vorlesungen v
    where v.gelesenvon = p.persnr
    )
from professoren p

-- no sub-query
select p.persnr, p.name, sum(sws)
from professoren p left outer join vorlesungen v on p.persnr = v.gelesenvon
group by p.name, p.persnr

搜索上课数大于２的学生：

select tmp.matrnr, tmp.name, tmp.vorlanzahl
from (select s.matrnr, s.name, count(*) as vorlanzahl
    from studenten s, hoeren h
    where s.matrnr = h.matrnr
    group by s.matrnr, s.name) tmp
where tmp.vorlanzahl > 2

这时候咱们对这个subquery的结果表格进行命名tmp。固然咱们能够用with子句来作一样的事情。我主观上更喜欢用with,它很清晰地把暂时须要的表格写在最上方，并且对debug也更加友好。固然二者是结果等价，运行时间也等价的。debug

with tmp as (select s.matrnr, s.name, count(*) as vorlanzahl
    from studenten s, hoeren h
    where s.matrnr = h.matrnr
    group by s.matrnr, s.name) 

select tmp.matrnr, tmp.name, tmp.vorlanzahl
from tmp
where tmp.vorlanzahl > 2

计算每个vorlesungen的人数占比：

select h.vorlnr, h.anzProVorl, g.gesamtAnz, cast(h.anzProVorl as decimal(6, 1)) / g.gesamtAnz as MarkAnteil
from (select vorlnr, count(*) as anzProVorl
    from hoeren
    group by vorlnr) as h,
     (select count(*) as gesamtAnz
    from studenten) g

-- with子句版本
with h as (select vorlnr, count(*) as anzProVorl
    from hoeren
    group by vorlnr),
     g as (select count(*) as gesamtAnz
    from studenten)

select h.vorlnr, h.anzProVorl, g.gesamtAnz, cast(h.anzProVorl as decimal(6, 1)) / g.gesamtAnz as MarkAnteil
from h, g

计算每个professoren经过上课认识的studenten个数以及比例：

with kenntSich as (
    select distinct v.gelesenvon as profpersnr, h.matrnr as studmatrnr
    from hoeren h join vorlesungen v on h.vorlnr =v.vorlnr
    ),
     kenntAnzahl as (
    select profpersnr, count(*) as anzstudenten
    from kenntSich
    group by profpersnr),
     wieviel as (
    select count(*) as gesamtanz
    from studenten)

select k.profpersnr, p.name, k.anzstudenten, w.gesamtanz, 1.00 * k.anzstudenten / w.gesamtanz as bekanntheitsgard
from kenntAnzahl k, wieviel w, professoren p
where k.profpersnr = p.persnr
order by bekanntheitsgard desc

搜索听了全部sws=4 vorlesungen的学生：

SELECT s.*
FROM studenten s
where not exists(
    select *
    from vorlesungen v
    where v.sws = 4 and not exists(
        select *
        from hoeren h
        where h.vorlnr = v.vorlnr and h.matrnr = s.matrnr
        )
    )

SQL92中没有定义for all Quantifier(全称量词)。因此咱们只能改写关系代数：code

$$ \{s|s\in studenten \wedge \forall v \in vorlesungen (v.sws = 4 \Rightarrow \\ \exists h \in hoeren (h.vorlnr = v.vorlnr \wedge h.matrnr = s.matrnr)) \} $$htm

咱们先把$\forall t \in R (P(t))$改写成$\neg (\exists t \in R(\neg P(t)))$:

$$ \{s|s\in studenten \wedge \neg (\exists v \in vorlesungen \; \neg (v.sws = 4 \Rightarrow \\ \exists h \in hoeren (h.vorlnr = v.vorlnr \wedge h.matrnr = s.matrnr))) \} $$

再把$R \Rightarrow T$改写成$\neg R \vee T$:

$$ \{s|s\in studenten \wedge \neg (\exists v \in vorlesungen \; \neg (\neg (v.sws = 4) \vee \\ \exists h \in hoeren (h.vorlnr = v.vorlnr \wedge h.matrnr = s.matrnr))) \} $$

再用DeMorgan律简化一下：

$$ \{s|s\in studenten \wedge \neg (\exists v \in vorlesungen (v.sws = 4) \wedge \\ \neg (\exists h \in hoeren (h.vorlnr = v.vorlnr \wedge h.matrnr = s.matrnr))) \} $$

用中文说：不存在一门sws=4的课，没有被这个学生听。这样咱们能够对应关系代数到上面的SQL。

另一种trick解法，使用count:

-- 先把hoeren变成sws=4hoeren: hoerenStudentenWith4SWS
with hoerenStudentenWith4SWS (matrnr, vorlnr) as (
    select h.matrnr, v.vorlnr
    from hoeren h, vorlesungen v
    where h.vorlnr = v.vorlnr and v.sws = 4
    )

-- 再看学生是否是听完了全部hoerenStudentenWith4SWS
select h.matrnr
from hoerenStudentenWith4SWS h
group by h.matrnr
having count(*) = (select count(*) from vorlesungen v where v.sws = 4)

(对上面的相似练习) 搜索学生全部考过的试对应的科目，都是这个同窗所听过：

select s.*
from studenten s
where not exists(
    select *
    from pruefen p
    where p.matrnr = s.matrnr and not exists(
        select *
        from hoeren h
        where h.vorlnr = p.vorlnr and h.matrnr = s.matrnr
        )
    )

用中文说：没有一门被考过的科目，没有出如今对应学生hoeren表格中。

另外由于这个要求是独立得应用在每个学生上，每个学生由于考试不一样，全部要求听的科目也不一样。所以上面那题的trick再也不适用。trick应用条件是对全部学生须要广泛性，而排除独立性 -- 一视同仁。

求至少听Sokrates一门课的学生们的平均学期数：

with vl_von_sokrates as (
    select *
    from vorlesungen v, professoren p
    where v.gelesenvon = p.persnr and p.name = 'Sokrates'
), studenten_von_sokrates as (
    select distinct s.name, s.matrnr, s.semester
    from studenten s, hoeren h, vl_von_sokrates v
    where s.matrnr = h.matrnr and h.vorlnr = v.vorlnr
)

select avg(semester)
from studenten_von_sokrates;

这题必定要注意,可能一个学生听了Sokrates的不少课，可是这种同窗不能被重复计数。咱们能够用distinct。

可是咱们也有一种解法不须要distinct，它不用join,而是带exists的correlated subquery:

with vl_von_sokrates as (
    select *
    from vorlesungen v, professoren p
    where v.gelesenvon = p.persnr and p.name = 'Sokrates'
), studenten_von_sokrates as (
    select *
    from studenten s
    where exists(
        select *
        from hoeren h, vl_von_sokrates vl
        where h.matrnr = s.matrnr and h.vorlnr = vl.vorlnr
    )
)

select avg(semester)
from studenten_von_sokrates;

求每一个学生听几节课，须要考虑不放任何课的学生：

select count(*) as hcount
    from hoeren
    ),
     s as (
    select count(*) as scount
    from studenten
)

select hcount / (scount * 1.00) as avg_vl
from h, s

或者

with h as (
    select count(*) as hcount
    from hoeren
    ),
     s as (
    select count(*) as scount
    from studenten
)

select hcount / (cast(scount as decimal(10, 4))) as avg_vl
from h, s

搜索学生经过上课能认识的其余学生名字：

select s1.name, s2.name
from studenten s1, hoeren h1, hoeren h2, studenten s2
where h1.vorlnr = h2.vorlnr and h1.matrnr = s1.matrnr  and h2.matrnr = s2.matrnr and s1.matrnr != s2.matrnr

对每个同窗认识的人进行计数：

with bekannte as (
    select s1.matrnr as student, s2.matrnr as sein_bekannte
    from studenten s1,
         hoeren h1,
         hoeren h2,
         studenten s2
    where h1.vorlnr = h2.vorlnr
      and h1.matrnr = s1.matrnr
      and h2.matrnr = s2.matrnr
      and s1.matrnr != s2.matrnr
)

select s.matrnr, s.name, count(b.sein_bekannte) as num_friends
from studenten s, bekannte b
where s.matrnr = b.student
group by s.matrnr, s.name
order by num_friends desc

在2.的基础上再考虑：不上课(也就不认识同窗)的人

with bekannte as (
    select s1.matrnr as student, s2.matrnr as sein_bekannte
    from studenten s1,
         hoeren h1,
         hoeren h2,
         studenten s2
    where h1.vorlnr = h2.vorlnr
      and h1.matrnr = s1.matrnr
      and h2.matrnr = s2.matrnr
      and s1.matrnr != s2.matrnr
)

select s.matrnr, s.name, count(b.sein_bekannte) as num_friends
from studenten s left outer join bekannte b
on s.matrnr = b.student
group by s.matrnr, s.name
order by num_friends desc

这里用了一个left outer join。右边的表格bekannte b只含有上课的同窗(即出如今hoeren表格中的同窗)，可是左边的表格studenten s含有全部学生。

搜索选课超过学生选课sws平均数的学生，须要考虑不上课的学生：

with num_stu as (
    select count(*) as count_stu
    from studenten),
     num_sws as (
    select sum(vor.sws) as count_sws
    from hoeren h, vorlesungen vor
    where h.vorlnr = vor.vorlnr)

select s.*
from studenten s
where s.matrnr in (
    select h.matrnr
    from hoeren h, vorlesungen v
    where h.vorlnr = v.vorlnr
    group by h.matrnr
    having sum(sws) > (select cast(num_sws.count_sws as decimal (5, 2)) / num_stu.count_stu from num_sws, num_stu)
    )

或者

with num_stu as (
    select count(*) as count_stu
    from studenten),
     num_sws as (
    select sum(vor.sws) as count_sws
    from hoeren h, vorlesungen vor
    where h.vorlnr = vor.vorlnr),
     avg_sws as (
    select cast(num_sws.count_sws as decimal(5, 2)) / num_stu.count_stu as sws
    from num_stu, num_sws),
     stu_sws as (
    select s.matrnr, s.name, s.semester, sum(v.sws) as sum_sws
    from studenten s, hoeren h, vorlesungen v
    where s.matrnr = h.matrnr and h.vorlnr = v.vorlnr
    group by s.matrnr, s.name, s.semester)

select s.*
from stu_sws s, avg_sws
where s.sum_sws > avg_sws.sws

或者

with swsProStudent as (
    select s.matrnr, s.name,
        cast((case when sum(v.sws) is null then 0
                                   else sum(v.sws) end) as real) as anzSWS
    from studenten s
    left outer join hoeren h on s.matrnr = h.matrnr
    left outer join vorlesungen v on h.vorlnr = v.vorlnr
    group by s.matrnr, s.name
)

select s.*
from studenten s
where s.matrnr in (
    select sws.matrnr
    from swsProStudent sws
    where sws.anzSWS > (
        select avg(anzSWS)
        from swsProStudent
        )
    )

比较听课并考试的同窗的成绩和不听课只考试的同窗成绩：

with no_lec as (
    select avg(note) as avg_note
    from pruefen p
    where not exists (
        select *
        from hoeren h
        where h.matrnr = p.matrnr
        )),
     with_lec as (
    select avg(note) as avg_note
    from pruefen p
    where exists (
        select *
        from hoeren h
        where h.matrnr = p.matrnr
        ))

select *
from no_lec, with_lec;

假设咱们的schema变成上图(SQL不能运行　数据集不对应上图)：

求每个FakName对应的女性占比：

with anz(Fakname,AnzStudenten) as (
    select s.FakName, count(*)
    from StudentenGF s
    group by s.FakNAme),
     anzw(Fakname,AnzWeiblich) as (
    select sw.FakName,count(*) as AnzWeiblich
    from StudentenGF sw
    where sw.Geschlecht ='W'
    group by sw.FakName)

select anz.FakName, anz.AnzStudenten, anzw.AnzWeiblich, (cast(anzw.AnzWeiblich as decimal(5,2))/anz.AnzStudenten * 100) as ProzentWeiblich
from anz, anzw
where anz.FakName = anzw.FakName

求每个FakName对应的男性占比：

with anz(Fakname, AnzStudenten) as (
    select s.FakName, count(*)
    from StudentenGF s
    group by s.FakNAme),
     anzm(Fakname, AnzMaenner) as (
         select sw.FakName, count(*) as AnzWeiblich
         from StudentenGF sw
         where sw.Geschlecht = 'M'
         group by sw.FakName)

select anz.FakName,
       anz.AnzStudenten,
       anzm.AnzMaenner,
       (case when anzm.AnzMaenner is null then 0 else anzm.AnzMaenner end) / anz.AnzStudenten * 100.00 as ProzentMaenner
from anz left outer join anzm
on anz.FakName = anzm.FakName

这里并非女性版直接更改为男性。一个重点是:存在系没有任何男性。
case也能够被替换为: COALESCE(anzm.AnzMaenner, 0) / anz.AnzStudenten * 100.00 as ProzentMaenner

或者再换一种：

select fakname, 
       (sum(case when geschlechte = 'M' then 1.00 else 0.00 end)) / count(*)
from studentenFG
group by fakname

搜索全部学生把本身系教授提供的课都听完了：

select s.*
from studentenFG s
where not exists(
    select *
    from vorlesungen v, professorenF p
    where v.gelesenvon = p.persnr and p.fakname = s.fakname and not exists(
        select *
        from hoeren h
        where h.vorlnr = v.vorlnr and h.matrnr = s.matrnr
        )
    )

用中文就是：对这个学生，不存在一门他系里教授的课，这个学生没有听过。

或者

select s.*
from studentenFG s
where (
    select count(*)
    from vorlesungen v, professorenF p
    where v.gelesenvon = p.persnr and p.fakname = s.fakname
          )
=
      (
    select count(*)
    from hoeren h, vorlesungen v, professorenF p
    where h.matrnr = s.matrnr and h.vorlnr = v.vorlnr and p.persnr = v.gelesenvon and p.fakname= s.fakname
          )

1. SQL1：基础
2. [SQL]中级SQL(4)
3. 中级SQL
4. Human h = qr.query(sql1, new BeanHandler(Human.class), id);
5. 思维导图 | 中级SQL
6. SQL Server 中 ROWLOCK 行级锁
7. mysql--中级sql语句
8. 第四章中级SQL
9. 开源数据库MySQL DBA运维实战第2章 SQL1
10. Sql Server中的事务隔离级别
更多相关文章...
• XML DOM 高级 - XML 教程
• Java 中操作 R - R 语言教程
• Scala 中文乱码解决
• C# 中 foreach 遍历的用法