《数据科学概论》的知识体系与学习路线图

前言

  知识是有架构的,这就是所谓的知识体系。学习是有路线图的(对学生而言),对老师来讲就是教学计划。

 

《数据科学概论》的知识体系

  数据科学概论,由理论部分和应用部分构成。形成两条线索,两个T型,如图所示。

  理论部分,先由浅入深,再宽度展开,旨在培养学生宽广的视野,形成完整的知识体系。

  应用(实践)部分,先宽度展开,再深入量化交易领域(可选择其它应用领域的案例),旨在培养学生的动手能力和浓厚兴趣。

  理论部分解决“所以然”的问题,而应用部分解决“然”的问题。我们既要知其然,还要知其所以然。

 

《数据科学概论》的教学计划(学习路线图)

  教学计划对教师而言就是教学的行动指南,对学生而言,则是学习的路线图。

  知识点具有一环扣一环的紧密联系,我们需要一个合理的路线图,把它组织起来,遵循该路线图,把各个知识点学到手,建立内化的知识架构

 

《数据科学概论》的教与学

  教学(学习)的过程,需要教师和学生共同努力。

  教师要把关键的知识点讲清楚,把知识的联系,勾勒清楚。

  学生学习的时候,要发挥主动性,要超越老师讲的东西,触类旁通。学习了A,能不能主动跨越出去,把A'、A''搞清楚呢?学习了A、B、C,能不能把A、B、C结合起来,解决实际问题呢?

 

《数据科学概论》的教学计划

 

  备注:配套网站http://xiongpai.freecluster.eu/download.html

  下表中的教学计划按照每周两次课(每次2学分),每周有一次上机(2学分)进行安排,若非如此,请自行裁剪即可。

周次

第一次课

第二次课

上机

备注

教师指引

学生指引

1

课程介绍、数据科学概论、数据科学案例(选讲)

OLTP与数据服务

不上机

第一周,没有准备,不用上机

 

 

2

OLAP与结构化数据分析

Mysql 与oltp demo,包括data model和sql queries

oltp demo

发布在教学网站上

通过理论和实验指导的讲解,使得学生对关系数据库等技术有初步的认识

通过实例,学习mysql 安装、配置、和SQL增删改查、事务处理,加深对关系数据库和OLTP技术的理解(SQL易学易用)

按照老师精心设计的demo照抡一遍,并开动脑筋,同学们一定达到上述目的

3

数据清洗与数据集成

Mysql 与olap demo,包括data model和sql queries

olap demo

发布在教学网站上

通过理论和实验指导的讲解,使得学生对ROLAP技术有初步的认识

通过简单的星型模型实例,加深对ROLAP技术的了解

 

按照老师精心设计的demo照抡一遍,并开动脑筋,同学们一定达到上述目的

4

数据的深度分析1

Python与数据科学basic

Python basic

课本实例

一边开始讲理论,一边开始学习python

对python快速入门

5

数据的深度分析2

Python与数据科学之pandas/sklearn/matplotlib/nltk/networkx/keras and theano or tensorflow

 

Python simple examples

课本实例,从网站下载

一边开始讲理论,一边讲编程语言与实例

备注:每个库的功能,并展示一两个实例。

真正的掌握,靠后续不断的学习和练习。

也就是除了这里的基本实例之外,后续还有大量的实例。

6

数据的深度分析3

Python与数据科学

More examples

Python more examples

更多实例,从网站下载

可以按照两个路线图进行讲解:(1)十大算法的路线图;(2)分类、聚类、回归、关联规则、推荐、参数优化、降维/预处理/特征选择…的路线图

 

7

数据的深度分析4

Python与数据科学

More examples

Python More examples

更多实例,从网站下载

同上

 

8

流数据处理

文本分析

Python more examples

更多实例,从网站下载

同上

 

9

文本分析

Python TEXT examples,在这里讲实例

Python TEXT examples,这里是上机

更多实例,从网站下载

 

 

10

社交网络

社交网络

Python NETWORK examples

更多实例,从网站下载

 

 

11

Python NETWORK examples,在这里讲实例

知识图谱

Python

TEXT &NETWORK examples,这里是上机

更多实例,从网站下载

 

 

12

数据可视化

云计算

数据科学大作业

 

大作业可以选择金融领域中的量化交易、自动驾驶中的ojbect detection

学习了A、B、C,能不能把A、B、C结合起来,解决实际问题?

 

13

Hadoop

spark

数据科学大作业

鼓励同学们自己把hadoop和spark玩起来

hadoop和spark的实践放在本课程之外

网站上有《hadoop/spark入门》free book

这里仅仅对hadoop和spark基本原理进行讲解

学习了A、B、C,能不能把A、B、C结合起来,解决实际问题?

 

14

评测基准

数据科学实践——量化交易或者object detection

数据科学大作业

 

 

学习了A、B、C,能不能把A、B、C结合起来,解决实际问题?

 

15

数据科学实践——量化交易或者object detection

复习

数据科学大作业

 

 

学习了A、B、C,能不能把A、B、C结合起来,解决实际问题?

 

16

大作业展示

大作业展示

/

 

 

Presentation的能力

17

考试周

 

 

闭卷考试

 

 

  备注:大作业采用3人小组完成,可选的题目包括kaggle大赛题目、国内大数据大赛题目、量化交易、自动驾驶(选择某个方面、规模适中)、图像检索……