李航《统计学习方法》学习笔记-第一章-统计学习方法概论1


关于 李航老师的《统计学习方法》的博客文章/知乎文章/微信公众号文章/github开源代码,已经数不胜数。然而,正如一百位读者有一百位哈姆雷特,本系列博客但愿经过不同凡响的角度带小白学习 李航老师的《统计学习方法》。
官方的PPT没有找到出处,你们能够关注微信公众号:机器学习算法与天然语言处理,回复 五件套获取,这里就不提供下载连接啦。

导学与资源推荐

第一章PPT的导学与资源推荐部分尤为精彩,但很多博客文章对第一部分的非算法/代码的内容进行了删除,这对于新手而言,就不太友好。html

数据与规律

机器学习算法是一类从数据中自动分析得到规律,并利用规律对未知数据进行预测的算法。由于学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤其密切,也被称为统计学习理论。
由该段能够看到,数据和规律是咱们要接触的重点内容,不过因为现阶段,大多数研究人员关注的是规律(也能够延伸而称之为算法、模型),少部分人在进行数据收集(也就是建立数据集),但从人工智能的整个发展历程来看,好的数据,会带来革命性的促进做用,例如计算机视觉(CV)领域,就由于大名鼎鼎的Imagenet,而日新月异,足够多、足够好的数据,才能让咱们对规律产生无限的想象空间。
在这里插入图片描述图1 Imagenet(14,197,122 images, 21841 synsets indexed )git

另外一方面,在NLP的对话系统领域,至今没有使人耳目一新的突破,很重要的一个缘由就是,数据集不够大、不够丰富、质量不够好。
所以,不论是数据仍是规律,做为研究人员,都不该该忽视,另外,在研究过程当中,也不能盲目相信已有数据集,要多研究思考给定的数据集的特征与缺陷,以后才是考虑规律,不然,生硬套模型,难以真正得到稳定且优质的结果。github

课件中推荐的资源

斯坦福机器学习:
http://v.163.com/special/opencourse/machinelearning.html
CMU 机器学习课程:
http://www.cs.cmu.edu/~epxing/Class/10715/
http://www.cs.cmu.edu/~epxing/Class/10708/
http://www.cs.cmu.edu/~epxing/Class/10701
https://sites.google.com/site/10601a14spring/syllabus
相关学术文章下载资源:
COLT和ICML(每一年度的官网): http://www.cs.mcgill.ca/~colt2009/proceedings.html
CV:http://www.cvpapers.com/index.html
NIPS: http://books.nips.cc/
JMLR(期刊): http://jmlr.csail.mit.edu/papers/web

我的认为,对于普通本科学生而言,能够适当关注推荐的课程,没必要花过多时间关注推荐的学术文章,而研究生则能够密切关注推荐的几个学术文章下载网站!算法

机器学习概述

机器学习定义理解

机器学习有下面几种定义:spring

  • “机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”。
  • “机器学习是对能经过经验自动改进的计算机算法的研究”。
  • “机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。”

从上面的三种定义中,咱们均可以看到,机器学习的定义离不开“经验“二字,所以,贯穿机器学习的整个研究过程,咱们的算法都不是凭空出现的,它必须是设法找到某种经验,为咱们所用!
从这个方面来看,咱们读万卷书行万里路,对自身来讲,也是一种”机器学习”。微信

机器学习应用

  • 数据挖掘
  • 计算机视觉
  • 天然语言处理
  • 生物特征识别
  • 搜索引擎
  • 医学诊断
  • 检测信用卡欺诈
  • 证券市场分析
  • DNA序列测序
  • 语音和手写识别
  • 战略游戏
  • 机器人
    课件中给出了大量的应用例子,但对当前的社区而言,毫无疑问,计算机视觉(CV)和天然语言处理(NLP)领域是最火热的!

机器学习的发展历程

对历史的研究,老是有意思而且能促进咱们去思考的,我建议你们阅读这篇博客文章《机器学习的发展历程》以及《机器学习发展历史回顾》网络

在这里插入图片描述图2 机器学习发展进程app

而课件中说起的新的方向:机器学习

  • 集成学习
  • 可扩展机器学习(对大数据集、高维数据的学习等)
  • 强化学习
  • 迁移学习
  • 几率网络
  • 深度学习
    无疑都是当前的研究热点,譬如2018年出现BERT以后,在NLP领域已经兴起了迁移学习热潮!
    但愿经过学习该课程,从而进一步摸索本身研究生生涯的同窗,则能够结合本身实验室的研究方向+上面的某个方向,搜索相关的研究,为本身制定将来的学术方向!

而课件说起的国内外的研究者M. I. Jordan、Andrew Ng、Tommi Jaakkola、David Blei、Eric Xing、D.Koller
2001年IJCAI计算机与思惟奖:Terry Winograd、David Marr、Tom Mitchell、Rodney Brooks等人以后的第18位获奖者
Peter L. Bartlett、J. D. Lafferty
国内:李航,周志华, 杨强,王晓刚,唐晓鸥,唐杰,刘铁岩,何晓飞,朱筠,吴军,张栋,戴文渊,余凯,邓力,孙健
则能够找到他们的google学术主页,最好关注一波,或者收藏他们的主页,这无疑有利于本身关注大牛的最新研究成果!

机器学习VS统计学习

机器学习是近20多年兴起的一门多领域交叉学科,涉及几率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让计算机能够自动“学习”的算法。机器学习算法是一类从数据中自动分析得到规律,并利用规律对未知数据进行预测的算法。由于学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤其密切,也被称为统计学习理论

研究方法差别

  • 统计学研究形式化和推导
  • 机器学习更容忍一些新方法

维度差别

  • 统计学强调低维空间问题的统计推导
  • 机器学习强调高维预测问题

统计学习的方法按有无监督分类

  • Supervised learning:监督学习——监督学习的核心就是带标签,例以下图,学习系统的输入是 ( x i , y i ) (x_i,y_i) ,学习系统学习的过程就是监督过程。
  • 在这里插入图片描述
  • Unsupervised learning:无监督学习——无监督学习则与监督学习相反,学习过程输入的数据是没有标签的,
  • 在这里插入图片描述
    Semi-supervised learning:半监督学习——让学习系统不依赖外界交互、自动地利用未标记样原本提高学习性能,就是半监督学习。半监督学习的基本思想是利用数据分布上的模型假设创建学习器对未标签样例进行标签。

Reinforcement learning:强化学习——强化学习最先能够追溯到巴甫洛夫的条件反射实验,它从动物行为研究和优化控制两个领域独立发展。让计算机实现从一开始彻底随机的进行操做,经过不断地尝试,从错误中学习,最后找到规律,学会了达到目的的方法。这就是一个完整的强化学习过程。让计算机在不断的尝试中更新本身的行为,从而一步步学习如何操本身的行为获得高分。它主要包含四个元素,Agent、环境状态、行动、奖励,强化学习的目标就是得到最多的累计奖励。
在这里插入图片描述
第一章内容尚未结束,但考虑到你们的阅读时间,在这里将第一章拆分为两部分。

参考资源

[1] https://github.com/wzyonggege/statistical-learning-method
[2] https://github.com/WenDesi/lihang_book_algorithm
[3] https://blog.csdn.net/tudaodiaozhale
[4] 李航. 统计学习方法第二版[M]. 北京: 清华大学出版社, 2019.
[5] https://github.com/fengdu78/lihang-code

【做者简介】陈艺荣,男,目前在华南理工大学电子与信息学院广东省人体数据科学工程技术研究中心攻读博士,担任IEEE Access、IEEE Photonics Journal的审稿人。两次得到美国大学生数学建模竞赛(MCM)一等奖,得到2017年全国大学生数学建模竞赛(广东赛区)一等奖、2018年广东省大学生电子设计竞赛一等奖等科技竞赛奖项,主持一项2017-2019年国家级大学生创新训练项目得到优秀结题,参与两项广东大学生科技创新培育专项资金、一项2018-2019年国家级大学生创新训练项目得到良好结题,发表SCI论文4篇,受权实用新型专利8项,受理发明专利13项。
个人主页
个人Github
个人CSDN博客
个人Linkedin