后记转载请标明出处算法
报告题目:机器学习:发展与将来机器学习
报告人:周志华函数
演讲摘要:在过去二十年中,人类收集、存储、传输、处理数据的能力取得了飞速发展,亟需能有效地对数据进行分析利用的计算机算法。机器学习做为智能数据分析算法的源泉,顺应了大时代的这个迫切需求,所以天然地取得了巨大的发展、受到了普遍关注。性能
机器学习是从人工智能中产生的一个重要学科分支,是实现智能化的关键。它的经典定义是:利用经验改善系统自身的性能。将经验转化为数据。随着该领域的发展,目前主要研究智能数据分析的理论和算法,并已成为智能数据分析技术的源泉之一。学习
文章筛选的故事:邀请专家阅读少许的文章,专家将文章标记为“有关”或者“无关”,基于这个信息创建一个分类模型,再根据这个模型来对其余的文章进行预测。ui
典型的机器学习的过程:先收集到数据,数据是表格的形式,每一行表示一个对象或一个实例,每一列刻画了一个对象的一个属性,其中有一列咱们管它叫作类别标记。人工智能
咱们对这些数据进行训练获得模型。从此,当咱们拿到一个咱们没有见过的数据的时候,咱们知道它的输入,把输入输入到这个模型,这个模型就会给你一个结果(好比西瓜好仍是很差)。因此咱们在现实生活中遇到的分类、推测这类问题均可以抽象出来。比较重要的是如何对数据进行学习来获得这个模型(使用学习算法)。.net
深度学习对象
一、提高模型复杂度->提高学习能力blog
增长隐层神经元数目(模型宽度)增长函数个数
增长隐层数目(模型深度)增长了函数的个数同时增长了函数的层数:增长隐层数目比增长隐层神经元数目更加有效,不只增长了拥有激活函数的神经元数,还增长了激活函数嵌套的层数。
二、提高模型复杂度->增长过拟合风险(由于模型过于复杂),增长计算开销
过拟合风险解决可使用大量训练数据,复杂的模型使用强力计算设备来计算
深度学习还须要诀窍。
将来机器学习可能的问题:难以适应环境变化、难以了解模型、难以获取充足样本、难以得到专家级结果、难以免数据泄漏。
此外,即使相同的数据,普通用户也很难活得机器学习专家级性能。
关于将来的浅见:开放环境学习任务,鲁棒性是关键。
提出了一个学件(learn ware)的概念
学件(learnware)=模型(model)+规约(specification)
已经由别人作了机器学习的应用了而且很乐意将本身的模型分享出来,放在一个平台。其余人能够在这个平台中查找有没有本身适用的模型。部分重用他人结果,用本身的数据去打磨这个模型。规约须要可以给出模型的合适刻画。而模型须要知足:可重用,可演进,可了解。
可重用:学件的预训练模型仅须要利用“少许数据”对其进行更新或加强便可用于新任务。
可演进:学件的预训练模型应具有感知环境变化,并针对变化进行主动自适应调整的能力。
可了解:学件的模型应在必定程度上能被用户了解(包括其目标、学得结果、资源要求、典型任务上的性能等),不然,将难以给出模型的功能规约,经过重用、演进后得到的模型的有效性和正确性也难以保障。
机器学习小结:
一、深度学习可能会有冬天,它仅是机器学习的一种技术,更潮的技术总会出现。
二、机器学习不会有冬天:除非咱们再也不须要分析数据。
三、关于将来:
技术:能有效利用GPU等计算设备
任务:开放环境机器学习任务(鲁棒性是关键)
形态:从“算法+数据”到“学件”(learn ware)