《机器学习》 周志华 第1章 绪论

1. 引言算法

        机器学习致力于研究如何经过计算的手段,利用经验来改善系统自身的性能。数据库

        在计算机系统中,“经验”一般以“数据”形式存在,所以,机器学习所研究的主要内容,是关于在计算机上从数据中产生“模型(model)”的算法,即“学习算法(learning algorithm)”。网络

2. 基本术语机器学习

(1)数据集(data set):示例(或样本)的集合;函数

(2)示例(instance)/样本(sample):关于一个事件或对象的描述;性能

(3)属性(attribute)/特征(feature):反映事件或对象在某方面的表现或性质的事项;学习

(4)属性值(attribute value):属性上的取值;测试

(5)属性空间(attribute space)/样本空间(sample space)/输入空间:属性张成的空间;优化

(6)特征向量(feature vector):因为示例的不一样属性有着不一样的属性值,在属性空间上每一个点都对应一个坐标向量,所以也可把一个示例成为一个特征向量;spa

(7)维数(dimensionality):每一个示例属性描述的个数; 

 

(8)学习(learning)/训练(training):从数据中学得模型的过程,这个过程经过执行某个学习算法来完成;

(9)训练数据(training data):训练过程当中使用的数据;

(10)训练样本(training sample):训练数据中的每一个样本;

(11)训练集(training set):训练样本组成的集合;

(12)假设(hypothesis):学得模型对应了关于数据的某种潜在规律;

(13)真相/真实(ground-truth):学得模型对应了关于数据的某种潜在规律自己;

(14)学习器(learner):模型;

(15)标记(label):关于示例结果的信息;

(16)样例(example)拥有了标记信息的示例;

(17)标记空间(label space)/输出空间:全部标记的集合;

(18)分类(classification):欲预测的是离散值的学习任务

        ①二分类(binary classification):只涉及两个类别的分类,一般称其中一个类为“正类”(positive class),另外一个类为“反类”(negative class),样本空间一般为Y={-1,+1}或{0,1};

        ②多分类(multi-class classification):设计多个类别的分类,样本空间一般为|Y|>2;

(19)回归(regression):欲预测的是连续值的学习任务,样本空间一般为Y=R,R是实数集;

(20)测试(testing):学得模型后使用其进行预测的过程;

(21)测试样本(testing sample):预测时被预测的样本;

(22)聚类(clustering):将训练集中的样本分红若干组,每一个组称为一个“簇”(cluster);

(23)监督学习(supervised leaning)/有导师学习:如分类和回归;

(24)无监督学习(unsupervised learning)/无导师学习:如聚类;

(25)泛化(generalization):学得模型适用于新样本的能力。

3. 假设空间

(1)概括(induction):从特殊到通常的“泛化”(generalization)过程,即从具体的事实归结出通常性规律;

(2)演绎(deduction):从通常到特殊的“特化”(specialization)过程,即从基础原理推演出具体情况;

(3)概括学习(inductive learning):广义的概括学习大致至关于从样例中学习,而狭义的概括学习则要求从训练数据中学得概念(concept),所以亦称为“概念学习”或“概念造成”;

        咱们能够把学习过程看做一个在全部假设(hypothesis)组成的空间中进行搜索的过程,搜索目标是找到与训练集“匹配”(fit)的假设,即可以将训练集中的样本判断正确的假设。

(4)版本空间(version space):存在着一个与训练集一致的“假设集合”。

4. 概括偏好

(1)概括偏好(inductive bias)/偏好:机器学习算法在学习过程当中对某种类型假设的偏好;

        任何一个有效的机器学习算法必有其概括偏好,不然它将被假设空间中看似在训练集上“等效”的假设所迷惑,而没法产生肯定的学习效果。

(2)奥卡姆剃刀(Occam’s razor):一种经常使用的、天然科学研究中最基本的原则,即“如有多个假设与观察一致,则选最简单的那个”;

        概括偏好对应了学习算法自己所作出的关于“什么样的模型更好”的假设。在具体的现实问题中,这个假设是否成立,即算法的概括偏好是否与问题自己匹配,大多数时候直接决定了算法可以取得好的性能。

(3)没有免费的午饭(No Free Lunch Theorem):因为全部可能函数的相互补偿,最优化算法的性能是等价的。该定理暗指,没有其余任何算法可以比搜索空间的线性列举或者纯随机搜索算法更优。该定理只是定义在有限的搜索空间,对无限搜素空间结论是否成立尚不清楚。

5. 发展历程

(1)20世纪50-70年代初:推理期。那时人们觉得只要能赋与机器逻辑推理能力,机器就具备智能;

(2)20世纪70年代中期开始:知识期。要使机器具备智能,就必须设法使机器拥有知识;

(3)20世纪80年代开始:广义的概括学习(涵盖了监督学习、无监督学习等)

①20世纪80年代:符号主义学习。其表明包括决策树(decision tree)和基于逻辑的学习;

        典型的决策树学习以信息论为基础,以信息熵的最小化为目标,直接模拟了人类对概念进行断定的树形流程。

        基于逻辑的学习的著名表明是概括逻辑程序设计(Inductive Logic Programming,简称ILP),ILP具备很强的知识表达能力,能够较容易地表达出复杂数据关系,并且领域知识一般可方便得经过逻辑表达式进行描述。

②20世纪90年代中期以前:基于神经网络的链接主义学习。与符号主义学习能产生明确的概念表示不一样,链接主义学习产生的是“黑箱”模型,其最大的局限是“试错性”;

③20世纪90年代中期:统计学习(statistical learning)。表明性技术是支持向量机(Support Vector Machine,简称SVM)以及更通常的“核方法”(kernel methods)。

6. 应用现状

(1)应用计算机科学的诸多分支学科领域;

(2)为交叉学科提供重要技术支撑

        数据库领域的研究为数据挖掘提供数据管理技术,而机器学习和统计学的研究为数据挖掘提供数据分析技术。统计学主要是经过机器学习对数据挖掘发挥影响,而机器学习领域和数据库领域则是数据挖掘的两大支撑。

总结体会

        机器学习经过对于输入的足够多的样本进行数据计算、分析,而后得出一个具备对这种类型的样本值广泛适应的模型,这种模型可以对于新的测试样本值进行分析从而得出合理的预测值。机器学习的重点与难点,就是如何经过数据得出模型,这也是须要长期研究和学习的。

        本章的学习让我了解到什么是机器学习,以及机器学习的基本术语与研究方法,但愿经过从此的学习,可以更深入地理解到机器学习的精髓。

相关文章
相关标签/搜索