机器学习(一)导论

今天的文章是机器学习的导论,这会像Python基础教程和爬虫教程同样是一个连载系列,可是在机器学习领域本身还没入门,只是经过一次比赛接触到机器学习使用了几个模型罢了,这个系列单纯把本身学习笔记和学习体会分享给你们,更新可能会比较慢,期待你们一块儿进步。面试

/ 01 / 什么是机器学习?算法

首先,必须澄清一个关于机器学习的最大错误观念:编程

机器学习≠算法数据结构

机器学习是与算法无关的,机器学习是解决问题的综合方法,也能够说机器学习=寻找一种函数。这个函数能够:机器学习

语音识别:输入一段语音信号输出文字

f(    )="how are you "

图像识别:输入图片,输出图片的属性

f(    )="cat"

图像识别:输入图片,输出图片的属性

f(    )="5*5"
复制代码

机器学习是教会计算机如何从数据中学习模式的作法,一般用于作出决策或预测。对于真正的机器学习,计算机必须可以学习未明确编程识别的模式。函数

例如:好奇的孩子性能

一个小孩正在家里玩......他看到一支蜡烛!他当心翼翼地蹒跚而行。 1.出于好奇,他把手伸到蜡烛火焰上。 2.“哎哟!”他大声喊道,他把手拉回来。 3.“嗯...... 红色和明亮的 东西真疼!”学习

两天后,他正在厨房里玩......他看到了一个炉灶!他再一次当心翼翼地蹒跚而行。 1.他又好奇了,他正想着伸出手来。 2.忽然,他注意到它是 红色和明亮的! 3.“啊......”他对本身说,“不是今天!” 4.他记得 红色和明亮 意味着痛苦,他忽略了炉顶。 要清楚,它只是机器学习,由于孩子从蜡烛中学习模式,他了解到“红色和明亮的模式意味着痛苦”另外一方面,若是他仅仅由于他的父母警告他而忽略了炉顶,那就是“明确的编程”而不是机器学习。测试

/ 02 / 学习路线spa

监督学习 监督学习包括“标记”数据的任务(即有一个目标变量)简单的来讲就是在有数据标注的状况下进行学习。在实践中,它一般用做预测建模的高级形式,每一个观察必须用“正确答案”标记,只有这样你才能创建一个预测模型,由于你必须在训练时告诉算法什么是“正确的”(所以,“监督”它)。

这里还有两个名词须要你们理解,第一个是回归:回归问题,寻找函数f的输出为一个数值。通常用于预测。该问题通常是经过大量的训练数据,找到相对正确的函数。第二个是分类:是对分类(又称“类")目标变量进行建模的任务,分类问题能够分为二分类和多分类。

无监督学习

无监督学习包括“未标记”数据的任务(即没有目标变量)简单来讲无监督学习就是在没有具体数据标注的状况下进行学习。在实践中,它一般用做自动数据分析或自动信号提取的一种形式,例如:机器阅读:机器在大量的文档中学会词语的意思。未标记的数据没有预先肯定的“正确答案”。容许算法直接从数据中学习模式(没有“监督”)。 聚类 是最多见的无监督学习任务,它用于查找 数据中的组。

/ 03 / 过拟合

不管在机器学习仍是深度学习建模当中均可能会遇到两种最多见结果,一种叫过拟合(over-fitting )另一种叫欠拟合(under-fitting)。

所谓过拟合(over-fitting)其实就是所建的机器学习模型或者是深度学习模型在训练样本中表现得过于优越,致使在验证数据集以及测试数据集中表现不佳。

打个比喻就是当我须要创建好一个模型以后,好比是识别一只狗狗的模型,我须要对这个模型进行训练。刚好,我训练样本中的全部训练图片都是二哈,那么通过屡次迭代训练以后,模型训练好了,而且在训练集中表现得很好。基本上二哈身上的全部特色都涵括进去,那么问题来了!假如个人测试样本是一只金毛呢?将一只金毛的测试样本放进这个识别狗狗的模型中,颇有可能模型最后输出的结果就是金毛不是一条狗(由于这个模型基本上是按照二哈的特征去打造的)。因此这样就形成了模型过拟合,虽然在训练集上表现得很好,可是在测试集中表现得刚好相反,在性能的角度上讲就是协方差过大(variance is large),一样在测试集上的损失函数(cost function)会表现得很大。

欠拟合呢(under-fitting)?相对过拟合欠拟合仍是比较容易理解。仍是拿刚才的模型来讲,可能二哈被提取的特征比较少,致使训练出来的模型不能很好地匹配,表现得不好,甚至二哈都没法识别

过拟合产生的缘由

噪声:永远没有完美的数据,数据里的噪声会影响模型的学习。 假规律: 样本量较少时,学习器却很复杂时,学习器会过分解读学到不少假的可是在这少数几个样本拥有的规律。

写在最后:

今天的文章只是对机器学习作一个简单的介绍,你们有什么不懂的问题欢迎留言交流。

公众号【Ahab杂货铺】若是你是小白你应该关注公众号,若是你是大牛你更应该关注。公众号免费分享Python基础&进阶,数据分析挖掘和机器学习相关知识,全部技术文章层层递进,带你按部就班的学习。为了巩固数据结构知识,按期打卡刷LeetCode,分享面试经验,锻炼编程能力化身Offer收割机,另外公众号会不按期给粉丝送福利,总之我是强烈推荐关注【Ahab杂货铺】的!

参考文献:

elitedatascience.com/birds-eye-v…

相关文章
相关标签/搜索