机器学习--入门答疑

时间 2019-11-17

标签机器学习入门答疑繁體版

原文原文链接

刚接触机器学习这一个月我都作了什么？

这一个月，从对机器学习充满好奇与畏惧，到对各类算法稍有理解以及围绕推荐场景的编码实践，算是对机器学习有了一个入门的体验。可是中间也踩过很多坑，好比啃过线性代数的教材、看过无聊的机器学习课程、追太高端的机器学习书籍、陷入一个算法没法自拔（最后也没整明白）...其实，学习机器学习没有那么难，也很容易走偏。谨以此文，做为ML入门小白的一个小小的参考...html

本篇虽不是这一个月的流水帐，可是基本按照下面的思路对着一个月作了一次总结：python

什么是机器学习？
机器学习都有什么算法？
我的对机器学习的三种境界理解
推荐的学习路线
推荐资源

但愿读者有所收获，另外，若是文中有任何理解上的错误，还望指正！

什么是机器学习？

以前在没有具体接触到机器学习前，我大概对他有一个概念上的认识，以为是一种很高级的算法，能让机器学会不少的事情，就像...《个人机器人女朋友》里那样！算法

或者是《机械公敌》里的智能机器人？...编程

可是，这些其实都是对机器学习的一种误解。机器学习并非让机器像人同样会学习，而是经过一种固定的编程模式，对数据进行处理。按照百度的定义，它是这样的：markdown

专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，从新组织已有的知识结构使之不断改善自身的性能。机器学习

其实机器学习就是经过一些前人总结的数据公式，帮咱们简化了不少手工操做很麻烦甚至没法操做的事情。就举个身边很常见的例子，当你在淘宝搜索了某个宝贝后，以后的商品页面会为你推荐跟这个搜索相关的商品；再比汽车在通过司机的一段驾驶后，汽车本身能基于道路情况自动调整方向盘以及车速，实现无人驾驶；再如，家里的热水器会记录你使用热水的时间，提早一段时间烧水，而在其余时间不加热，以节省水电。这些都是机器学习，都是身边已经出现或者即将出现的场景，因此，机器学习其实就在咱们身边。工具

机器学习都有哪些算法？

在机器学习中，算法能够按照多种维度进行分类，好比监督学习、无监督学习、强化学习等...让人看着就眼晕。post

记得有一篇文章总结的就很是易懂，他认为机器学习其实能够分红三类，分类、回归、聚类。性能

分类听着名字就很容易理解了，好比给你一筐水果，水果里面有苹果、香蕉，须要把它们分红两类。
回归来源于单词regression，它能够理解成是一种预测，好比线性回归，他能够根据样本数据学习出一个线性的公式，好比y=ax，当你给定一个x的值时，能够推算出对应的y值。固然具体的场景中，就不是简单的一维了...
聚类，跟前面的分类有些不一样，好比一筐水果，你都不知道里面装的是什么，须要经过味道、颜色、形状、大小等多个属性，把它们进行归类。

结合到算法里面：学习

分类相关的算法有：K-近邻算法、决策树、朴素贝叶斯、逻辑回归、支持向量机等
回归相关的算法有：线性回归、树回归等
聚类相关的算法有：K-均值算法、Apriori等

若是看过一遍《机器学习实战》，应该就会对上述的算法有必定的了解。不须要到公式推导级别，先能了解他们的用法便可，好比：

K-近邻就是已知几个分类，判断新的节点属于哪一个分类时，只须要看距离它必定范围内，哪一个分类的数据多。有点像近朱者赤近墨者黑的意思。
决策树就是经过一大堆的问题，判断属于哪一个分类。好比，相亲的时候，会问“你是作什么的？”“有没有房？”“有没有车？”——最后判断，是否继续交往。
朴素贝叶斯看着名字高大上，其实就是根据几率选择，属于哪一个分类的几率大，就归属这个分类
逻辑回归它是把线性回归的结果映射到01区间
线性回归能够简单的理解成y=ax，可是其实在多维空间比这个复杂得多
K-均值就是一大堆散落的点，随机几个中心，这些点按照距离选择他们最近的中心组成一个类别
Apriori只要说一个啤酒与尿布，你们就应该明白了。

这么多算法其实只是机器学习中的一部分....

机器学习的应用场景

机器学习的应用仍是很普遍的，好比无人驾驶、机器人等等高大上的东西，以及我们身边的拼车算法、电商的个性化推荐、婚恋网站的快速配偶等等。只要是涉及到数据之间的关系，均可以使用机器学习来达到很好的效果。

我的理解的机器学习的三种境界

这三种境界纯粹是我的的胡乱设定，仅仅是为了给本身的学习定下一个目标！

第一层了解算法的过程和做用

这种通常是那些自学机器学习的朋友，在看过几本机器学习相关的书籍后，对全部的算法都有一点了解。能跟别讨论一些机器学习的算法和用途，而且能理解相关技术分享大体过程。

第二层能把算法运用到实践中

这一层能够认为是对某个机器学习的库比较熟悉，能真正的利用机器学习来解决一些问题。好比可使用Spark MLLib中的某个算法解决实际的问题，如基于物品或者用户的协同过滤算法。这就好像是使用现代的机械工具盖房子，而不是像过去纯人工搬石头垒长城，效率和产出上都要好的多。

第三层对算法的推导融会贯通

这种能够说是集数学与计算机功底于一身，是倚天剑与屠龙刀的合体。对数学公式推导了如指掌，各类模型的优化也深谙其道。其实机器学习使用某个库出一个简单的效果很简单，可是想要对算法模型进行优化却很难，大多时候都是盯着算法结果，目瞪口呆，不知道下一步该怎么办。若是对算法了解的很深，对实际的业务又很熟悉，那么就能结合两点对算法模型进行优化，改进机器学习的结果。

我的学习机器学习的路线规划

通过不到一个月的学习，对机器学习也算是初步有了必定的了解，最起码知道机器学习能干什么了，因此如今还在处于上面的第一个境界....

这期间也走了很多的弯路，浪费了很多的时间。因此在这里总结一下，也给你们当作一个参考：

1 最快的入门方式，就是先百度、必应一下，了解下机器学习的概念。
2 推荐阅读《机器学习实战》了解下机器学习相关的算法。我以前也看过机械工业出版社的《机器学习》、也看过点周志华老师的《机器学习》，前一本概念太多，后一本公式也挺多。《机器学习实战》相对来讲要好得多，先介绍点理论背景，在基于python介绍下算法的实现以及一两个案例。
3 不少人都以为机器学习须要很好的数学功底，因而学习机器学习前，先捧着高数、线代、几率论看，结果看了两天，以为枯燥无味，就打算放弃。其实不必的，结合上面的《机器学习实战》，遇到什么公式，进行相应的复习就好了，这也是为何把数学放在第三个步骤。其实机器学习里面能理解高数的求导、线代的矩阵以及向量、几率的指望方差等就差很少了，其余有须要的话针对学习就行。
4 学习机器学习确定是要看吴恩达老师的公开课了，公开课的地址，我刚看了两集，感受仍是很是不错的。
5 学习Spark MLLib相关的算法实现，若是有时间的话，能够看看源码。

经过上面的学习，暂时能够到达第二个层次了。我想通常搞计算机的，应该不多有能对各类算法推导融会贯通的。因此第三种境界，就留给其余人吧....