机器学习十大算法

机器学习算法一般能够被分为三类---监督式学习非监督式学习强化学习算法

  • 监督式学习主要用于一部分数据集(训练数据)有某些能够获取的熟悉(标签),但剩余的样本缺乏而且须要预测的场景。
  • 非监督式学习:主要用于从未标注数据集中挖掘相互之间的隐含关系。
  • 强化学习:介于二者之间—每一步预测或者行为都或多或少有一些反馈信息,但没有明确的标签或者错误提示。

 

监督式学习数据库

一、 决策树:网络

决策树是一种决策支持工具,它使用树状图或者树状模型来表示决策过程以及后续获得的结果,包括概论时间结果等。请观察下图来理解决策树的结构。机器学习

 

从商业决策的角度来看,决策树就是经过尽量少的是非判断问题来预测决策正确的几率。这种方法能够帮你用一种结构性的、系统性的方法来得出合理的结构。函数

 

二、 朴素贝叶斯分类器工具

朴素贝叶斯分类器是一类基于贝叶斯理论的简单的几率分类器,它假设特征以前是相互独立的。下图所示的就是公式—P(A|B)表示后延几率,p(B|A)是似然值,p(A)是类别的先验几率,p(B)表明预测器的先验几率。学习

 

现实场景中的一些例子包括:优化

-检测垃圾电子邮件编码

-将新闻分为科技、政治、体育等类别spa

-批判一段文字表达积极的情绪仍是消极的情绪

-用于人脸检测软件

 

三、 最小平方回归

最小平方回归是求线性回归的一种方法。“最小平方“的策略至关于你画一条直线,而后计算每一个点到直线的垂直距离,最后把各个距离求和;最佳拟合的直线就是距离和最小的那一条。

 

线性指的是用于拟合数据的数据,而最小平方指的是待优化的损失函数。

 

四、 逻辑回归:

逻辑回归模型是一种强大的统计建模方式,它用一个或多个解释性变量对二值输出结果建模。它用逻辑斯蒂函数估计几率值,以此衡量分类依赖变量和一个或多个独立的变量之间的关系,这属于累计的逻辑斯蒂分布。

 

一般来讲,逻辑回归模型在现实场景中的应用包括:

  • 信用评分
  • 预测商业活动的成功几率
  • 预测某款产品的收益
  • 预测某一天发生地震的几率

 

五、 支持向量机:

支持向量机是一种二分类算法。在N维空间中给定两类点,支持向量机生成一个

(N-1)维的超平面将这些点分为两类。举个例子,好比在纸上有两类线性可分的点。支持向量机会寻找一条直线将这两类点区分开来,而且与这些点的距离都尽量远。

 

 

 

 

利用支持向量机(结合具体应用场景作了改进)解决的大规模问题包括展现广告、人体结合部位识别、基于图像的性别检查、大规模图像分类等。。。

 

六、 集成方法:

集成方法是先构建一组分类器,而后用各个分类器带权重的投票来预测新数据的算法。最初的集成方法是贝叶斯平均,但最新的算法包括偏差纠正输出编码和提高算法。

 

那么集成模型的原理是什么,以及它为何比独立模型的效果好呢?

  • 它们消除了偏置的影响:好比把民主党的问卷和共和党的问卷混合,从中获得的将是一个不三不四的偏中立的信息。
  • 它们能减小预测的方差:多个模型聚合后的预测结果比单一模型的预测结果更稳定。在金融界,这被称为是多样化---多个股票的混合产品波动老是远小于单个股票的波动。这也解释了为什么增长训练数据,模型的效果会变得更好。
  • 它们不容易产生过拟合:若是单个模型不会产生过拟合,那么将每一个模型的预测结果简单地组合(取均值、加权平均、逻辑回归),没有理由产生过拟合。

 

 

非监督式学习

七、 聚类算法

聚类算法就是将一堆数据进行处理,根据它们的类似性对数据进行聚类。

聚类算法有不少种,具体以下:中心聚类、关联聚类、密度聚类、几率聚类、降维、神经网络/深度学习

 

八、 主成分分析(PCA)

主成分分析是利用正交变换将一些列可能相关数据转换为线性无关数据,从而找到主成分。PCA主要用于简单学习与可视化中数据压缩、简化。可是PCA有必定的局限性,它须要你拥有特定领域的相关知识。对噪音比较多的数据并不适用。

九、 SVD矩阵分解

SVD矩阵是一个复杂的实复负数矩阵,给定一个m行、n列的矩阵M,那么M矩阵能够分解为M=UΣV。U和V是m * m阶矩阵,Σ是半正定m * n阶对角矩阵

 

十、独立成分分析(ICA)

独立成分分析是一种利用统计原理进行计算来揭示随机变量、测量值或者信号背后的隐藏因素的方法。独立成分分析算法给所观察到的多变量数据定义了一个生成模型,一般这些变量是大批量的样本。在该模型中,数据变量被假定为一些未知的潜变量的线性混合,并且混合系统也未知。潜变量被假定是非高斯和相互独立的,它们被称为所观察到的数据的独立份量。

独立成分分析和主成分分析有关联,但它是一个更强大的技术。它可以在这些经典方法失效时仍旧找到数据源的潜在因素。它的应用包括数字图像,文档数据库,经济指标和心理测量。

相关文章
相关标签/搜索