机器学习--机器学习基础

机器学习(Machine Learning ) --机器学习基础

 

机器学习 概述

机器学习(Machine Learning,ML) 是使用计算机来彰显数据背后的真实含义,它为了把无序的数据转换成有用的信息。是一门多领域交叉学科,涉及几率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,从新组织已有的知识结构使之不断改善自身的性能。
它是人工智能的核心,是使计算机具备智能的根本途径,其应用遍布人工智能的各个领域,它主要使用概括、综合而不是演绎。python

  1. 海量的数据
  2. 获取有用的信息

机器学习 研究意义

机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”。 “机器学习是对能经过经验自动改进的计算机算法的研究”。 “机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。” 一种常常引用的英文定义是:A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.算法

机器学习已经有了十分普遍的应用,例如:数据挖掘、计算机视觉、天然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器人运用。网络

机器学习 场景

  • 例如:识别动物猫架构

    • 模式识别(官方标准):人们经过大量的经验,获得结论,从而判断它就是猫。
    • 机器学习(数据学习):人们经过阅读进行学习,观察它会叫、小眼睛、两只耳朵、四条腿、一条尾巴,获得结论,从而判断它就是猫。
    • 深度学习(深刻数据):人们经过深刻了解它,发现它会’喵喵’的叫、与同类的猫科动物很相似,获得结论,从而判断它就是猫。(深度学习经常使用领域:语音识别、图像识别)

 

模式识别(Pattern recognition)、机器学习(machine learning)和深度学习(deep learning)机器学习

表明三种不一样的思想流派。模式识别是最古老的(做为一个术语而言,能够说是很过期的)。函数

机器学习是最基础的(当下初创公司和研究实验室的热点领域之一)。工具

深度学习是很是崭新和有影响力的前沿领域,咱们甚至不会去思考后深度学习时代。性能

1)机器学习就像是一个真正的冠军同样持续昂首而上;
2)模式识别一开始主要是做为机器学习的代名词;
3)模式识别正在慢慢没落和消亡;
4)深度学习是个崭新的和快速攀升的领域。

模式识别:智能程序的诞生学习

模式识别是70年代和80年代很是流行的一个术语。它强调的是如何让一个计算机程序去作一些看起来很“智能”的事情,例如识别“3”这个数字。并且在融入了不少的智慧和直觉后,人们也的确构建了这样的一个程序。例如,区分“3”和“B”或者“3”和“8”。早在之前,你们也不会去关心你是怎么实现的,只要这个机器不是由人躲在盒子里面假装的就好(图2)。不过,若是你的算法对图像应用了一些像滤波器、边缘检测和形态学处理等等高大上的技术后,模式识别社区确定就会对它感兴趣。光学字符识别就是从这个社区诞生的。所以,把模式识别称为70年代,80年代和90年代初的“智能”信号处理是合适的。决策树、启发式和二次判别分析等所有诞生于这个时代。并且,在这个时代,模式识别也成为了计算机科学领域的小伙伴搞的东西,而不是电子工程。从这个时代诞生的模式识别领域最著名的书之一是由Duda & Hart执笔的“模式识别(Pattern Classification)”。测试

机器学习:从样本中学习的智能程序

在90年代初,人们开始意识到一种能够更有效地构建模式识别算法的方法,那就是用数据(能够经过廉价劳动力采集得到)去替换专家(具备不少图像方面知识的人)。所以,咱们搜集大量的人脸和非人脸图像,再选择一个算法,而后冲着咖啡、晒着太阳,等着计算机完成对这些图像的学习。这就是机器学习的思想。“机器学习”强调的是,在给计算机程序(或者机器)输入一些数据后,它必须作一些事情,那就是学习这些数据,而这个学习的步骤是明确的。相信我,就算计算机完成学习要耗上一天的时间,也会比你邀请你的研究伙伴来到你家而后专门手工得为这个任务设计一些分类规则要好。

在21世纪中期,机器学习成为了计算机科学领域一个重要的研究课题,计算机科学家们开始将这些想法应用到更大范围的问题上,再也不限于识别字符、识别猫和狗或者识别图像中的某个目标等等这些问题。研究人员开始将机器学习应用到机器人(强化学习,操控,行动规划,抓取)、基因数据的分析和金融市场的预测中。另外,机器学习与图论的联姻也成就了一个新的课题---图模型。每个机器人专家都“无奈地”成为了机器学习专家,同时,机器学习也迅速成为了众人渴望的必备技能之一。然而,“机器学习”这个概念对底层算法只字未提。咱们已经看到凸优化、核方法、支持向量机和Boosting算法等都有各自辉煌的时期。

深度学习:一统江湖的架构

快进到今天,咱们看到的是一个夺人眼球的技术---深度学习。而在深度学习的模型中,受宠爱最多的就是被用在大规模图像识别任务中的卷积神经网络(Convolutional Neural Nets,CNN),简称ConvNets。

深度学习强调的是你使用的模型(例如深度卷积多层神经网络),模型中的参数经过从数据中学习得到。然而,深度学习也带来了一些其余须要考虑的问题。由于你面对的是一个高维的模型(即庞大的网络),因此你须要大量的数据(大数据)和强大的运算能力(图形处理器,GPU)才能优化这个模型。卷积被普遍用于深度学习(尤为是计算机视觉应用中),并且它的架构每每都是非浅层的。

机器学习 组成

主要任务

  • 分类(classification):将实例数据划分到合适的类别中。
    • 应用实例:判断网站是否被黑客入侵(二分类 ),手写数字的自动识别(多分类)
  • 回归(regression):主要用于预测数值型数据。
    • 应用实例:股票价格波动的预测,房屋价格的预测等。

监督学习(supervised learning)

  • 必须肯定目标变量的值,以便机器学习算法能够发现特征和目标变量之间的关系。在监督学习中,给定一组数据,咱们知道正确的输出结果应该是什么样子,而且知道在输入和输出之间有着一个特定的关系。 (包括:分类和回归)
  • 样本集:训练数据 + 测试数据
    • 训练样本 = 特征(feature) + 目标变量(label: 分类-离散值/回归-连续值)
    • 特征一般是训练样本集的列,它们是独立测量获得的。
    • 目标变量: 目标变量是机器学习预测算法的测试结果。
      • 在分类算法中目标变量的类型一般是标称型(如:真与假),而在回归算法中一般是连续型(如:1~100)。
  • 监督学习须要注意的问题:
    • 偏置方差权衡
    • 功能的复杂性和数量的训练数据
    • 输入空间的维数
    • 噪声中的输出值
  • 知识表示
    • 能够采用规则集的形式【例如:数学成绩大于90分为优秀】
    • 能够采用几率分布的形式【例如:经过统计分布发现,90%的同窗数学成绩,在70分如下,那么大于70分定为优秀】
    • 可使用训练样本集中的一个实例【例如:经过样本集合,咱们训练出一个模型实例,得出 年轻,数学成绩中高等,谈吐优雅,咱们认为是优秀】

非监督学习(unsupervised learing)

  • 在机器学习,无监督学习的问题是,在未加标签的数据中,试图找到隐藏的结构。由于提供给学习者的实例是未标记的,所以没有错误或报酬信号来评估潜在的解决方案。
  • 无监督学习是密切相关的统计数据密度估计的问题。然而无监督学习还包括寻求,总结和解释数据的主要特色等诸多技术。在无监督学习使用的许多方法是基于用于处理数据的数据挖掘方法。
  • 数据没有类别信息,也不会给定目标值。
  • 非监督学习包括的类型:
    • 聚类:在无监督学习中,将数据集分红由相似的对象组成多个类的过程称为聚类。
    • 密度估计:经过样本分布的紧密程度,来估计与分组的类似性。
    • 此外,无监督学习还能够减小数据特征的维度,以便咱们可使用二维或三维图形更加直观地展现数据信息。

      强化学习

      这个算法能够训练程序作出某一决定。程序在某一状况下尝试全部的可能行动,记录不一样行动的结果并试着找出最好的一次尝试来作决定。 属于这一类算法的有马尔可夫决策过程。

      训练过程

 

机器学习算法

参考一下文章:

机器学习常见算法介绍

 

 

机器学习使用

 

选择算法须要考虑的两个问题

  1. 算法场景
    • 预测明天是否下雨,由于能够用历史的天气状况作预测,因此选择监督学习算法
    • 给一群陌生的人进行分组,可是咱们并无这些人的类别信息,因此选择无监督学习算法、经过他们身高、体重等特征进行处理。
  2. 须要收集或分析的数据是什么

举例

 

机器学习 开发流程

  1. 收集数据: 收集样本数据
  2. 准备数据: 注意数据的格式
  3. 分析数据: 为了确保数据集中没有垃圾数据;
    • 若是是算法能够处理的数据格式或可信任的数据源,则能够跳过该步骤;
    • 另外该步骤须要人工干预,会下降自动化系统的价值。
  4. 训练算法: [机器学习算法核心]若是使用无监督学习算法,因为不存在目标变量值,则能够跳过该步骤
  5. 测试算法: [机器学习算法核心]评估算法效果
  6. 使用算法: 将机器学习算法转为应用程序

机器学习 数学基础

  • 微积分
  • 统计学/几率论
  • 线性代数

机器学习 工具

Python语言

  1. 可执行伪代码
  2. Python比较流行:使用普遍、代码范例多、丰富模块库,开发周期短
  3. Python语言的特点:清晰简练、易于理解
  4. Python语言的缺点:惟一不足的是性能问题
  5. Python相关的库
    • 科学函数库:SciPyNumPy(底层语言:C和Fortran)
    • 绘图工具库:Matplotlib
    • 数据分析库 Pandas

数学工具

  • Matlab

机器学习术语

  • 训练:数据经过机器学习算法进行处理,这个过程在机器学习中叫作“训练”。
  • 模型:处理的结果能够被咱们用来对新的数据进行预测,这个结果通常称之为“模型”。
  • 预测:对新数据的预测过程在机器学习中叫作“预测”。
  • 特征:即数据的属性,经过数据的这些特征能够表明数据的特色。
  • 标签:对数据的预测结果。