揭秘人工智能、机器学习和深度学习的神秘面纱

640?wx_fmt=jpeg

1 题记

AI、机器学习、监督学习、无监督学习、分类、决策树、聚类、深度学习和算法。深度学习、机器学习,人工智能——这些时下流行语代表着对未来技术的分析。


在这篇文章中,我们将通过现实世界中成熟的例子来解释什么是机器学习和深度学习。这样做并不是让你成为数据科学家,而是让你能够更清楚的理解你可以用机器学习做些什么。开发人员越来越容易的使用机器学习,在互联网时代,公司产生的每一条信息都有增值的潜力。


640?wx_fmt=png


2 什么是人工智能?

在整个人工智能的历史长河中,它一直在不断的被重定义。AI是一个总称(这个想法始于50年代);机器学习是AI的一个子集,深度学习是机器学习的子集。

640?wx_fmt=png


在1985年,当我作为学生在国家安全局实习的时候,人工智能也是一个非常热门的话题。在美国国家安全局,我甚至在AI上观看了关于专家系统的MIT视频课程。专家系统在规则引擎的指引下获取专家的知识。规则引擎在金融、医疗保健等行业中广泛使用,最近多用于事件处理,但是当数据发生变化时,规则可能变得难以更新和维护。机器学习的优点在于,它是从数据中学习,并且可以提供数据驱动的概率预测。


640?wx_fmt=png


根据Ted Dunning的说法,最好使用精确的术语如机器学习或深度学习,而不是术语“AI”,因为在我们把事情做好之前,我们称它为AI;之后,我们总是称之为其他。AI最好作为下一个边界词。

分析在过去十年中的变化情况如何?


根据HBR的Thomas Davenport的说法,分析技术在过去十年中发生巨大的变化,通过商用服务器,流分析和改进的机器学习技术实现更强大更便宜的分布式计算,使公司能够存储和分析更多不同类型的数据。


传统上,数据存储在RAID系统中,发送到多核服务器进行处理,然后再发送回存储器,这样导致数据传输瓶颈,并且价格昂贵。通过MapR-XD和MapR-DB等文件和表存储,数据分布在集群中,而MapReduce、Pig和Hive等Hadoop技术将计算任务发送到数据所在的位置。

640?wx_fmt=png


像Apache Spark这样的技术通过迭代算法加速分布式数据的并行处理,迭代算法通过内存缓存数据,并使用轻量级的线程。


640?wx_fmt=png


MapR Event Streams是一种用于大规模流式传输事件数据的新型分布式消息传递系统,它与流式处理(如:Apache Spark流式传输或Apache Flink)相结合,可加快与机器学习模型并行处理实时事件的速度。


640?wx_fmt=png


图像处理单元(GPU)加快了多核处理器的并行处理。GPU具有大规模并行架构,由数千个更小、更高效的内核组成,设计用于同时处理多个任务,而CPU由几个针对顺序串行处理优化的内核组成。就潜在性能而言,从Cray-1到今天拥有大量GPU的集群的发展,大约是地球史上速度最快的计算机的一百万倍,成本只是其中的非常小的一部分。


640?wx_fmt=png


3 什么是机器学习?

机器学习使用算法查找数据中的模式,然后使用识别这些模式的模型对新数据进行预测。

640?wx_fmt=png


通常,机器学习分解为以下类型:监督学习、无监督学习以及半监督学习。监督学习算法使用标记数据,无监督学习算法是在未标记数据中找到模式。半监督学习使用有标记和无标记数据的混合。强化学习训练算法基于反馈最大化奖励。


640?wx_fmt=png


4 监督学习

监督算法使用有标记的数据,其中输入和目标结果或标签都提供给算法。

640?wx_fmt=png


监督学习也被称作预测建模或预测分析,因为你构建了一个能够进行预测的模型。预测建模的一些示例有分类和回归。分类基于已知项目的标记示例(例如,已知是欺诈的交易)来识别项目属于哪个类别(例如,交易是否为欺诈)。逻辑回归预测概率 - 例如,欺诈的概率。线性回归预测数值——例如,欺诈数量。


640?wx_fmt=png


分类的一些示例包括:

  • 信用卡欺诈检测(欺诈,非欺诈)

  • 信用卡申请(信誉良好,信用不良)

  • 电子邮件垃圾邮件检测(垃圾邮件,非垃圾邮件)

  • 文本情绪分析(开心,不开心)

  • 预测患者风险(高风险患者,低风险患者)

  • 将肿瘤分类为恶性或非恶性

 

逻辑回归(或其他算法)的一些示例包括:

  • 鉴于历史汽车保险欺诈性索赔和索赔的特征,如索赔人的年龄,索赔金额和事故的严重程度,预测欺诈的可能性。

  • 根据患者特征,预测充血性心力衰竭的可能性。

 

线性回归的一些例子包括:

  • 鉴于历史汽车保险欺诈性索赔和索赔的特征,如索赔人的年龄,索赔金额和事故的严重程度,预测欺诈金额。

  • 鉴于历史房地产销售价格和房屋特征(即平方英尺,卧室数量,位置),预测房屋的价格。

  • 根据历史街区犯罪统计数据,预测犯罪率。


下面显示了其他有监督和无监督的学习算法,我们不会对此进行讨论,但我们将更详细地查看每个算法的一个示例。

640?wx_fmt=png


分类示例:借记卡诈骗

分类采用具有已知标签和预定特征的一组数据,并学习如何基于该信息标记新记录。功能是你提出的“如果”问题,标签是这些问题的答案。

640?wx_fmt=png


我们来看一下借记卡诈骗的例子。

  • 我们想要预测什么?

    • 借记卡交易是否为欺诈。

    • 欺诈是标签(真或假)。

  • 您可以使用哪些“如果”问题或属性进行预测?

    • 今天花费的金额是否大于历史平均值吗?

    • 今天在多个国家都有交易吗?

    • 今天的交易数量是否大于历史平均值?

    • 今天新商家类型的数量是否与过去三个月相比较高?

    • 今天是否有来自具有风险类别代码的商家的多次购买?

    • 与历史上使用PIN相比,今天是否有不寻常的签名活动?

    • 与过去三个月相比,是否有新的州购买?

    • 与过去三个月相比,今天是否有外国购买?


要构建分类器模型,您需要提取最有助于分类的感兴趣的特征。


5 决策树

决策树创建一个模型,根据多个输入特征预测类或标签。决策树的工作原理是评估包含每个节点的特征的问题,并根据答案选择到下一个节点的分支。下面显示了用于预测借记卡欺诈的可能决策树。特征问题是节点,答案“是”或“否”是树节点到子节点的分支。(请注意,真正的树会有更多节点。)

  • Q1:24小时内的花费是否大于平均水平?

  • Q2:今天有风险的商家有多次购买?

    • 是欺诈= 90%

    • 不欺诈= 50%

      640?wx_fmt=png


决策树很受欢迎,因为它们易于可视化和解释。通过将算法与集合相结合的方法,可以提高模型的准确性。集合示例是随机森林,形成了决策树的多个随机子集。


6 无监督学习

无监督学习(有时也称为描述性分析)没有提前提供标记数据。这些算法发现输入数据中的相似性或规律性。无监督学习的一个例子是根据购买数据对类似客户进行分组。

640?wx_fmt=png



7 聚类

在聚类中,算法通过分析输入示例之间的相似性将输入分类。一些聚类的示例包括:

  • 搜索结果分组

  • 对类似客户进行分组

  • 对类似患者进行分组

  • 文本分类

  • 网络安全异常检测(发现非相似的东西,来自群集的异常值)


    640?wx_fmt=png


K-means算法将观测值分组为K个集群,其中每个观测值属于具有距其集群中心最近平均值的集群。

640?wx_fmt=png


聚类的一个例子是希望对其客户进行细分以便更好地定制产品和产品的公司。客户可以按人口统计和购买历史等功能进行分组。无监督学习的聚类通常与监督学习相结合,以获得更有价值的结果。例如,在该banking customer 360的用例中,首先根据调查的答案对客户进行分段。对客户组进行分析并标记客户角色。然后,这些标签通过客户ID与账户类型和购买等功能相关联。最后,有监督的机器学习应用于标记的客户并进行测试,允许将调查客户角色与他们的银行行为联系起来并提供见解。

640?wx_fmt=png



8 深度学习

深度学习是多层神经网络的名称,多层神经网络是由输入和输出之间的几个节点“隐藏层”组成的网络。神经网络有很多变种,你可以在这个神经网络备忘单上学到更多。改进的算法,GPU和大规模并行处理(MPP)已经产生了具有数千层的网络。每个节点获取输入数据和权重,并将置信度分数输出到下一层中的节点,直到到达输出层,其中计算得分的误差。在一个称为梯度下降的过程中进行反向传播,错误再次通过网络发回,并调整权重,改善模型。该过程重复数千次,根据其产生的误差调整模型的权重,直到不再减少误差为止。

640?wx_fmt=png


在此过程中,层学习模型的最佳特征,其优点是不需要预先确定特征。但是,这样做的缺点是模型的决策无法解释。因为解释决策很重要,研究人员正在开发新方法来理解深度学习的黑盒子。

深度学习算法有不同的变体,可以与MapR的分布式深度学习快速入门解决方案一起使用,以构建数据驱动的应用程序,如下所示:

640?wx_fmt=png


  • 用于改进传统算法的深度神经网络

    • 财务:通过识别更复杂的模式来增强欺诈检测

    • 制造:基于更深的异常检测,增强缺陷识别

  • 用于图像的卷积神经网络

    • 零售:用于衡量流量的视频的店内活动分析

    • 卫星图像:标记地形和分类对象

    • 汽车:识别道路和障碍物

    • 医疗保健:X射线,扫描等的诊断机会

    • 保险:根据照片估算索赔严重程度

  • 用于测序数据的递归神经网络

    • 客户满意度:将语音数据转录为文本以进行NLP分析

    • 社交媒体:社交和产品论坛帖子的实时翻译

    • 照片字幕:搜索图像档案以获得新的见解

    • 财务:通过时间序列分析(也是增强的推荐系统)预测行为

 

9 总结

640?wx_fmt=png

这些互联网原生企业的共同特征是:对新技术的充分应用:

640?wx_fmt=png

竞争对手以一种完全不同的业务模式闯入行业,你发现自己完全没有招架之力!不管是个人,还是所在行业,都应该积极拥抱人工智能、机器学习和深度学习等新技术的到来!


640?wx_fmt=jpeg

长按二维码 ▲

订阅「架构师小秘圈」公众号

如有启发,帮我点个在看,谢谢↓