如何将机器学习应用于实际的业务问题？

时间 2019-12-30

标签如何机器学习应用于实际业务问题繁體版

原文原文链接

做者 | Daniel Faggella
编译 | CDA数据分析师

自2012年以来，很容易看到风险投资，会议和与业务相关的“机器学习”查询的普遍普及-但大多数技术主管一般很难肯定他们的业务可能将机器学习（ML）实际应用于业务问题的位置。算法

随着每周建立新的AI流行语，彷佛很难掌握哪些应用程序是可行的，哪些是炒做，夸张或骗局。小程序

在本文中，咱们将分解ML一般处理的业务问题的类别，而且还将提供可行的建议，以正确的方法和观点开始ML计划（即便这是您执行的第一个此类项目）在您的公司）。网络

最重要的是，咱们将参考真实的业务用例，以及来自咱们的AI研究人员和执行人员网络的“如何用ML解决业务问题”的引用和观点。到本文结尾，您将对ML是否能够很好地解决您当前的任何业务挑战有一个好主意。架构

*注意：在本文的底部，我以简单语言列出了ML术语的基本词汇表。若是您发现本文中您所不理解的短语或术语，请参阅下面的词汇表，或者，若是您但愿咱们对本文中的概念更加清楚，请 [与咱们联系]并发

机器学习能够处理哪些类型的业务问题

1 –您要作出的预测（或您要作出的决定）是否足够复杂，以致于首先须要进行ML？

若是有可能构建一套规则或“若是-则情景”来彻底解决您的问题，那么可能根本就不须要ML。此外，若是没有成功的先例可将机器学习应用于您要解决的特定问题，那么这可能不是进入ML世界的最佳途径。机器学习

出于说明目的，列出一些成熟的机器学习业务用例将颇有帮助，以便您（读者）能够提出本身的应用程序构想：工具

人脸检测： 编写一套“规则”以使机器可以检测人脸是很是困难的（考虑全部不一样的肤色，视角，头发/面部毛发等），可是能够训练算法来检测人脸，就像在Facebook上使用的同样。用于面部检测和识别的许多工具都是开源的。如下是使用MATLAB进行面部识别的视频：
电子邮件垃圾邮件过滤器 –某些垃圾邮件过滤器能够经过规则来完成（即，经过明显阻止垃圾邮件专用的IP地址），可是许多过滤是基于与每一个特定用户相关的收件箱内容的上下文。大量的电子邮件和大量的用户标记为“垃圾邮件”（标记数据）构成了一个很好的监督学习问题。
产品/音乐/电影推荐 –每一个人的偏好都不一样，偏好会随着时间而变化。像Amazon，Netflix和Spotify这样的公司使用大量商品（产品，歌曲等）中的评分和参与度来预测任何给定用户可能想要购买，观看或收听的内容。
语音识别 –没有单一的声音组合来专门传达人类的语音，而且各个发音的差别很大–机器学习能够识别语音模式并帮助将语音转换为文本。Nuance Communications（Dragon Dictation的制造商）是当今最知名的语音识别公司之一。
实时出价（在线广告） – Facebook和Google永远没法编写特定的“规则”来肯定给定类型的用户最有可能点击哪些广告。机器学习有助于识别用户行为的模式，并肯定哪些广告最可能与哪一个用户相关。
信用卡购买欺诈检测 –与电子邮件垃圾邮件过滤器同样，只能使用具体规则进行欺诈检测的一小部分。不断使用新的欺诈方法，而且系统必须适应实时检测这些模式，以哄骗与欺诈相关的常见信号。

2 –您是否有新数据和干净数据？

在经验丰富的数据科学专业人员中，“清洁数据胜于大数据”是一个常见的说法。若是您拥有数年前的大量业务数据，则今天可能没有任何意义，尤为是在基本业务流程逐年急剧变化的领域（例如移动电子商务）中。若是您有大量的非结构化数据和脱节数据，那么您可能须要进行太多的“清理”工做，而后才能开始从收集的信息中学习。oop

UBER机器学习负责人Danny Lange曾经建议刚开始机器学习的公司应从对历史数据应用监督的机器学习开始。查找已经干净且相对较新的数据，并使用带有标签的培训数据开始寻找看法。学习

请注意，在瞬息万变的领域，确定须要更新的数据。例如，若是您为宠物用品运行上门送货服务，而您的应用，价格，产品和服务范围在过去六个月中发生了显着变化，那么您须要的最新数据要比蒙大拿州出售房主保险的公司。若是数据与您当前业务的相关趋势和细微差异无关，则不太可能收集预测价值。测试

3 –您的数据是否已有标签来帮助机器理解它？

虽然无监督学习（请参阅下面的术语表）容许在不使用标签的状况下实现普遍的数据意义的应用，但一般不建议公司在无监督学习中首次应用“跳入”机器学习。ML用例的低调成果极可能是从其历史标记数据中产生的。如下是一些可能有助于读者得到新想法的示例：

Facebook在其平台上拥有数以百万计的带有标签的人脸，这些人脸已经与我的相关联。这使Facebook可以在海量的各类光照条件下从不一样角度对数以百万计的面部进行训练，从而在海量标签数据上训练算法，从而能够对算法进行高度优化和调整，以识别特定的人脸。
Google提供数十亿美圆的搜索结果，并能够根据其顶部列表的点击率，页面加载时间，特定访问者的页面停留时间以及许多其余因素来评估其搜索结果的有用性和相关性。不可能找到一套严格的规则来显示正确的搜索结果，所以Google的算法能够经过数十亿次每日搜索中的实时互动来了解最佳选择。

4 –您对这个问题的解决方案能够容忍一些错误吗？

ML可能被认为是一种“技能”，就像人们能够将其应用于人类同样。一种技能，能够根据经验进行动态调整，适应和发展。因为这个缘由，机器学习解决方案一般会在必定百分比的时间内是不正确的，尤为是当它是由新的或变化的刺激告知时。若是您的任务绝对不容许出现任何错误，则ML多是该工做的错误工具。

不容许出现错误的应用程序示例多是旨在读取发票或帐单金额而后支付该发票或帐单的应用程序。一个字母或一个数字的差别可能意味着多付了您帐单原始金额的10倍（若是十进制被解释为在错误的位置），或汇款给了错误的公司（若是发票公司名称未正确注册）。

在上述状况下，某种程度的ML可能有助于“存储”不一样类型的帐单或发票，可是输入付款金额并发送付款的最终决定可能须要负责任的人员。

做为一个有趣的警告，位于旧金山的一家名为Roger.ai的初创公司旨在利用天然语言处理和机器视觉来实现帐单和支付帐单，尽管它在汇款以前将人们拉入了循环。

来自Emerj网络的报价：

为了得到关于“为机器学习选择业务问题”问题的更多观点，咱们决定与之前的AI播客访谈对象的网络联系，为咱们的业务读者提供更多指导：

Ben Waber博士-麻省理工学院博士-Humanyze（人工智能技术的人分析公司）首席执行官：

“ 任何具备硬数据，可变性和大量示例的业务问题。”

Danko Nikolic博士-奥克拉荷马大学博士学位-计算机科学公司的数据科学和BD＆A：

“ 1。公司能够节省不少钱。

2.预测须要许多变量，它们之间复杂的非线性关系，在某些状况下是高度随机的。所以，一般只有算法才能了解这些关系。光是人类就很难。”

Charles Martin博士-芝加哥大学博士-计算咨询公司首席执行官：

“ 最好的问题是存在一个庞大的历史数据集，这些数据集既包含丰富的功能，又包含能够用于构建的直接反馈以及能够轻松实施和测试的算法，这将下降运营成本， /或当即增长收入。“

Ronen Meiri博士-特拉维夫大学博士-DMWay首席技术官兼创始人

：“大多数企业的问题能够采用两种机器学习方法妥善解决 1 日：‘什么可能会发生’ 和 2 次：“什么是...将来的预期值？”。

第一个是分类类型问题，其中包括对在许多其余用例中可能流失，违约，购买，出售的人进行分类。

第二个问题是指望值问题，该问题能够经过回归解决，而且能够针对各类用例（如订价优化和预测生命周期价值）提供准确的预测。”

彼得·沃斯（Peter Voss）-AGI创新公司首席执行官：

（首先，彼得引用乔治·梅森大学教授罗宾·汉森博士的话：“优秀的CS专家说：大多数认为本身想要高级AI / ML的公司实际上只须要对清理后的数据进行线性回归。”）

“我认为大多数企业都没有理由在ML / DL上进行投资（固然，ML意味着不少事情）。每一个人都在谈论的最前沿内容须要大量数据和专业知识，而且是静态的，即，当数据或类别更改时，须要对其进行从新培训。”

线性回归是最古老，最简单且普遍使用的机器学习模型之一。一些研究人员认为，至少在最初，许多中间预测问题可能只须要基本方法便可。图片由MathWorks提供。

彼得的评论是恰当的，不该掉以轻心。当ML因其流行和流行而被人们抢走时，它不可能产生显着的结果。找到最适合您的底线需求的工具；ML可能不是知足业务或增加目标所需的解决方案。

这使咱们进入了本指南的第二个主要部分：

将机器学习应用于业务问题的指针

1 –从优先级问题开始，而不是玩具问题

在与查尔斯·马丁（Charles Martin）博士（湾区AI顾问）的场外对话中，他提到许多公司热情地阅读了有关ML的内容，并决定“找到某种使用它的方法。”这致使团队没有真正的动力。或追求（或承诺的资源）以驱动实际结果。选择一个很是重要的业务问题，而且彷佛颇有可能获得解决

UBER的Danny Lange从一开始就提到，有一个思惟过程极可能会产生富有成果的机器学习用例思想：“若是咱们只知道____。”

问问本身，您想知道哪些关键业务信息，但当前没法访问？也许是在了解最有可能产生最高客户生命周期价值的潜在客户来源，或者最能代表预期客户流失的用户行为。

2-您能够给它数据，可是全部上下文都必须来自您

想一想要“馈送”您的算法的信息并不像假定的那么容易。机器学习算法虽然擅长识别相关性，但他们没法理解围绕数据的事实，这些事实可能使数据变得相关或不相关。如下是“上下文”如何阻碍开发有效的ML解决方案的一些示例：

预测电子商务客户的生命周期价值： 能够为算法提供有关历史客户生命周期价值的数据，而无需考虑经过运行了两年以上但未能实现收支平衡的电话外联计划与许多生命周期最高价值的客户进行了联系，尽管产生了新的销售。若是这样的电话跟进计划不会成为将来电子商务销售增加的一部分，那么这些销售就不该该被提供给机器。
肯定医疗恢复时间： 数据可能会提供给机器，以肯定对一级或二级烧伤患者的治疗方法。该机器能够预测，许多二级烧伤受害者将只须要与一级烧伤受害者同样多的时间，由于它没有考虑到二级烧伤受害者过去得到的更快，更重的护理。上下文自己不在数据自己中，所以计算机仅假设第二度的烧伤愈合速度与第一度同样快。
推荐相关产品： 电子商务零售商的推荐引擎过分推荐特定产品。研究人员直到后来才发现该产品在一年多之前获得了大力推广，所以历史数据代表现有购买者的销售量大幅增长。可是，根据“交易”和低廉的价格，这些促销购买的商品销量更高，而根据客户的实际相关意图则更少。

3 –指望修补，调整和调整以找到投资回报率

构建ML解决方案须要在选择算法，选择数据，清理数据以及在实际环境中进行测试时进行仔细的思考和测试。对于独特而复杂的业务用例，没有“开箱即用”的机器学习解决方案。即便对于极为常见的用例（推荐引擎，预测客户流失），每一个应用程序也会有很大差别，而且须要迭代和调整。若是一家公司没有进行长时间的修补就投入了ML项目，那么它可能永远不会取得有用的结果。

来自Emerj网络的报价：

咱们再次联系了咱们的Emerj受访者和共识受访者网络，以获取有关在企业中实施机器学习的意见和技巧。如下是引号的集合：

Ben Waber博士-麻省理工学院博士-Humanyze（人工智能技术的人分析公司）首席执行官：

“ 您不能使用ML真空解决业务问题。确保您获得业务部门负责人的支持，以根据分析作出具体更改。”

Danko Nikolic博士-奥克拉荷马大学博士学位-计算机科学公司的数据科学和BD＆A：

“ 企业在使用ML时常犯的最多见错误是，他们认为ML解决方案是一站式过程：他们将数据发送给数据科学家，而数据科学家则将模型返回。与此相反，找到好的ML解决方案是一个反复的过程，涉及研究，试验和错误，试验，与业务专家交谈等。

ML永远不可能成为商品。ML的成功在很大程度上取决于作到这一点的人的知识，技能和奉献精神。”

Charles Martin博士-芝加哥大学博士-计算咨询公司首席执行官：

“在您掌握要作什么以前，请避免创建大规模的基础架构。您能够轻松地花费6个月到一年的时间来设置Hadoop和Spark，而不会看到任何投资回报。

若是您5％的数据正确且有用，您将很幸运。您须要设计一个实验，以识别低垂的果实并找出所需的数据。您能够在高内存的AWS节点上构建算法。

将算法放入实时环境中，并尽早对其进行测试。不要构建尝试完整的生产系统。记住，ML是关于数学的，而不是编码！您想测试一下。运行足够的示例来消除问题，但不要过小，以致于统计数据毫无心义。”

Ferris Jumah-之前曾在LinkedIn担任ML-湾区ML顾问：

“尽快获取数据驱动。机器学习不是免费提供的。您须要围绕数据创建直觉，如何衡量业务并了解客户，不只将度量值连接，还将洞察力连接到决策制定。记录全部内容，构建存储和处理系统，确保它们可访问，对产品进行深刻分析和尽量多的实验，并在尽量多的产品中内置智能。

在这一点上，消费者指望个性化和“智能”功能。创建它们，向他们学习，并确保您拥有适当的反馈机制。最后，雇用和投资对您的问题和业务充满热情的数据人员。”

共识（在上面引用的数量有限，以及与具备业务头脑的数据科学家进行的其余数十次对话中）是，机器学习不像营销自动化软件那样仅仅是“工具”。任何拥有良好管理者并得到社区大学学士学位的人均可以选择“持续联系”，甚至能够选择（甚至能够稍做修改并致电支持热线）Marketo或Hubspot并提升公司价值。

应用机器学习的迭代，多方面过程没有简单的捷径。图像信誉Microsoft的CortanaIntelligence。

机器学习尚未出如今一个整洁的盒子中，而价值倒是由刻苦的思考，实验设计以及（在某些状况下）刻苦的数学创造的。在Google和YouTube上花费一些时间，您能够了解如何为您的企业设置DropBox。经过机器学习预测整个客户群的流失率吗？不同的游戏。

准备从ML中得到业务价值意味着要有受过训练的人才，专家指导和（一般）巨大的“数据清理”时期-并且，正如马丁博士在上面恰当地指出的那样，这没有保证必定会赢。若是Google，Amazon和Facebook可以让他们的实习生创建ML系统，他们真的会花费数百万美圆从学者中挖走世界顶级AI人才来为他们工做吗？

虽然机器学习不是一个简单的设置，但也不是任何有远见的企业均可以离开桌面太长时间。“摇滚明星”技术公司经过机器学习得到的效率是巨大的，而湾区的初创企业不只由于“机器学习”是一个流行词而得到了资金，还由于它们中的许多公司业务强大而有力案件。

感兴趣的读者可能会从咱们最近对26位机器学习/人工智能研究人员达成的共识中受益，咱们在其中提出了如下问题：“机器学习应首先应用于商业领域吗？” 该信息图表特点充分体现了本文中强调的许多观点。

高管们面临的最终问题仍然是：咱们何时才能拥有（a）认真投资于机器学习所需的资源，以及（b）合法的用例，该用例始于试图找到真正的商业价值，而不是从“试图找到一种方法”这是一个没法为您完成的思考过程，可是咱们但愿本文可以帮助您了解您的观点并为您提供未来借鉴的资源。

机器学习术语表

除非另有说明，不然定义均来自维基百科。

机器学习（ML） –机器学习是使计算机像人类同样学习和行动的科学，经过以观察和真实交互的形式向计算机提供数据和信息，从而随着时间的推移以自主方式改善其学习。
监督学习 –从标记的训练数据中推断功能的机器学习任务。
无监督学习 –机器学习任务，能够推断功能以描述来自未标记数据的隐藏结构。
分类 –根据一组训练数据肯定新观测值属于哪一组类别
回归 –一种统计技术，用于估计变量之间的关系（包括线性回归，逻辑回归和其余方法）
算法 -要执行的自成体系的分步操做集。算法执行计算，数据处理和/或自动推理任务。
天然语言处理（NLP） –与计算机和人类（天然）语言之间的交互有关的计算机科学，人工智能和计算语言学领域。

扫码进入CDA官方小程序，解锁更多新鲜资讯和优质内容，还有免费试听课程，不要错过哟！