做者 | Daniel Faggella
编译 | CDA数据分析师
自2012年以来,很容易看到风险投资,会议和与业务相关的“机器学习”查询的普遍普及-但大多数技术主管一般很难肯定他们的业务可能将机器学习(ML)实际应用于业务问题的位置。算法
随着每周建立新的AI流行语,彷佛很难掌握哪些应用程序是可行的,哪些是炒做,夸张或骗局。小程序
在本文中,咱们将分解ML一般处理的业务问题的类别,而且还将提供可行的建议,以正确的方法和观点开始ML计划(即便这是您执行的第一个此类项目)在您的公司)。网络
最重要的是,咱们将参考真实的业务用例,以及来自咱们的AI研究人员和执行人员网络的“如何用ML解决业务问题”的引用和观点。到本文结尾,您将对ML是否能够很好地解决您当前的任何业务挑战有一个好主意。架构
*注意:在本文的底部,我以简单语言列出了ML术语的基本词汇表。若是您发现本文中您所不理解的短语或术语,请参阅下面的词汇表,或者,若是您但愿咱们对本文中的概念更加清楚,请 [与咱们联系]并发
若是有可能构建一套规则或“若是-则情景”来彻底解决您的问题,那么可能根本就不须要ML。此外,若是没有成功的先例可将机器学习应用于您要解决的特定问题,那么这可能不是进入ML世界的最佳途径。机器学习
出于说明目的,列出一些成熟的机器学习业务用例将颇有帮助,以便您(读者)能够提出本身的应用程序构想:工具
在经验丰富的数据科学专业人员中,“清洁数据胜于大数据”是一个常见的说法。若是您拥有数年前的大量业务数据,则今天可能没有任何意义,尤为是在基本业务流程逐年急剧变化的领域(例如移动电子商务)中。若是您有大量的非结构化数据和脱节数据,那么您可能须要进行太多的“清理”工做,而后才能开始从收集的信息中学习。oop
UBER机器学习负责人Danny Lange曾经建议刚开始机器学习的公司应从对历史数据应用监督的机器学习开始。查找已经干净且相对较新的数据,并使用带有标签的培训数据开始寻找看法。学习
请注意,在瞬息万变的领域,确定须要更新的数据。例如,若是您为宠物用品运行上门送货服务,而您的应用,价格,产品和服务范围在过去六个月中发生了显着变化,那么您须要的最新数据要比蒙大拿州出售房主保险的公司。若是数据与您当前业务的相关趋势和细微差异无关,则不太可能收集预测价值。测试
虽然无监督学习(请参阅下面的术语表)容许在不使用标签的状况下实现普遍的数据意义的应用,但一般不建议公司在无监督学习中首次应用“跳入”机器学习。ML用例的低调成果极可能是从其历史标记数据中产生的。如下是一些可能有助于读者得到新想法的示例:
ML可能被认为是一种“技能”,就像人们能够将其应用于人类同样。一种技能,能够根据经验进行动态调整,适应和发展。因为这个缘由,机器学习解决方案一般会在必定百分比的时间内是不正确的,尤为是当它是由新的或变化的刺激告知时。若是您的任务绝对不容许出现任何错误,则ML多是该工做的错误工具。
不容许出现错误的应用程序示例多是旨在读取发票或帐单金额而后支付该发票或帐单的应用程序。一个字母或一个数字的差别可能意味着多付了您帐单原始金额的10倍(若是十进制被解释为在错误的位置),或汇款给了错误的公司(若是发票公司名称未正确注册) 。
在上述状况下,某种程度的ML可能有助于“存储”不一样类型的帐单或发票,可是输入付款金额并发送付款的最终决定可能须要负责任的人员。
做为一个有趣的警告,位于旧金山的一家名为Roger.ai的初创公司旨在利用天然语言处理和机器视觉来实现帐单和支付帐单,尽管它在汇款以前将人们拉入了循环。
为了得到关于“为机器学习选择业务问题”问题的更多观点,咱们决定与之前的AI播客访谈对象的网络联系,为咱们的业务读者提供更多指导:
Ben Waber博士-麻省理工学院博士-Humanyze(人工智能技术的人分析公司)首席执行官:
“ 任何具备硬数据,可变性和大量示例的业务问题。”
Danko Nikolic博士-奥克拉荷马大学博士学位-计算机科学公司的数据科学和BD&A:
“ 1。公司能够节省不少钱。
2.预测须要许多变量,它们之间复杂的非线性关系,在某些状况下是高度随机的。所以,一般只有算法才能了解这些关系。光是人类就很难。”
Charles Martin博士-芝加哥大学博士-计算咨询公司首席执行官:
“ 最好的问题是存在一个庞大的历史数据集,这些数据集既包含丰富的功能,又包含能够用于构建的直接反馈以及能够轻松实施和测试的算法,这将下降运营成本, /或当即增长收入。“
Ronen Meiri博士-特拉维夫大学博士-DMWay首席技术官兼创始人
:“大多数企业的问题能够采用两种机器学习方法妥善解决 1 日:‘什么可能会发生’ 和 2 次:“什么是...将来的预期值?”。
第一个是分类类型问题,其中包括对在许多其余用例中可能流失,违约,购买,出售的人进行分类。
第二个问题是指望值问题,该问题能够经过回归解决,而且能够针对各类用例(如订价优化和预测生命周期价值)提供准确的预测。”
彼得·沃斯(Peter Voss)-AGI创新公司首席执行官:
(首先,彼得引用乔治·梅森大学教授罗宾·汉森博士的话:“优秀的CS专家说:大多数认为本身想要高级AI / ML的公司实际上只须要对清理后的数据进行线性回归。”)
“我认为大多数企业都没有理由在ML / DL上进行投资(固然,ML意味着不少事情)。 每一个人都在谈论的最前沿内容须要大量数据和专业知识,而且是静态的,即,当数据或类别更改时,须要对其进行从新培训。”
线性回归是最古老,最简单且普遍使用的机器学习模型之一。一些研究人员认为,至少在最初,许多中间预测问题可能只须要基本方法便可。图片由MathWorks提供。
彼得的评论是恰当的,不该掉以轻心。当ML因其流行和流行而被人们抢走时,它不可能产生显着的结果。找到最适合您的底线需求的工具;ML可能不是知足业务或增加目标所需的解决方案。
这使咱们进入了本指南的第二个主要部分:
在与查尔斯·马丁(Charles Martin)博士(湾区AI顾问)的场外对话中,他提到许多公司热情地阅读了有关ML的内容,并决定“找到某种使用它的方法。”这致使团队没有真正的动力。或追求(或承诺的资源)以驱动实际结果。选择一个很是重要的业务问题,而且彷佛颇有可能获得解决
UBER的Danny Lange从一开始就提到,有一个思惟过程极可能会产生富有成果的机器学习用例思想:“若是咱们只知道____。”
问问本身,您想知道哪些关键业务信息,但当前没法访问?也许是在了解最有可能产生最高客户生命周期价值的潜在客户来源,或者最能代表预期客户流失的用户行为。
想一想要“馈送”您的算法的信息并不像假定的那么容易。机器学习算法虽然擅长识别相关性,但他们没法理解围绕数据的事实,这些事实可能使数据变得相关或不相关。如下是“上下文”如何阻碍开发有效的ML解决方案的一些示例:
构建ML解决方案须要在选择算法,选择数据,清理数据以及在实际环境中进行测试时进行仔细的思考和测试。对于独特而复杂的业务用例,没有“开箱即用”的机器学习解决方案。即便对于极为常见的用例(推荐引擎,预测客户流失),每一个应用程序也会有很大差别,而且须要迭代和调整。若是一家公司没有进行长时间的修补就投入了ML项目,那么它可能永远不会取得有用的结果。
咱们再次联系了咱们的Emerj受访者和共识受访者网络,以获取有关在企业中实施机器学习的意见和技巧。如下是引号的集合:
Ben Waber博士-麻省理工学院博士-Humanyze(人工智能技术的人分析公司)首席执行官:
“ 您不能使用ML真空解决业务问题。确保您获得业务部门负责人的支持,以根据分析作出具体更改。”
Danko Nikolic博士-奥克拉荷马大学博士学位-计算机科学公司的数据科学和BD&A:
“ 企业在使用ML时常犯的最多见错误是,他们认为ML解决方案是一站式过程:他们将数据发送给数据科学家,而数据科学家则将模型返回。与此相反,找到好的ML解决方案是一个反复的过程,涉及研究,试验和错误,试验,与业务专家交谈等。
ML永远不可能成为商品。ML的成功在很大程度上取决于作到这一点的人的知识,技能和奉献精神。”
Charles Martin博士-芝加哥大学博士-计算咨询公司首席执行官:
“在您掌握要作什么以前,请避免创建大规模的基础架构。您能够轻松地花费6个月到一年的时间来设置Hadoop和Spark,而不会看到任何投资回报。
若是您5%的数据正确且有用,您将很幸运。您须要设计一个实验,以识别低垂的果实并找出所需的数据。您能够在高内存的AWS节点上构建算法。
将算法放入实时环境中,并尽早对其进行测试。不要构建尝试完整的生产系统。记住,ML是关于数学的,而不是编码!您想测试一下。运行足够的示例来消除问题,但不要过小,以致于统计数据毫无心义。”
Ferris Jumah-之前曾在LinkedIn担任ML-湾区ML顾问:
“尽快获取数据驱动。机器学习不是免费提供的。您须要围绕数据创建直觉,如何衡量业务并了解客户,不只将度量值连接,还将洞察力连接到决策制定。记录全部内容,构建存储和处理系统,确保它们可访问,对产品进行深刻分析和尽量多的实验,并在尽量多的产品中内置智能。
在这一点上,消费者指望个性化和“智能”功能。创建它们,向他们学习,并确保您拥有适当的反馈机制。最后,雇用和投资对您的问题和业务充满热情的数据人员。”
共识(在上面引用的数量有限,以及与具备业务头脑的数据科学家进行的其余数十次对话中)是,机器学习不像营销自动化软件那样仅仅是“工具”。任何拥有良好管理者并得到社区大学学士学位的人均可以选择“持续联系”,甚至能够选择(甚至能够稍做修改并致电支持热线)Marketo或Hubspot并提升公司价值。
应用机器学习的迭代,多方面过程没有简单的捷径。图像信誉Microsoft的CortanaIntelligence。
机器学习尚未出如今一个整洁的盒子中,而价值倒是由刻苦的思考,实验设计以及(在某些状况下)刻苦的数学创造的。在Google和YouTube上花费一些时间,您能够了解如何为您的企业设置DropBox。经过机器学习预测整个客户群的流失率吗?不同的游戏。
准备从ML中得到业务价值意味着要有受过训练的人才,专家指导和(一般)巨大的“数据清理”时期-并且,正如马丁博士在上面恰当地指出的那样,这没有保证必定会赢。若是Google,Amazon和Facebook可以让他们的实习生创建ML系统,他们真的会花费数百万美圆从学者中挖走世界顶级AI人才来为他们工做吗?
虽然机器学习不是一个简单的设置,但也不是任何有远见的企业均可以离开桌面太长时间。“摇滚明星”技术公司经过机器学习得到的效率是巨大的,而湾区的初创企业不只由于“机器学习”是一个流行词而得到了资金,还由于它们中的许多公司业务强大而有力案件。
感兴趣的读者可能会从咱们最近对26位机器学习/人工智能研究人员达成的共识中受益,咱们在其中提出了如下问题:“机器学习应首先应用于商业领域吗?” 该信息图表特点充分体现了本文中强调的许多观点。
高管们面临的最终问题仍然是:咱们何时才能拥有(a)认真投资于机器学习所需的资源,以及(b)合法的用例,该用例始于试图找到真正的商业价值,而不是从“试图找到一种方法”这是一个没法为您完成的思考过程,可是咱们但愿本文可以帮助您了解您的观点并为您提供未来借鉴的资源。
除非另有说明,不然定义均来自维基百科。
扫码进入CDA官方小程序,解锁更多新鲜资讯和优质内容,还有免费试听课程,不要错过哟!