数据分析与数据科学的将来

根据IADSS联合创始人Usama Fayyad博士,在2019年波士顿ODSC大会上的主题演讲后的采访,咱们了解到了数据科学当前和将来的问题以及可能的解决方案。

凯特·斯特拉奇尼(Kate Strachnyi):鉴于人们在数据中所扮演的角色千差万别,所以未来会采用哪些行为改变或使用哪些工具面试

Usama Fayyad:我认为组织中的工具和行为变动可能以比实际方式更昂贵的方式进行,这意味着它们正在经历聘用数据科学家的好与坏。他们中的一些人看到了价值,有些人看到了他们聘用中的不合适,如今他们不得不经过解雇或替换来从中调整,以获取更高的价值。我认为由此产生的结果是,项目组要开始进行更完全的评估。若是你没有一个好的数据科学家,那么距离聘请另外一个好的数据科学家的时间也就不远了。算法

那么,若是你的部门一开始或者已经没有好的科学家在职,那你应该从哪里开始呢?这就是为何你须要招募人才,对吗?你如何解决?咱们认为,经过制定标准,对每一个职员的角色,职位以及所须要的培训进行良好的描述,实际上才能令人们更容易地经过不少简历,而后选择那些看起来颇有前途的工做,选择可能有价值的面试,知道在面试中可能会问些什么。咱们分享了不少候选人的反馈,他们说:“嘿,我在十个不一样的地方接受了同一份工做的面试。除了围绕编程的两个小问题外,面试几乎没有什么共同之处。”编程

凯特·斯特拉奇尼(Kate Strachnyi):好吧,我要说的是,若是有一个数据科学家须要回答的十个常见问题,你能够考虑将这些问题的答案发布到Google的某个地方。安全

Usama Fayyad:固然。这就是为何没有其余替代方法能够进行实时跟踪,从而使你更加深刻。仅仅问常见问题是不够的。当你进行视频采访时,有一些工具能够检查这些行为,以查看是否有人在看其余地方,或者其余人是否坐在后台窃窃私语。令我惊讶的是,如今有了技术,人们可使用AI来检测是否在受监督的视频采访中有标记某项内容,而且是否有公司提供这些服务。当你收到一个红旗时,你会停下来并说:“你真的知道这个地区吗?让我问你一些后续问题。”一般,做弊的人会很快崩溃。架构

凯特·斯特拉奇尼(Kate Strachnyi): 与咱们所说的有关,有不少人想成为数据科学家,可是他们也在AI中发挥了不少技术创新做用,能够帮助数据科学家完成工做。那么,你是否定为,机器人正在接替咱们的工做,而且技能差距将会缩小?这是个问题吗?机器学习

“ AI并非要用机器人代替人类。它是要把机器人从人类身上带走。”工具

Usama Fayyad:我认为这是MIT数据实验室或MIT媒体实验室提出的座右铭:“ AI并非要用机器人代替人类,而是要把机器人从人类手中带走”。所以,我认为AI和许多此类技术正在使他们的工做更加轻松。实际上我根本不相信他们有能力取代咱们的工做。能够替代的工做是很是平凡,很是机械化,很是重复的任务,这类工做我认为机器会比人类作得更好。咱们须要人类,由于到目前为止。咱们不知道如何构建一种具备大多数人拥有的东西的机器,这是常识,而且可以在新状况下快速作出判断。学习

我喜欢用自动驾驶来举例子。我认为短时间内咱们不会看到自动驾驶。这项技术可能须要30多年的时间。可是我确实相信,今天在不少领域,这些AI算法均可觉得咱们提供不少帮助。所以,避免分心的驾驶员发生碰撞,提早给予警告并进行刹车操做,这些是十分有用的。对于许多人同时泊车的状况来讲,能够帮助你完成任务的工具如今能够自动化,这是一件好事。所以,在这些区域中,你能够自动执行许多操做,可是到目前为止,咱们还没法构建能预见咱们可能遇到的状况的机器。以前没有看到过能迅速作出反应,能未来自另外一种相似状况的知识映射到该状况并有效利用的例子。我有不少相似这种状况的例子,这也就是我为何不相信自动驾驶将如何发生的缘由,至少在个人一辈子中如此。可是我认为这些机器已经足够先进,能够执行许多平凡的任务,并在我分心,无能或有其余问题时为我提供帮助。大数据

凯特·斯特拉奇尼(Kate Strachnyi): 好的。因此你的意思是咱们如今很安全吗?加密

乌萨马·费耶德(Ysama Fayyad):是。实际上,从历史上看过去的两个AI冬季,因为全部的炒做,我认为将会有一个新的AI冬季,咱们创造的工做要比淘汰的工做多得多。所以,你打开了一堆新的领域,人们能够在其中执行许多更高价值的工做。

凯特·斯特拉奇尼(Kate Strachnyi): 从人类活动要求中消除单身主义可使人类变得更加敏感,富有创造力和积极主动。应该对行业的许多领域都带来好处,而不是害处。你赞成吗?

乌萨马·法耶德(Usama Fayyad):我彻底赞成,实际上,我是彻底支持的。我将使用一个很是基本的示例,该示例与数据科学关系不大,但倒是相关的。一百多年前的会计处理打开了这些庞大的分类账,须要花几天时间计算数字并仔细检查有没有记错。此外,还有各类各样的技巧能够避免错误,并仔细检查这些尘土飞扬且没法访问的分类账。现在,若是没有软件来完成跟踪数字,累加数字,作全部正确的事情,建立资产负债表等全部平常工做,那么没有人会想到作会计这项工做。对我来讲,这是一个例子,如今会计师能够考虑更具战略意义的事情。咱们能够考虑诸如“这笔费用有必要吗?”之类的事情,“这有意义吗?”,“咱们能够在这里省钱吗?”,“咱们能够更好地利用资产吗?”等他们历来没有时间考虑的问题。这才是真正理财的价值所在。

凯特·斯特拉奇尼(Kate Strachnyi): 数据技术对企业指望的影响是什么?

人们一般会在图形和摘要级别使用数据,而诸如机器学习算法之类的机器则须要每一个小事务及其周围事物的细节。

乌萨马·法耶德(Usama Fayyad):咱们所看到的最大的事情是数字化浪潮。我认为,在不少数字化或所谓的数字化转换工做中,这几乎是个人挚爱,人们开始将许多手动任务数字化,使它们更准确,重复性更低,且更快。所以,发生的事情是它们形成了咱们所谓的“即时技术债务”,由于你如今已经创建了数字化机制,而且忘记了诸如“如何捕获正确的数据?”之类的问题。“我该如何表示这些数据?” “如何存储这些数据?” “如何在正确的时间检索它?” 和“这是什么级别的数据?”。人们一般会在图形和摘要级别使用数据。

那是人类彻底不消耗,可是对于学习算法是必需的东西。因此,对我来讲,如今正在发生的事情是人们正在从新思考,在告诉咱们,好吧,若是我真的在进行适当的数字化,我想确保我投入正确的大脑和正确的智力,以这样的方式实际设计它。这样,当我捕获正确的数据,正确地管理数据时,最重要的是,启用很是挑剔的机器学习算法,这些算法只能处理某种格式的数据,若是不是这种格式的数据就彻底崩溃了。我认为这就是如今正在发生变化并变得更好的事情,尤为是对于大数据,这使得处理不一样类型的数据变得容易。

凯特·斯特拉奇尼(Kate Strachnyi): 企业具备在信息安全与信息利用之间实现数据平衡的风险承受能力,做为首席数据官,你对此有何见解?

Usama Fayyad:一个巨大且很是重要的话题。我坚信你能够最大限度地利用,同时也最大程度的保护隐私。你只须要注意本身的操做方式便可。如此众多的组织沉迷于数据泄漏,攻击和黑客攻击。事实证实,大多数威胁是内部威胁。这些内部威胁中有许多来自有意或无心安装了不良软件,恶意软件等的人。这就是所谓的社会工程。即便你没有链接到外部,坏人也能够经过这种方式将其带入。实际上,很是著名的漏洞就是这样发生的,包括新闻中的一些著名漏洞。我要在这里说的是,一旦边界安全,就很安全。

事实证实,大多数数据威胁是内部的。数据应加密。只有真正有理由访问密钥的人才能访问密钥。

这是一个很是糟糕的假设。顺便说一句,对于物联网和物联网,这已经成为一个很是糟糕的假设,由于在这个世界上没有周界。所以,正确的作法很简单,对吧?数据应加密。只有真正有理由访问密钥的人才能访问密钥。并且,对密钥的管理必须足够活跃,以确保没有人由于历史缘由而对密钥进行计数,并且按键始终保持刷新状态。能够当即更改密钥,以便在发生不良状况时能够当即拒绝人们访问。顺便说一下,这些技术今天已经可用,只是没有被懒惰所使用。所以,须要你正确执行此操做并确保它是正确的访问权限。

没有人真正须要看它。查看数据集的机器学习算法的优势在于,它不须要咱们认为的任何私人信息。例如,PII(我的身份信息)对算法没有用。若是你有名称或社会安全号码,该算法会将其丢弃,由于它是每一个数据记录的惟一标识符。除非它是一个错误的算法,不然它没有预测价值。但这会收集整体的预测模式,即人们在使用此产品和此功能时,每每会遇到这类问题。或者,咱们的客户正在寻找东西,这是咱们将销售翻番的机会。所以,能够经过算法来从数据中收集这些信息,这些算法能够安全地运行,而无需人工实际访问。在不危害数据隐私性的前提下,你只须要拥有一个受到良好控制和架构化的故事,就能够说明谁什么时候何地访问数据了。

获取更多优质内容,可前往:疫情当下,宅家也能好好提高本身,为将来蓄能——蓄势待发!

相关文章
相关标签/搜索