2017 年回顾：NLP、深度学习与大数据

时间 2019-11-24

标签回顾 nlp 深度学习数据繁體版

原文原文链接

本文由【AI前线】原创，原文连接：t.cn/RTHRSQq
html

AI 前线导读： “过去几年以来，深度学习（简称 DL）架构及算法已经在图像识别与天然语言处理（NLP）、数据科学、机器学习和预测分析领域领域取得了使人印象深入的进展。算法

尽管其在天然语言处理（简称 NLP）领域的应用最初较为平淡，但现在的成效已经证实这一层面将成为深度学习的另外一大施展空间，并确实有能力为部分常见 NLP 任务提供最早进的支持成果。命名实体识别（简称 NER）、词类（简称 POS）标记乃至情感分析都已经成为神经网络模型超越传统处理方法的重要应用方向。而在此之中，机器翻译的进步幅度尤其可观”。编程

在今天的文章中，咱们将回顾 2017 年年内基于深度学习技术所实现的 AI 发展成效。固然，受到篇幅所限，本篇文章不可能涵盖所有科学论文、框架及工具。在这里，咱们只但愿与你们分享这一年中最振奋人心的成果，同时结合全球 AI 大咖观点，带你回顾过去一年以来，深度学习带来的发展及其意义。安全

天然语言处理的发展与趋势微信

2017 年是天然语言处理领域的重要一年，深度学习所发挥的做用正在不断扩大，尤为在某些状况下可以带来惊人的效果——而全部迹象都代表，这一趋势在新的一年中还将持续下去。网络

从训练 word2vec 到使用预训练模型架构

能够说，词嵌入是深度学习在天然语言处理领域最为知名的技术之一。词嵌入源自 Harris 于 1954 年提出的分布假说，他认为具备类似含义的词汇一般会出如今同类语境当中。关于词嵌入的详细解释，这里建议你们参阅 Gabriel Mordecki 发布的这篇精彩文章。并发

词汇分布向量示例框架

Word2vec（由 Mikolov 等于 2013 年提出）与 GloVe（由 Pennington 等于 2014 年提出）等算法正是这一领域的先驱性方案——虽然其尚不属于深度学习（word2vec 中的神经网络较为浅表，而 GloVe 则采起基于计数的实现方法），但利用两者训练的模型已经被普遍应用于各种深度学习天然语言处理方案当中。另外须要强调的是，这两种算法确实极具成效，甚至使得词嵌入成为目前最值得确定的实现方法。机器学习

做为起步，对于须要使用词嵌入的特定 NLP 问题，咱们倾向于首先使用一套与之相关的大型语料库进行模型训练。固然，这种做法存在必定的入门难度——也正由于如此，预训练模型才开始逐渐普及起来。在利用维基百科、Twitter、谷歌新闻以及 Web 抓取等数据完成训练以后，这些模型将容许你们轻松将词嵌入机制整合至本身的深度学习算法当中。

2017 年的种种实践证实，预训练词嵌入模型已经成为解决 NLP 问题的一类关键性工具。举例来讲，来自 Facebook AI Research（简称 FAIR）实验室的 fastText 即提供包含 294 种语言的预训练向量，这无疑给整个技术社区带来了巨大的贡献与推进做用。除了可观的语言支持数量，fastText 还采用字符 N 元模型（即便是来自特定领域的术语等罕见词，其中亦包含一样存在于其它常见词中的 N 元字符组合），这意味着 fastText 可以回避 OOV（即词汇量超出）问题。从这个角度来看，fastText 的表现要优于 word2vec 以及 GloVe，并且前者在处理小型数据集时一样更胜一筹。

尽管已经实现了必定进展，但这方面仍有大量工做须要完成。举例来讲，卓越的 NLP 框架 spaCy 就可以对词嵌入与深度学习模型加以整合，从而以原生方式实现 NER 及依存关系语法分析等任务，使得用户可以更新现有模型或者使用自主训练的模型。

将来应该会出现更多针对特定领域的预训练模型（例如生物学、文学、经济学等），从而进一步下降天然语言处理的实现门槛。届时用户只须要对这些模型进行简单微调，便可顺利匹配本身的实际用例。与此同时，可以适应词嵌入机制的方法也将不断涌现。

调整通用嵌入以适配特定用例

预训练词嵌入方案的主要缺点，在于其使用的训练数据每每与咱们的实际数据之间存在着词汇分布差别。假定您面对的是生物学论文、食谱或者经济学研究文献，你们可能没有规模可观的语料库用于嵌入训练 ; 在这种状况下，通用词嵌入方案可能有助于带来相对理想的成果。然而，咱们该如何对词嵌入方案进行调整，从而确保其适合您的特定用例？

这种适应性一般被称为 NLP 中的跨领域或领域适应技术，其与迁移学习很是类似。Yang 等人在这方面拿出了很是有趣的成果。今年，他们公布了一套正则化连续跳元模型，可根据给定的源领域词嵌入学习目标领域的嵌入特征。

其中的核心思路简单但极富成效。想象一下，假定咱们已经在源领域当中知晓词 w 的词嵌入为 w_sw。为了计算 w_twt（目标领域）的嵌入，做者在两个领域之间向 w_sw添加了一个特定迁移量。基本上，若是该词在两个领域皆频繁出现，则意味着其语义与领域自己不存在依存关系。在这种状况下，高迁移量意味着该词在两个领域中产生的嵌入结果倾向于彼此类似。但若是该词在特定领域中的出现频率比另外一领域明显更高，则迁移量将相应下降。

做为与词嵌入相关的研究议题，这项技术尚未获得普遍关注与探索——但我相信其会在不久的将来得到应有的重视。

情感分析——使人印象深入的“副产物”

与青霉素乃至 X 光同样，情感分析一样是一场意外中的惊喜。今年，Radford 等人开始探索字节级递归语言模型的特性，但其本意只是但愿预测 Amazon 评论内容中的下一个字符。最终的结论显示，他们训练模型中的某个神经元可以准确预测情感值。是的，这个单一“情感神经元”可以以使人印象深入的水准将评论内容归类为“正面”或“负面”。

审查极性与神经元的值

在注意到这种现象后，做者们决定利用斯坦福情绪树库对该模型进行进一步测试，并发现其准确性高达 91.8%——优于原有最好成绩 90.2%。这意味着他们的模型可以以无监督方式利用更少实例实现训练，并至少可以立足斯坦福情绪树库这一特定但涵盖范围普遍的数据集之上实现最为先进的情感分析能力。

情感神经元的实际使用

因为该模型立足字符层级运做，所以各神经元会根据文本中的每一字符做出变动，而最终成效使人印象深入。

情感神经元的行为

举例来讲，在“best”一词以后，该神经元的值会变为强正值。然而这种效果将随着“horrendous”这一负面词语的出现而消失——很是符合逻辑。

生成包含偏向极性的文本

固然，这套训练模型亦是一套行之有效的生成模型，所以可以用于生成相似 Amazon 评论的文本内容。而让我我的感到惊喜的是，你们甚至可以简单覆盖情感神经元的值来选定所生成文本的偏向极性。

以上为所生成的示例文本。

做者们选择了乘法 LSTM（由 Krause 等人于 2016 年发布）做为其神经网络模型，这主要是因为他们发现乘法 LSTM 的超参数设置收敛速度要远高于其它普通 LSTM。其中包含 4096 个单元，且利用 8200 万条 Amazon 评论内容进行训练。

时至今日，咱们仍没法理解这套通过训练的模型为什么可以以如此精确的方式捕捉到评论内容的情感倾向。固然，你们也能够尝试训练本身的模型并进行实验。再有，若是您拥有充分的时间与 GPU 计算资源，亦可投入一个月利用四块英伟达 Pascal GPU 重现研究人员们的训练过程。

Twitter 中的情感分析

不管是对企业品牌的评价、对营销活动影响做出分析抑或是量化 2016 年美国总统大选中民众对希拉里与特朗普的支持程度，Twitter 中的情感分析一直做为一款强大的工具存在。

特朗普对希拉里：Twitter 上的情感分析

SemEval 2017

Twitter 上的情感分析已经引发了 NLP 研究人员们的普遍关注，同时亦成为政治及社会科学界内的热门议题。也正由于如此，SemEval 自 2013 年以来提出了一项更为具体的任务。

今年，总计 48 支队伍参与到评选当中，这也再次证实了 SemEval 的魅力所在。为了进一步了解 Twitter 公司组织的 SemEval 到底是什么，咱们将首先回顾其今年提出的五项任务：

任务 A: 根据给定的一条推文，判断其表明正面、负面抑或中性情感。

任务 B: 根据给定的一条推文与主题，将与该主题相关的推文内容进行观点二分：正面与负面。

任务 C: 根据给定的一条推文与主题，将与该主题相关的推文进行观点五分：强正面、弱正面、中立、弱负面、强负面。

任务 D: 根据与某一主题相关的一组推文，估算其中正面与负面情感类别的分布状况。

任务 E: 根据与某一主题相关的一组推文，立足如下五种类别进行推文内容估算：强正面、弱正面、中立、弱负面、强负面。

如你们所见，任务 A 属于最多见的任务，有 38 个团队参与了这项任务 ; 但其它任务则更具挑战性。主办方指出，深度学习方法的使用量已经至关可观并仍在不断增长——今年已经有 20 个团队开始采用卷积神经网络（简称 CNN）与长 / 短时间记忆（简称 LSTM）等模型。此外，尽管 SVM 模型仍然至关流行，但已经有一部分参与者将其与神经网络方法或词嵌入特征加以结合。

BB_twtr 系统

今年我还发现了一套纯粹的深度学习系统，即 BB_twtr 系统（Cliche，2017 年），其在五项任务的英文版本挑战中所有位列第一。该做者将 10 套 CNN 与 10 套 biLSTM 结合起来，并利用不一样超参数以及不一样预训练策略对其进行训练。感兴趣的朋友能够查阅连接内论文中对该网络架构的详尽描述。

为了训练这些模型，做者采用了人类标记推文（为了让你们体会到其工做量，单是任务 A 就包含 49693 条此类推文），同时构建起一套包含 1 亿条推文的未标记数据集。其可以经过简单的字符表情标记——例如：-）——从这套未标记数据集中提取出独立数据集。这些推文经过小写、标记、URL 以及表情符号等被替换为统一的标记方式，用于强调证据的重复字符也通过相似的处理（例如将‘Niiice’与‘Niiiiiiice’统一转换为‘Niice’）。

为了对做为 CNN 及 biLSTM 输入内容的词嵌入进行预训练，该做者采用了 word2vec、GloVe 以及 fastText 对未标记数据集进行训练，且三者皆采用默认设置。在此以后，他利用中立数据集对词嵌入进行微调，旨在添加极性信息 ; 最后再利用人类标记数据集对模型进行再次微调。

利用以往 SemEval 数据集进行实验，他发现 GloVe 会致使成效下降，且并不存在适用于所有数据集的最佳模型。该做者随后将所有模型利用一套软投票策略结合起来。最终得出的模型顺利打败了 2014 年与 2016 年的获胜模型方案，且与其它几年的优胜者亦相差很少。正是这套方案，在 2017 年的 SemEval 当中得到五项任务的英文版本优胜。

尽管他选择的组合方式并不具有有机性——而仅经过一种简单的软投票策略实现，但这项工做仍然证实了将多种深度学习模型加以结合的可能性。事实上，此次尝试还证实了咱们彻底可以以端到端方式（即输入内容必须通过预处理）实现超越监督学习方法的 Twitter 情感分析能力。

使人兴奋的抽象归纳系统

自动归纳与自动翻译同样，皆属于天然语言处理领域的元老级任务之一。目前实现自动归纳主要经过两种方法：基于提取型方法，经过从源文本中提取最重要的文本段创建摘要 ; 基于抽象型方法，以抽象方式经过生成文本构建摘要内容。从历史角度来看，基于提取的方法最为常见，这主要是由于其实现难度要远低于基于抽象型方法。

过去几年以来，基于递归神经网络（简称 RNN）的模型开始在文本生成方面取得惊人的进展。其在简短输入与输出文本场景中的表现很是出色，但所生成的长文本却存在着连续性差及重复度高等问题。在工做当中，Paulus 等人提出了一种新的神经网络模型以克服上述局限——而结果使人振奋，具体以下图所示：

模型所生成的摘要内容

做者们利用一款 biLSTM 编码器读取输入内容，并利用 LSTM 解码器生成输出结果。他们的主要贡献在于利用一种新的内部关注策略对输入内容以及连续生成的输出结果进行分别关注，同时结合标准监督词语预测与强化学习机制创建起一种新的训练方法。

内部关注策略

之因此要提出内部关注策略这一律念，主要是为了不输出结果中的重复性问题。为了达到这项目标，他们在解码过程当中使用暂时关注机制查看输入文本中的前一段落，并借此决定下一个将要生成的词汇。这就迫使该模型在生成过程当中使用输入内容中的不一样部分。此外，做者们还容许模型从解码器当中访问此前曾经存在的隐藏状态。将这两条函数结合起来，便可为摘要输出结果选择最理想的一下个单词。

强化学习

在建立同一条摘要时，不一样的人每每会使用彻底不一样的词汇与句子——而这两条摘要可能一样准确有效。所以，良好的摘要并不必定须要尽量同训练数据集中出现的词汇序列相匹配。以此为前提，做者们决定避免使用标准的指导强迫算法，而是在每一个解码步骤内（即生成每一个单词时）尽量减少丢失值。事实证实，他们选择的这一强化学习策略确实很是有效。

来自近端到端模型的出色成果

这套模型接受了 CNN/Daily Mail 数据集的测试，并获得了极为出色的处理结果。除此以外，人类评估者亦对该模型做出了测试，并发现其摘要结果的可读性与质量都有所提高。这些结果使人印象深入，特别是考虑到其仅须要很是基础的预处理过程：对输入文本进行标记与小写化，然后将数字所有替换为“0”，最终将数据集内的部分特定实体完全移除。

这是否表明着通往无监督机器翻译的第一步？

所谓双语词典概括，是指利用两种语言的源语与单语语料库实现单词识别与翻译——这是一项历史至关悠久的天然语言处理任务。自动生成的双语词典可以有力支持其它 NLP 类任务，包括信息检索与统计类机器翻译等。然而，此类方法大多高度依赖于某种资源——例如初始版本的双语词典。而这类词典每每并不存在或者很难构建。

随着词嵌入机制的成功，人们开始考虑实现跨语言词嵌入的可能性——其目标在于分配嵌入空间，而非创建词典。遗憾的是，第一批实现方案仍然依赖于双语词典或对等语料库。不过在实践工做当中，Conneau 等人（2018 年）提出了一种极具发展前景的方法，其不依赖于任何特定资源，且在多种语言到语言翻译、句子翻译检索以及跨语言单词类似性类任务当中拥有优于现有监督学习方法的实际成效。

做者们开发出的方法是将所输入的两组词嵌入以单一语言数据为基础进行独立训练，然后学习两者之间的映射关系，从而使得翻译结果在公共空间内尽量接近。做者们利用 fastText 对维基百科文档进行无监督词汇向量训练，下图所示为这种方法的核心实现思路：

在两套词嵌入空间之间创建映射关系

其中红色的 X 分布为英语单词嵌入，而蓝色的 Y 分布则为意大利语单词嵌入。

做者们首先利用对抗性学习以获取用于执行第一次初始对齐的旋转矩阵 W。根据 Goodfellow 等（2014 年）提出的基本原则，他们构建起一套生成对抗网络（简称 GAN）。若你们但愿了解 GAN 的工做原理，推荐各位参阅本篇由 Pablo Soto 撰写的文章。

为了在对抗学习过程当中进行问题建模，他们在定义中为鉴别器添加了断定角色，同时随机从 WX 与 Y 中提供某些样本元素（详见上图中的第二列），借以判断这些元素属于哪种语言。接下来，他们训练 W 以防止鉴别器做出准确的预测。这种做法在我看来简直有才，而其结果也至关使人满意。

在此以后，他们利用两个后续步骤进一步完善映射关系。其一是避免在映射计算中因罕见字的出现而引起问题。其二是构建实际翻译能力，其中主要应用到已经学会的映射关系与距离度量机制。

在某些状况下，这套模型拥有极为先进的处理结果。例如在英语到意大利语的单词翻译过程当中，在 P@10 的状况下，其可以以接近 17% 的精度完成源单词翻译（具体数量超过 1500 个）。

英语到意大利语单词翻译平均精度。

做者们宣称，他们的方法将可以做为无监督机器翻译技术的重要起点。若是实际状况真是如此，那么将来的前景绝对值得期待。固然，咱们也但愿看到这种新方法可以走得更快、更远。

专用型框架与工具

目前市面上存在大量通用型深度学习框架与工具，其中 TensorFlow、Keras 以及 PyTorch 选项获得了普遍使用。然而，专用型开源 NLP 深度学习框架及工具也开始兴起。2017 年是使人振奋的一年，目前已经有很多很是实用的开源框架被交付至社区手中。而如下三款引发了个人浓厚兴趣。

AllenNLP

AllenNLP 框架是一套构建于 PyTorch 之上的平台，用于在语义 NLP 任务中轻松利用深度学习方法解决问题。其目标是帮助研究人员设计并评估新模型。该框架包含多种经常使用语义 NLP 任务的参考实验模型，具体包括语义角色标记、文本引用以及共因解析等。

ParlAI

ParlAI 框架是一套开源软件平台，用于进行对话研究。其利用 Python 实现，旨在为对话模型的共享、训练与测试提供一套统一的框架。ParlAI 可以与 Amazon Mechanical Turk 实现轻松集成。另外，其还提供多种流行数据集，并可以支持大量神经模型——包括记忆网络、seq2seq 以及关注型 LSTM 等。

OpenNMT

OpenNMT 工具集是一款通用型框架，专门用于序列到序列类模型。其可用于执行诸如机器翻译、摘要、图像到文本以及语音识别等任务。

写在最后

毫无疑问，用于解决 NLP 类问题的深度学习技术正在不断增长。在这方面的一大证实性指标，在于过去几年来发表在 ACL、EMNLP、EACL 以及 NAACL 等关键性 NLP 会议上的深度学习论文在比例上出现了显著提高。

深度学习论文百分比变化图

然而，真正的端到端学习目前才刚刚开始。咱们仍须要完成一些经典的 NLP 任务以筹备数据集，例如对某些实体（包括 URL、数字以及电子邮箱地址等）进行清洗、标记或者统一化调整。咱们还在利用各种通用型嵌入，其缺点在于没法捕捉到特定领域术语的重要意义，且在多词表达式的理解方面表现不佳——我在本身的工做项目中已经充分体会到了这些弊端。

对于将深度学习技术应用于 NLP 领域而言，2017 年无疑是伟大的一年。我但愿 2018 年可以带来更多端到端学习成果，而各种专用型开源框架也能获得进一步发展。若是您对于本文中说起的各种成果及框架有着本身的见解，或者拥有您支持的方案，请在评论中与你们分享。

机器学习与大数据的发展与趋势

2017 年，咱们见证了大数据将 AI 推向了技术浪潮之巅。AI 成为媒体和从业者的注意力焦点，固然这其中包含了正面（各行各业日趋强大的机器学习算法和 AI 应用）和负面（机器将取代人类工做，甚至控制人类世界）的信息。咱们也目击了基于数据的价值创新，包括数据科学平台、深度学习和主要几个厂商提供的机器学习云服务，还有机器智能、规范性分析、行为分析和物联网。

咱们综合整理了一些数据科学家、AI 专家对 2017 年机器学习和发数据发展示状的总结，以及他们对 2018 年发展趋势的预测，因为篇幅有限咱们隐去了这些专家的名字，若是须要了解专家的详细信息，请参看文末的参考文章，若是各位读者有其余补充和观点，欢迎在评论区与咱们讨论。

2017 的发展情况

AlphaGo Zero 带来了一种新的加强学习方式，或许是 2017 年 AI 领域最重大的研究成果

2017 年，咱们看到了 AI 的大踏步发展。尽管以前的深度学习模型须要大量的数据来训练算法，但神经网络和加强学习的应用告诉咱们，大数据集并不是高效算法的必要条件。DeepMind 使用这些技术创造了 AlphaGo Zero，它的表现已经超出了以前的算法。

企业 AI 成为主流

不少大型公司启动了 AI 或机器学习项目，不过这些项目的目标有必定的局限性。大型厂商的项目日趋走向开源，DIY 项目会愈来愈多。这意味着企业必须提高数据科学技能。例如：

（1）谷歌发布了第二代 TPU，若是从能量方面来考量，它能够节省数十亿美圆。

（2）英伟达发布的 Volta 架构基于特斯拉 GPU，每一个 GPU 能够支持 120 万亿次浮点运算。

（3）D-Wave 量子计算机炒做风波平息，带有 QISKit 量子编程框架的 20 量子位量子计算机出现。

机器学习被应用在数据集成上

2017 年是智能分析平台的发展元年。从分析机器人到自动化机器学习，数据科学中出现了太多复杂、智能自动化的东西。数据集成和数据预备平台可以智能地处理数据源，自动修复数据管道中的错误，甚至基于经过与人类交互学习而来的知识进行自我维护或完成数据质量处理任务。自动机器学习平台和半自动化的特征工程很快改变了数字分析领域的游戏规则。

数据科学自动化，出现了不少自动化机器学习平台。机器学习解决了数据分析和数据管理的大难题，须要大量人工介入的数据集成被某种程度的自动化方式所取代，为咱们节省了大量时间。

保守的公司开始拥抱开源

最为保守的传统公司（如银行、保险、健康医疗）开始主动使用开源的数据分析、AI 和数据管理软件。有些公司鼓励员工抛弃使用具备著做权的工具，有些则只建议在个别项目上使用它们。这其中有成本方面的考虑，但更好的性能和招聘方面的便利也是重要的考虑因素。

Python、Java 和 R 语言从 2017 年开始成为最为吃香的编程语言

人们对 AI 发展的期待快过其实际发展程度

2018 年趋势预测

AI 将更多应用在商业领域

2018 年，AI 的发展脚步会加快，AI 的价值将在这一年获得体现：

McAfree 实验室的研究报告代表，对抗机器学习将被用在网络入侵检测、欺诈检测、垃圾检测和木马检测上。
HPE 将研发标量积引擎，并推出本身的神经网络芯片，用于高性能推理计算，如深度神经网络、卷积神经网络和循环神经网络。
无监督学习和自治学习将助力机器人与周围的陆上环境和水下环境互动。
机器学习在物联网和边缘计算领域的应用门槛将会下降，空间位置智能将出现突破性的算法，应用在手机、RFID 传感器、UAV、无人机和卫星上。
机器学习应用继续扩张领地，好比市场、金融风险、欺诈检测、劳动力优化配置、制造业和健康医疗。
深度学习无论在势头上仍是在实际应用价值上都蓬勃发展。一系列新型的高级神经网络将机器学习提高到新的高度，以高性能解决大信号输入问题，如图像分类（自动驾驶、医疗图像）、声音（语音识别、说话者识别）、文本（文本分类），甚至是“标准”的业务问题。

这一领域的开发内容与 2017 年相比可能不会有太大变化：流程自动化、机器智能、客户服务、我的定制化以及劳动力转型。物联网领域的发展也会更加成熟，包括更加成熟的安全特性、模块化平台、用于访问传感器数据流的 API 以及边缘分析接口。咱们也将看到数字化在其余领域成为主流，如制造行业、基础设施领域、工程领域和建筑行业。咱们相信，2018 年会有更多的从业者将 AI 的优点带向更广大的领域。

2017 年是星光耀眼的一年，不少甚至跟 AI 都擦不上边的厂商开始提供 AI 产品。2018 年，咱们将看到 AI 和机器学习应用在更多的商业领域。为何这么说？由于那些亟待解决业务问题的大佬们并不关心具体的技术将怎样发展，他们会千方百计加速供应链流动，想知道客户的动向，并向计算机寻求答案。那些可以以最快速度提供预测分析的厂商将成为游戏规则的制定者。

独立 AI 初创公司将走向衰落

在过去几年，风险资本的追捧催生了数百家 AI 初创公司，每家公司都只解决一小部分问题。尽管它们很努力，但要在现有的流程中实现集成将是一个巨大的挑战。所以，现有的公司要么提供易于集成的 AI“微服务”，要么向已经将 AI 嵌入到事务系统中的厂商购买服务。

规则与安全将相当重要

随着 AI 在众多领域的应用，如犯罪审判、金融、教育和职场，咱们须要创建算法标准来评估它们的准确性。关于 AI 对社会影响的研究将会持续增加，包括创建 AI 的适用规则（好比避免决策黑盒）以及了解深度学习算法是如何作出决策的。

安全问题将继续升温，企业将在安全方面投入更多的精力，提高区块链可见性是提高公司数据安全性行之有效的方式。期待下一年可以看到自动化 AI 被无缝地集成到更多的分析和决策过程当中。欧洲通用数据保护条例的实施确保数据不会被滥用，从而更好地保护我的数据。

量子计算将吸引更多目光

量子机器学习的将来取决于拥有更多状态的量子位，多是 10 以上，而不是只能支持两种状态的量子位。量子计算和数据科学算法将吸引更多人的眼球，尽管真正的量子计算机还离咱们很遥远。

AI 泡沫将持续膨胀

人们从 2017 年开始大肆谈论机器学习、AI 和预测分析，惋惜大部分公司或厂商都是在故弄玄虚，他们根本没有真正的实力去作这些事情。这些领域须要时间和人才，实打实的经验是很是重要的！AI 泡沫将继续膨胀，不过咱们也会看到沉淀的迹象。AI 仍然会被过分吹捧。

数据科学家群体将扩大

数据分析员和数据科学家须要知道哪些算法能够用来作什么。分析和机器学习的自动化将产生多元化的算法，有可能会出现“人人都是数据科学家”的局面。与此同时，GDPR（欧洲通用数据保护条例）将在 2018 年 5 月 25 号开始实行，这将给数据科学带来重要影响。

2018 年将是数据科学和预测分析领域出现众多领头羊的一年，不仅是由于这是大势所趋，根本缘由是它们将给咱们的业务带来真正的改变。预测招聘能够为你省下数百万美圆的招聘经费，AI 和机器学习能够在几秒钟内彻底以前须要几天才能完成的事情。

2018 年，实现“人人都是数据科学家”的目标将是头等大事。从专家的经验来看，团队仍然须要保持综合性结构：为不具有数据分析背景的员工和高层提供工具来帮助他们作出决策。更重要的是，团队须要开发出本身的数据模型，要有可以理解模型和特定分析技术局限性的的数据科学家。

参考文章

https://tryolabs.com/blog/2017/12/12/deep-learning-for-nlp-advancements-and-trends-in-2017/

https://www.kdnuggets.com/2017/12/data-science-machine-learning-main-developments-trends.html

关注咱们的微信号"AI前线"，后台回复“AI”可得到《AI前线》系列PDF电子书