2018年AI和ML（NLP、计算机视觉、强化学习）技术总结和2019年趋势（上）

时间 2020-09-10

标签 2018年 nlp 计算机视觉强化学习技术总结 2019年趋势栏目快乐工作繁體版

原文原文链接

摘要： 回顾2018，展望2019，计算机科学技术继续前进！

一、简介：

过去几年一直是人工智能爱好者和机器学习专业人士最幸福的时光。由于这些技术已经发展成为主流，而且正在影响着数百万人的生活。各国如今都有专门的人工智能规划和预算，以确保在这场比赛中保持优点。git

数据科学从业人员也是如此，这个领域正在发生不少事情，你必需要跑的足够的快才能跟上时代步伐。回顾历史，展望将来一直是咱们寻找方向的最佳方法。github

这也是我为何想从数据科学从业者的角度退一步看一下人工智能的一些关键领域的发展，它们突破了什么？2018年发生了什么？2019年会发生什么？算法

我将在本文中介绍天然语言处理（NLP）、计算机视觉、工具库、强化学习、走向合乎正道的人工智能框架

二、天然语言处理（NLP）

让机器分析单词和句子彷佛是一个梦想，就算咱们人类有时候也很难掌握语言的细微差异，但2018年确实是NLP的分水岭。机器学习

咱们看到了一个又一个显著的突破：ULMFiT、ELMO、OpenAI的Transformer和Google的BERT等等。迁移学习（可以将预训练模型应用于数据的艺术）成功应用于NLP任务，为无限可能的应用打开了大门。让咱们更详细地看一下这些关键技术的发展。函数

ULMFiT工具

ULMFiT由Sebastian Ruder和fast.ai的Jeremy Howard设计，它是第一个在今年启动的NLP迁移学习框架。对于没有经验的人来讲，它表明通用语言的微调模型。Jeremy和Sebastian让ULMFiT真正配得上Universal这个词，该框架几乎能够应用于任何NLP任务！性能

想知道对于ULMFiT的最佳部分以及即将看到的后续框架吗？事实上你不须要从头开始训练模型！研究人员在这方面作了不少努力，以致于你能够学习并将其应用到本身的项目中。ULMFiT能够应用六个文本分类任务中，并且结果要比如今最早进的方法要好。学习

你能够阅读Prateek Joshi关于如何开始使用ULMFiT以解决任何文本分类问题的优秀教程。测试

ELMO

猜一下ELMo表明着什么吗？它是语言模型嵌入的简称，是否是颇有创意？ ELMo一发布就引发了ML社区的关注。

ELMo使用语言模型来获取每一个单词的嵌入，同时还考虑其中单词是否适合句子或段落的上下文。上下文是NLP的一个重要领域，大多数人之前对上下文都没有很好的处理方法。ELMo使用双向LSTM来建立嵌入，若是你听不懂-请参考这篇文章，它可让你很要的了解LSTM是什么以及它们是如何工做的。

与ULMFiT同样，ELMo显着提升了各类NLP任务的性能，如情绪分析和问答，在这里了解更多相关信息。

BERT

很多专家声称BERT的发布标志着NLP的新时代。继ULMFiT和ELMo以后，BERT凭借其性能真正击败了竞争对手。正如原论文所述，“BERT在概念上更简单且更强大”。BERT在11个NLP任务中得到了最早进的结果，在SQuAD基准测试中查看他们的结果：

有兴趣入门吗？你可使用PyTorch实现或Google的TensorFlow代码尝试在本身的计算机上得出结果。

我很肯定你想知道BERT表明什么，它其实是Transformers的双向编码器表示，若是你可以领悟到这些，那很不错了。

PyText

Facebook开源了深度学习NLP框架PyText，它在不久以前发布，但我仍然要测试它，但就早期的评论来讲很是有但愿。根据FB发表的研究，PyText使会话模型的准确性提升了10％，而且缩短了训练时间。

PyText实际上落后于Facebook其余一些产品，如FB Messenger。若是你对此有兴趣。你能够经过GitHub下载代码来自行尝试。

2019年NLP趋势：

塞巴斯蒂安·罗德讲述了NLP在2019年的发展方向，如下是他的想法：

预训练的语言模型嵌入将无处不在，不使用它们的模型将是罕见的。
咱们将看到能够编码专门信息的预训练模型，这些信息是对语言模型嵌入的补充。
咱们将看到有关多语言应用程序和跨语言模型的成果。特别是，在跨语言嵌入的基础上，咱们将看到深度预训练的跨语言表示的出现。

三、计算机视觉

这是如今深度学习中最受欢迎的领域，我以为咱们已经彻底获取了计算机视觉中容易实现的目标。不管是图像仍是视频，咱们都看到了大量的框架和库，这使得计算机视觉任务变得垂手可得。

咱们今年在Analytics Vidhya花了不少时间研究这些概念的普通化。你能够在这里查看咱们的计算机视觉特定文章，涵盖从视频和图像中的对象检测到预训练模型列表的相关文章，以开始你的深度学习之旅。

如下是我今年在CV中看到的最佳开发项目：

若是你对这个美妙的领域感到好奇，那么请继续使用咱们的“使用深度学习的计算机视觉”课程开始你的旅程。

BigGAN的发布

在2014年，Ian Goodfellow设计了GAN，这个概念产生了多种多样的应用程序。年复一年，咱们看到原始概念为了适应实际用例正在慢慢调整，直到今年，仍然存在一个共识：机器生成的图像至关容易被发现。

但最近几个月，这个现象已经开始改变。或许随着BigGAN的建立，该现象或许能够完全消失，如下是用此方法生成的图像：

除非你拿显微镜看，不然你将看不出来上面的图片有任何问题。毫无疑问GAN正在改变咱们对数字图像（和视频）的感知方式。

Fast.ai的模型18分钟内在ImageNet上被训练

这是一个很是酷的方向：你们广泛认为须要大量数据以及大量计算资源来执行适当的深度学习任务，包括在ImageNet数据集上从头开始训练模型。我理解这种见解，大多数人都认为在以前也是如此，但我想咱们以前均可能理解错了。

Fast.ai的模型在18分钟内达到了93％的准确率，他们使用的硬件48个NVIDIA V100 GPU，他们使用fastai和PyTorch库构建了算法。

全部的这些放在一块儿的总成本仅为40美圆！杰里米在这里更详细地描述了他们的方法，包括技术。这是属于每一个人的胜利！

NVIDIA的vid2vid技术

在过去的4-5年里，图像处理已经实现了跨越式发展，但视频呢？事实证实，将方法从静态框架转换为动态框架比大多数人想象的要困难一些。你能拍摄视频序列并预测下一帧会发生什么吗？答案是不能！

NVIDIA决定在今年以前开源他们的方法，他们的vid2vid方法的目标是从给定的输入视频学习映射函数，以产生输出视频，该视频以使人难以置信的精度预测输入视频的内容。

你能够在这里的GitHub上试用他们的PyTorch实现。

2019年计算机视觉的趋势：

就像我以前提到的那样，在2019年可能看到是改进而不是发明。例如自动驾驶汽车、面部识别算法、虚拟现实算法优化等。就我的而言，我但愿看到不少研究在实际场景中实施，像CVPR和ICML这样的会议描绘的这个领域的最新成果，但这些项目在现实中的使用有多接近？

视觉问答和视觉对话系统最终可能很快就会如他们期盼的那样首次亮相。虽然这些系统缺少归纳的能力，但但愿咱们很快就会看到一种综合的多模式方法。

自监督学习是今年最重要的创新，我能够打赌明年它将会用于更多的研究。这是一个很是酷的学习线：标签能够直接根据咱们输入的数据肯定，而不是浪费时间手动标记图像。

本文做者：【方向】

阅读原文

本文为云栖社区原创内容，未经容许不得转载。