学习强化学习以前须要掌握的3种技能

时间 2020-07-19

原文原文链接

做者|Nathan Lambert
编译|VK
来源|Towards Data Science算法

现代强化学习几乎彻底集中在深度强化学习上。深度强化学习中的“深”一词意味着在算法的核心方面使用神经网络。神经网络在学习过程当中进行一些高维近似。话虽如此，该模型并不须要具备许多层和特征，这是一个广泛的误解，深层暗示了许多层。网络

几乎全部的课程和教程都假定你能够微调简单的神经网络以近似状态值或建立最终策略。从历史上看，这些模型对如下全部训练参数高度敏感：学习率，批量大小，模型参数，数据规范化等等。RL学习中有许多问题，最好的方法是学习监督学习，而后让AutoML工具为你完成工做。机器学习

从学习一些代码开始，理解代码全部内容，而后从新构建。这样作几回，你会学的很好。监督学习也是一项技能，在接下来的十年中，它将转化为计算机科学的大多数领域，所以请紧跟其后。工具

RL是策略空间中的一个搜索问题。近年来影响最大的论文都是从古老的搜索问题中获得了严重的启发。让咱们来看看最近在RL最有影响力的三篇论文：性能

迄今为止最主流的强化学习结果是：Deepmind掌握了许多游戏，并进行了大规模强化学习。最近是利用规划网络来探索的将来行动(https://deepmind.com/research/publications/investigation-model-free-planning)学习
基于模型的RL的研究现状：基于模型的策略优化（MBPO）。MBPO正在状态做用空间的附近区域进行搜索，以得到更完整的知识。这种模拟的知识就像是一种简单的探索。(https://arxiv.org/abs/1906.08253)优化
无模型的RL研究现状：Soft Actor-critic (SAC)。SAC以有效勘探和高峰值性能相结合而闻名。它经过最大化策略上的熵项来实现这一点。做为一个搜索问题，直接策略搜索是RL最关键的方面。人工智能

你能够在加州大学伯克利分校和麻省理工学院的人工智能课程学习，试试作一两个项目挑战本身。.net

注意，我并无说阅读学术论文，关键是要可以理解它们。

学术领域变化迅速，天天都有论文在活跃的Twitter社区中公布(说真的，关注几位著名的研究人员——这对你跟上进度颇有帮助)。你须要学习的是把有影响力的论文与噪音区分开，把进步与炒做区分开。

它不是关于引用量，尽管我认可引用是一个很好的区别途径。你应该关注的是实验:它们是遵循提出问题、实验、提出解决方案的轨迹，仍是只是对另外一个方法的渐进改进?最好的论文寻找的是真理，而不是数字。

最好的研究是寻找最重要的问题，而无论学术讨论的浪潮。学会辨别这些信号，你就能跟上这个领域的步伐，成为将来十年有价值的人才。

我写了不少关于强化学习的基本技能的教程，以后会发布出来。

欢迎关注磐创AI博客站：
http://panchuang.net/

sklearn机器学习中文官方文档：
http://sklearn123.com/

欢迎关注磐创博客资源汇总站：
http://docs.panchuang.net/