经过评估假设行为来学习人类目标

时间 2020-02-27

标签经过评估假设行为学习人类目标繁體版

原文原文链接

来源| deepmind 算法编译| 武明利，责编| Carol安全出品 | AI科技大本营（ID：rgznai100）微信当咱们在现实世界中训练强化学习（RL）代理时，咱们不会但愿它们探索不安全的状态，例如将一个移动机器人开进沟里，或者向老板发送一封很尴尬的电子邮件。网络在不安全状态下训练RL代理被称为安全探索问题。咱们解决了这个问题中最难的部分，即代理最初不知道环境如何工做的，也不知道

>>阅读原文<<