经过评估假设行为来学习人类目标

来源| deepmind 算法 编译| 武明利,责编| Carol安全 出品 | AI科技大本营(ID:rgznai100)微信 当咱们在现实世界中训练强化学习(RL)代理时,咱们不会但愿它们探索不安全的状态,例如将一个移动机器人开进沟里,或者向老板发送一封很尴尬的电子邮件。网络 在不安全状态下训练RL代理被称为安全探索问题。咱们解决了这个问题中最难的部分,即代理最初不知道环境如何工做的,也不知道
相关文章
相关标签/搜索