强化学习简介

https://www.toutiao.com/a6656380484144071179/   2019-02-10 22:35:52   介绍 假设你在玩一个视频游戏。你进入一个有两扇门的房间。在门1后面是100个金币,然后是通道。2号门后面是1枚金币,后面是另一个方向的通道。一旦你通过其中一扇门,就没有回头路了。你应该选择哪一扇门呢? 如果您的决定完全基于最大化您的即时奖励(或分数),那么您的
相关文章
相关标签/搜索