强化学习在船舶中的应用(三)——权衡

因读博问题,投期刊问题,,,耽误了好久,,,意外,,,意外,,, 上次讲到蒙特卡罗与TD学习方法,现在开始讲解决强化学习问题的探索(Exploration)/寻宝(Exploitation trade off)方法。 探索(Exploration): 用于获取更多的有关环境的信息 寻宝(Exploitation trade off):尽可能用已知信息,进行利益最大化   切记,智能体的目标是预期的
相关文章
相关标签/搜索