强化学习-价值功能

代码和演示可用。 本文探讨了强化学习中的状态,动作和奖励是什么,以及代理如何通过模拟学习来确定在任何给定状态下采取的最佳动作。 直觉 经过一整天的工作后,您要在两种选择之间做出选择:回家然后写一篇文章或在酒吧和朋友一起闲逛。 如果您选择与朋友一起出去玩,您的朋友会让您感到开心; 而回家写一篇文章,您会在漫长的一天工作后感到疲倦。 在这个例子中,享受自己是一​​种奖励,而感到疲倦则被视为一种消极的奖
相关文章
相关标签/搜索