2 K 摇臂赌博机(探索与利用 贪心法 softmax)(周志华)

文章目录 探索与利用 仅探索 仅利用 ϵ贪心法 softmax 探索与利用 单步强化学习任务对应理论模型—K-摇臂赌博机:k个摇臂,赌徒在投入一个硬币后选择按下其中一个摇臂,每一个摇臂以必定的几率(未知)吐出硬币,经过必定策略最大化web 最大化单步奖赏,即仅考虑一步操做。 欲最大化单步奖赏考虑两个方面:一是须要知道每一个动做带来的奖赏;二要执行奖赏最大的动做。(一般一个动做的奖赏值是来自于一个几
相关文章
相关标签/搜索