强化学习

强化学习 2018/6/2 1.引言 强化学习的目标是要通过奖赏与惩罚来对当前的问题得到一个最好的解决策略,对好的策略进行奖赏,对坏的策略进行惩罚,不断的强化这个过程,最终得到一个最好的策略。 2.K-摇臂赌博机 “K-摇臂赌博机”是单步强化学习任务的一个理想模型,如下图所示 该机器共有k各摇臂(图中为5个),每次只能选择摇其中一个,每个摇臂会以各自一定的概率分布掉金币,我们需要做的是,在有限的摇
相关文章
相关标签/搜索