强化学习

强化学习 2018/6/2 1.引言web 强化学习的目标是要经过奖赏与惩罚来对当前的问题获得一个最好的解决策略,对好的策略进行奖赏,对坏的策略进行惩罚,不断的强化这个过程,最终获得一个最好的策略。算法 2.K-摇臂赌博机机器学习 “K-摇臂赌博机”是单步强化学习任务的一个理想模型,以下图所示svg 该机器共有k各摇臂(图中为5个),每次只能选择摇其中一个,每一个摇臂会以各自必定的几率分布掉金币,
相关文章
相关标签/搜索