强化学习入门

1.基本概念 state:当前环境的状态+agent自身的状态,是一个随机变量,受到环境的影响 policy:根据当前state给出相应action的概率 State transition:在给定state,action下,环境给出下一个state的概率 return:回报,表示从t时刻开始未来所有回报的折扣累积,是一个随机变量,随机性来自于未来所有state和action Action-valu
相关文章
相关标签/搜索