贝尔曼方程(Bellman Equation)的解读

这个算法只适用于没有变化的环境 在解释下面几个专业术语前 我先来说一下这个Agent,中文的意思是 代理,代理人 但是实际上他大概表示的意思就相当于变量,就给你某一个状态贴上了一个标签一样 ** 状态(State) :**用一个数值来作为代理(Agent),描述在环境中某一特定时间点的状态 ** 行为(Action)* *:代理(Agent)向环境提供的输入,通过对当前状态经行策略计算,然后采取行
相关文章
相关标签/搜索