强化学习之MDP

前言

最近又入坑RL了,要搞AutoML就要学会RL,真的是心累。。函数

正文

MDP里面比较重要的就是状态值函数和动做-状态值函数吧,而后再求最优状态值函数和最优动做状态值函数,状态值函数的公式推导一开始不懂,卡在了一个地方,如今记下来,blog

很关键的一个在于“和的指望等于指望的和im

相关文章
相关标签/搜索