从零实践强化学习之基于神经网络方法求解RL(PARL)

前一节课讲了表格法,这一节课主要讲用神经网络的方法来求解,这里科老师也把神经网络讲的很透彻,让我对神经网络有了新的认识python 这是上节课的悬崖问题: 这些宫格都是可数的,用一个Q表格就能装下来web 但是在实际生活中,有不少问题都是数量庞大,甚至不可数的: 这些状态确定是不能被Q表格装下的,这时就要用到值函数的近似算法 值函数近似(函数逼近) 值函数就是Q函数,Q表格的做用就是能够根据输入状
相关文章
相关标签/搜索