李宏毅强化学习笔记【0.强化学习导论】

agent观察(observation即为state)environment网络 agent对作一些动做(action),影响environment学习 由于有一些影响,environment给agent一些reward,告诉他是好的影响仍是坏的影响3d agent要学习,如何采起动做才能让指望的reward最大code   有时候reward很稀疏,大部分为0(什么都没发生),只有少数有数值,这
相关文章
相关标签/搜索