李宏毅强化学习笔记【0.强化学习导论】

agent观察(observation即为state)environment agent对做一些动作(action),影响environment 因为有一些影响,environment给agent一些reward,告诉他是好的影响还是坏的影响 agent要学习,如何采取动作才能让期望的reward最大   有时候reward很稀疏,大部分为0(什么都没发生),只有少数有数值,这是一个困难。   监
相关文章
相关标签/搜索