李宏毅强化学习笔记【0.强化学习导论】

时间 2020-01-16

原文原文链接

agent观察（observation即为state）environment网络 agent对作一些动做（action），影响environment学习由于有一些影响，environment给agent一些reward，告诉他是好的影响仍是坏的影响3d agent要学习，如何采起动做才能让指望的reward最大code 有时候reward很稀疏，大部分为0（什么都没发生），只有少数有数值，这

>>阅读原文<<