maching learning入门（六）

时间 2021-01-17

原文原文链接

ml入门（六）powered by @李宏毅第十五课（Reinforcement Learning）让机器根据不同的action将会得到不同的response，可能是不好的，也可能是好的。reinforcement learning要做到的事情就是让reward最大化。有时reward的情况是非常sparse的，大部分reward的返回都为0。RL的难点在于如何在sparse的情况下得到好的