强化学习 8: approximate reinforcement learning

时间 2020-05-16

标签强化学习 approximate reinforcement learning 繁體版

原文原文链接

上次提到一个问题，就是如何有效的将交叉熵算法用于很大的数据量的问题上。web 前面说过，对于骑自行车这种可能只有十个 state，四个 aciton 的小问题上面，交叉熵能够解决，但若是在自动驾驶，或者打游戏上面，它却不行，由于这时咱们没有办法再存储一个表格来记录全部可能状态的全部可能行为的几率，由于这可能有几十亿的状态，或者是一个连续空间，是没有办法作记录的。存储这样的表格不只是不可能的，也是

>>阅读原文<<