强化学习 8: approximate reinforcement learning

上次提到一个问题,就是如何有效的将交叉熵算法用于很大的数据量的问题上。web 前面说过,对于骑自行车这种可能只有十个 state,四个 aciton 的小问题上面,交叉熵能够解决,但若是在自动驾驶,或者打游戏上面,它却不行,由于这时咱们没有办法再存储一个表格来记录全部可能状态的全部可能行为的几率,由于这可能有几十亿的状态,或者是一个连续空间,是没有办法作记录的。 存储这样的表格不只是不可能的,也是
相关文章
相关标签/搜索