强化学习第6课:什么是 Crossentropy 方法

上次讲了马尔科夫决策过程,今天让咱们来看看要如何求解这个过程?web 求解方法不止有一个, 有一种思路是,咱们有一个 policy,即有了行为和状态的几率分布。 对其进行初始化,能够是随机的,也能够根据具体问题用一些先验知识初始化。 而后想要改进这个 policy,能够经过得到数据,玩几回游戏,不断重复,policy 会随着这个过程调整变得愈来愈好。算法 符合这个思想的有一个算法叫作: cross
相关文章
相关标签/搜索