强化学习第6课：什么是 Crossentropy 方法

时间 2020-05-16

标签强化学习什么 crossentropy 方法繁體版

原文原文链接

上次讲了马尔科夫决策过程，今天让咱们来看看要如何求解这个过程？web 求解方法不止有一个，有一种思路是，咱们有一个 policy，即有了行为和状态的几率分布。对其进行初始化，能够是随机的，也能够根据具体问题用一些先验知识初始化。而后想要改进这个 policy，能够经过得到数据，玩几回游戏，不断重复，policy 会随着这个过程调整变得愈来愈好。算法符合这个思想的有一个算法叫作： cross

>>阅读原文<<