CS 188 Project3(RL) Q8: Bridge Crossing Revisited

时间 2021-01-15

原文原文链接

首先，在无噪声的BridgeGrid上用默认学习率训练50次完全随机的Q-learner学习，观察是否找到最佳策略。 python gridworld.py -a q -k 50 -n 0 -g BridgeGrid -e 1 现在采用epsilon设置为0做同样的实验。是否存在一个epsilon和一个学习率，在50次迭代之后，很可能（大于99%）会学习到最佳策略？analysis.py中的que