CS 188 Project3(RL) Q8: Bridge Crossing Revisited

首先,在无噪声的BridgeGrid上用默认学习率训练50次完全随机的Q-learner学习,观察是否找到最佳策略。 python gridworld.py -a q -k 50 -n 0 -g BridgeGrid -e 1 现在采用epsilon设置为0做同样的实验。是否存在一个epsilon和一个学习率,在50次迭代之后,很可能(大于99%)会学习到最佳策略?analysis.py中的que
相关文章
相关标签/搜索