CS 188 Project3(RL) Q8: Bridge Crossing Revisited

首先,在无噪声的BridgeGrid上用默认学习率训练50次彻底随机的Q-learner学习,观察是否找到最佳策略。python python gridworld.py -a q -k 50 -n 0 -g BridgeGrid -e 1 如今采用epsilon设置为0作一样的实验。是否存在一个epsilon和一个学习率,在50次迭代以后,极可能(大于99%)会学习到最佳策略?analysis.p
相关文章
相关标签/搜索