(飞桨)强化学习7日打卡营——基于表格型方法求解RL

两个做业的对比:web Lesson2 表格型方法—— Q-learning (当心探索) # 根据输入观察值,采样输出的动做值,带探索 def sample(self, obs): if np.random.uniform(0, 1) < (1.0 - self.epsilon): #根据table的Q值选动做 action = self.pred
相关文章
相关标签/搜索