（飞桨）强化学习7日打卡营——基于表格型方法求解RL

时间 2020-07-20

标签强化学习 7日打卡基于表格方法求解繁體版

原文原文链接

两个做业的对比：web Lesson2 表格型方法—— Q-learning （当心探索） # 根据输入观察值，采样输出的动做值，带探索 def sample(self, obs): if np.random.uniform(0, 1) < (1.0 - self.epsilon): #根据table的Q值选动做 action = self.pred

>>阅读原文<<

最新文章

欢迎关注本站公众号,获取更多信息