强化学习实例7:价值迭代法(value iteration)

策略迭代法,能够进一步优化为最大化价值vpython # 价值迭代法 class ValueIteration(object): def value_iteration(self, agent, max_iter=-1): iteration = 0 while True: iteration += 1 new
相关文章
相关标签/搜索