【强化学习】策略迭代

import gym import numpy as np env = gym.make('FrozenLake-v0') env.render() def compute_value_function(policy, gamma=1.0): # initialize value table with zeros value_table = np.zeros(env.nS
相关文章
相关标签/搜索