强化学习实例1:简单最短路径学习

让程序学习到从O到T最短的路径是一直往右走python                                                                    O----Tdom import numpy as np import pandas as pd import time np.random.seed(2) N_STATES = 6 # 假设只有5步远
相关文章
相关标签/搜索