强化学习笔记3-Python/OpenAI/TensorFlow/ROS-规划博弈

规划:主要涉及马尔科夫决策(MDP),经常使用于已知环境求解;python 博弈:主要涉及蒙特卡罗方法,经常使用于未知状态求解。web 基础知识点: Markov Decision Processes-MIT https://ocw.mit.edu/courses/electrical-engineering-and-computer-science/6-825-techniques-in-art
相关文章
相关标签/搜索