CS231N-14-Reinforcement Learning

时间 2021-01-13

原文原文链接

What is Reinforcement Learning Markov Decision Process MDP Value Function Q-value Function Bellman Equation Q-learning Policy Gradient 最后一节。 So far, we have mainly talked about supervised learning lik