强化学习入门(一):什么是Policy Gradient

一、强化学习基础认知 1、强化学习三要素 1、actor (即policy gradient要学习的对象, 是我们可以控制的部分) 2、环境 environment (给定的,无法控制) 3、回报函数 reward function (无法控制) 2、名词介绍 Policy of actor π \omicron(决策): 如下图(本文图片均来自于李宏毅的强化学习课件,其视频内容可点击此处查看)所
相关文章
相关标签/搜索