JavaShuo
栏目
标签
强化学习 之 模型无关控制方法
时间 2021-01-13
标签
机器学习
算法
强化学习
人工智能
繁體版
原文
原文链接
(1)如何理解强化学习中的控制和预测这两个名词? 在强化学习中我们经常会遇到预测(prediction)和控制(control)这两个词。预测问题指的是求解在给定策略(policy)下的价值函数(value function)的过程;而控制问题指的是如何获得一个尽量好的策略来最大化累计奖励(accumulated return)。因此,强化学习的过程常常是在解决预测问题的基础上,进而解决控制问题。
>>阅读原文<<
相关文章
1.
《强化学习》 模型无关方法
2.
强化学习之无模型方法一:蒙特卡洛
3.
强化学习之无模型方法二:时间差分
4.
强化学习中的无模型控制
5.
David silver强化学习课程第五课 模型无关的控制
6.
3. 强化学习之——无模型的价值函数估计和控制
7.
强化学习系列之四:模型无关的策略学习
8.
7. 强化学习之——基于模型的强化学习
9.
强化学习无模型与基于模型区别
10.
强化学习(四) - 无模型学习(MC、TDL)
更多相关文章...
•
ASP.NET MVC - 模型
-
ASP.NET 教程
•
ASP.NET MVC - 控制器
-
ASP.NET 教程
•
Kotlin学习(二)基本类型
•
Kotlin学习(一)基本语法
相关标签/搜索
强化学习
学习方法
强化学习篇
强化学习与最优控制
模型转化
数学模型
强制
控制
控方
无关
MySQL教程
NoSQL教程
PHP教程
学习路线
算法
初学者
0
分享到微博
分享到微信
分享到QQ
每日一句
每一个你不满意的现在,都有一个你没有努力的曾经。
最新文章
1.
「插件」Runner更新Pro版,帮助设计师远离996
2.
错误 707 Could not load file or assembly ‘Newtonsoft.Json, Version=12.0.0.0, Culture=neutral, PublicKe
3.
Jenkins 2018 报告速览,Kubernetes使用率跃升235%!
4.
TVI-Android技术篇之注解Annotation
5.
android studio启动项目
6.
Android的ADIL
7.
Android卡顿的检测及优化方法汇总(线下+线上)
8.
登录注册的业务逻辑流程梳理
9.
NDK(1)创建自己的C/C++文件
10.
小菜的系统框架界面设计-你的评估是我的决策
本站公众号
欢迎关注本站公众号,获取更多信息
相关文章
1.
《强化学习》 模型无关方法
2.
强化学习之无模型方法一:蒙特卡洛
3.
强化学习之无模型方法二:时间差分
4.
强化学习中的无模型控制
5.
David silver强化学习课程第五课 模型无关的控制
6.
3. 强化学习之——无模型的价值函数估计和控制
7.
强化学习系列之四:模型无关的策略学习
8.
7. 强化学习之——基于模型的强化学习
9.
强化学习无模型与基于模型区别
10.
强化学习(四) - 无模型学习(MC、TDL)
>>更多相关文章<<