JavaShuo
栏目
标签
为什么基于策略估计的方法性能优于基于行为值函数估计的方法?例如DPG优于DQN?
时间 2021-01-20
栏目
系统性能
繁體版
原文
原文链接
原因有两个: 1.如果最终策略是确定性策略,则基于策略估计的方法采用的softmax可以逼近找到最优解,即会出现pi(a|s)=1或0的情况;而基于行为值函数的估计的方法由于需指定ewuxilong-greedy策略中的ewuxilong参数,不能取得确定性策略,因为ewuxilong完全等于0意味着没有探索,其性能不会太好。 2.如果最优策略是随机策略,则基于策略估计的方法采用的softmax可
>>阅读原文<<
相关文章
1.
基于AprilTag的位姿估计方法
2.
基于番茄土豆的scrum工时估计方法尝试
3.
关于粗略估计
4.
基于神经网络的DQN方法
5.
基于网络中心性的计算机网络脆弱性评估方法
6.
JQData应用 | 基于估值波动周期的择时策略
7.
为什么并行优于串行?
8.
基于FlowNet的光流估计
9.
基于梯度的优化方法
10.
基于oracle的sql优化方法论
更多相关文章...
•
Spring基于Annotation装配Bean
-
Spring教程
•
Spring基于XML装配Bean
-
Spring教程
•
☆基于Java Instrument的Agent实现
•
适用于PHP初学者的学习线路和建议
相关标签/搜索
优于
基于
行于
优先于
基于MSP432
基于Maven
基于ShaderToy
基于zookeeper
基于1.1.3
调优方法
系统性能
Spring教程
PHP教程
MySQL教程
算法
计算
设计模式
0
分享到微博
分享到微信
分享到QQ
每日一句
每一个你不满意的现在,都有一个你没有努力的曾经。
最新文章
1.
Window下Ribbit MQ安装
2.
Linux下Redis安装及集群搭建
3.
shiny搭建网站填坑战略
4.
Mysql8.0.22安装与配置详细教程
5.
Hadoop安装及配置
6.
Python爬虫初学笔记
7.
部署LVS-Keepalived高可用集群
8.
keepalived+mysql高可用集群
9.
jenkins 公钥配置
10.
HA实用详解
本站公众号
欢迎关注本站公众号,获取更多信息
相关文章
1.
基于AprilTag的位姿估计方法
2.
基于番茄土豆的scrum工时估计方法尝试
3.
关于粗略估计
4.
基于神经网络的DQN方法
5.
基于网络中心性的计算机网络脆弱性评估方法
6.
JQData应用 | 基于估值波动周期的择时策略
7.
为什么并行优于串行?
8.
基于FlowNet的光流估计
9.
基于梯度的优化方法
10.
基于oracle的sql优化方法论
>>更多相关文章<<