DQN(Deep Reiforcement Learning) 发展历程（二）

时间 2019-12-06

标签 dqn deep reiforcement learning 发展历程繁體版

原文原文链接

目录html

DQN发展历程(一)异步

DQN发展历程(二)函数

DQN发展历程(三)学习

DQN发展历程(四)htm

DQN发展历程(五)blog

动态规划

动态规划给出了求解强化学习的一种方式

使用条件

使用动态规划须要两个条件
- 总问题能够分解成一系列相互重叠的子问题
- 子问题的求解结果被存储下来而且能够重复使用
强化学习对应以上两个条件
- 贝尔曼等式知足了重叠子问题的分解，每一个状态的值求解从当前状态到下一状态。
- 值函数用于存储和复用子问题的求解结果

分类

对于预测问题，动态规划方法输出的是每一状态的值
对于控制问题，动态规划方法输出的是每一状态的策略

求解方法

迭代策略：基于贝尔曼等式，每一个状态值的求解从当前状态St到下一状态St+1，按此递推方法迭代。
策略的改进方法：迭代，根据值选择最佳策略，每次更新经过贪婪法选择最大的值替换原先的值。
异步动态规划：
- 每次使用新的状态值更新旧的状态值In-place
- 使用贝尔曼偏差引导状态的选择，优先更新偏差最大的状态
- 更新状态值都使用状态的参数
全状态的动态规划存储搜索每一个状态空间，基于采样的动态规划和近似的动态规划减小了部分状态空间的使用
Real-time dynamic programming

参考

david siver 课程get

https://home.cnblogs.com/u/pinard/it

相关文章

1. DQN(Deep Reiforcement Learning) 发展历程(一)
2. DQN(Deep Reiforcement Learning) 发展历程（三）
3. DQN(Deep Reiforcement Learning) 发展历程（五）
4. DQN(Deep Reiforcement Learning) 发展历程（四）
5. GAN 发展历程
6. Optical Flow 发展历程 (1)
7. USB发展历程
8. Java 发展历程
9. ECMAScript 发展历程
10. Spring发展历程
更多相关文章...
• Rust 并发编程 - RUST 教程
• RSS 历史 - RSS 教程
• C# 中 foreach 遍历的用法
• PHP开发工具

相关标签/搜索

卷积神经网络发展历程

Hibernate教程

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公众号

欢迎关注本站公众号,获取更多信息

相关文章

>>更多相关文章<<