DQN(Deep Reiforcement Learning) 发展历程(一)

时间 2019-12-07

标签 dqn deep reiforcement learning 发展历程繁體版

原文原文链接

目录html

DQN发展历程(一)函数

DQN发展历程(二)学习

DQN发展历程(三)优化

DQN发展历程(四)htm

DQN发展历程(五)blog

马尔可夫理论

马尔可夫性质

P[St+1 | St] = P[St+1 | S1,...,St]
给定当前状态 St ，过去的状态能够不用考虑
当前状态 St 能够表明过去的全部状态
给定当前状态的条件下，将来的状态和过去的状态相互独立。

马尔可夫过程(MP)

形式化地描述了强化学习的环境。
包括二元组(S,P)
根据给定的转移几率矩阵P，从当前状态St转移到下一状态St+1，
基于模型的（Model-based）：事先给出了转移几率矩阵P

马尔可夫奖励过程(MRP)

和马尔可夫过程相比,加入了奖励r，加入了折扣因子gamma，gamma在0～1之间。
马尔可夫奖励过程是一个四元组⟨S, P, R, γ⟩
须要折扣因子的缘由是
- 使将来累积奖励在数学上易于计算
- 因为可能通过某些重复状态，避免累积奖励的计算成死循环
- 用于表示将来的不肯定性
- gamma越大表示越看中将来的奖励

值函数（value function）

引入了值函数（value function），给每个状态一个值V，以从当前状态St到评估将来的目标G的累积折扣奖励的大小

MRP求解

v = R + γPv （矩阵形式）
直接解出上述方程时间复杂度O(n^3), 只适用于一些小规模问题

马尔可夫决策过程（MDP）

加入了一个动做因素a，用于每一个状态的决策
MDP是一个五元组⟨S, A, P, R, γ⟩
策略policy是从S到A的一个映射

效用函数

相比于值函数，加入了一个动做因素

优化的值函数

为了求最佳策略，在值函数求解时，选择一个最大的v来更新当前状态对应的v

贝尔曼等式

和值函数的求解方法相比，不须要从当前状态到目标求解，只须要从当前状态到下一状态便可（根据递推公式）

参考

david siver 课程get

https://home.cnblogs.com/u/pinard/数学

相关文章

1. DQN(Deep Reiforcement Learning) 发展历程（三）
2. DQN(Deep Reiforcement Learning) 发展历程（二）
3. DQN(Deep Reiforcement Learning) 发展历程（五）
4. DQN(Deep Reiforcement Learning) 发展历程（四）
5. 一 MVC发展史历程
6. GAN 发展历程
7. 我的工业发展历程，一年
8. Optical Flow 发展历程 (1)
9. USB发展历程
10. Java 发展历程
更多相关文章...
• Rust 并发编程 - RUST 教程
• RSS 历史 - RSS 教程
• C# 中 foreach 遍历的用法
• PHP开发工具

相关标签/搜索

Hibernate教程

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公众号

欢迎关注本站公众号,获取更多信息

相关文章

>>更多相关文章<<