强化学习概览

 RL分类: value based, policy based, actor critic.算法

1、value based. 网络

Q-learning app

Q表示的是,在状态s下采起动做a可以得到的指望最大收益,R是当即得到的收益,而将来一期的收益则取决于下一阶段的动做。函数

更新公式  Q(S,A) ← (1-α)*Q(S,A) + α*[R + γ*maxQ(S',a)], alpha 是学习率, \gamma 是衰减函数
Q learning 是一个off-policy 的RL 算法.学习

 

Sarsa: on-policy 算法spa

更新公式: Q(S,A) ← (1-α)*Q(S,A) + α*[R + γ*Q(S',a’)],.net

区别:Sarsa是保守的策略, Q-learning 是大胆,全局最优的策略blog

 

Deep Q network (DQN)游戏

将 reward 值用neural network 来学习,而非用table 的方式存储。 输入为state, action, 输出为action value. 或者输入为state, 输出为action value.资源

experimence replay

target network

 

2、 policy based. 

policy gredient:

Policy \pi能够看作是一个参数为\Theta的神经网络,以打游戏的例子来讲,输入当前的状态(图像),输出可能的action的几率分布,选择几率最大的一个action做为要执行的操做。不一样过reward 值选择action, 而是直接输出action.

Policy Gradient不经过偏差反向传播,它经过观测信息选出一个行为直接进行反向传播,利用reward奖励直接对选择行为的可能性进行加强和减弱,好的行为会被增长下一次被选中的几率,很差的行为会被减弱下次被选中的几率。

policy gredient中强化学习的目标就是学习一个Policy,即一个网络,使其每看到一个画面,作出一个action, 并作到最终得到最大总reward。

 

 3、actor critic.

actor: policy gredient

critic: Q-learning

训练两个不一样的神经网络

 

 

参考连接:

RL 很好的资源:https://medium.com/@awjuliani/super-simple-reinforcement-learning-tutorial-part-1-fd544fab149

Q-learning

https://www.zhihu.com/question/26408259/answer/123230350

https://www.jianshu.com/p/29db50000e3f?utm_medium=hao.caibaojian.com&utm_source=hao.caibaojian.com

Sarsa

https://blog.csdn.net/qq_39004117/article/details/81705845

Deep Q network:

https://blog.csdn.net/qq_32690999/article/details/79302093

https://blog.csdn.net/qq_30615903/article/details/80744083

Policy gradient:

https://www.jianshu.com/p/e9d47bb2dab2?utm_source=oschina-app

https://blog.csdn.net/qq_30615903/article/details/80747380\

Actor critic:

https://blog.csdn.net/qq_30615903/article/details/80774384

https://www.jianshu.com/p/8750b3fb5d07

 

 

 

相关文章
相关标签/搜索