【深度强化学习一】Q-Learning初识（1）（李宏毅老师学习视频笔记）

时间 2021-01-12

标签深度强化学习繁體版

原文原文链接

首先放视频链接：李宏毅老师深度强化学习课程——Q-Learning Q-Learning简介 Q-Learning是一种value-based的方法，在这种方法中，不是直接学习policy，而是利用值函数评价现在行为的好坏，即AC算法中的critic。比如state value function，表示在当前策略下，到了某一状态s，之后能获得的累计收益。两种更新方法（MC和TD） Monte-Ca

>>阅读原文<<

【深度强化学习 一】Q-Learning初识（1）（李宏毅老师学习视频笔记）

【深度强化学习一】Q-Learning初识（1）（李宏毅老师学习视频笔记）