强化学习:DQN的理解

分类目录——强化学习 还是根据Q(s, a)值来进行动作判断的一种机制 传统的Q-Learning强化学习会生成一个状态动作的组合表,通过一轮轮的迭代使这个表格收敛。 **问题:**现实中的活动往往状态空间很大,比如下围棋,理论上Q表的矩阵要达到(19**2)*(19**2)的规模,存储这么一个表格是一个问题,学习并让这个表格收敛更是一个大问题。 ——如果能有一个公式能通过输入当前的状态和动作参量
相关文章
相关标签/搜索