强化学习与Deep Q-Network（DQN）

时间 2021-01-15

原文原文链接

强化学习的难点？ 1.有监督？无监督？是有稀疏并延时的标签---奖励（reword） 2.信用分配问题，得分可能跟你现在的行为没有直接的关系（不好表述） 3.对于现有得分，搜索/不搜索马尔可夫决策过程模型：有限序列，状态序列和行为序列，有确定假设：当前的状态只由上一状态决定，当前的决策过程只由当前的状态决定（马尔可夫过程假设）具有无后效性，还是由假设得来的（马尔可夫性）把“眼光

>>阅读原文<<