强化学习与Deep Q-Network(DQN)

强化学习的难点? 1.有监督?无监督?是有稀疏并延时的标签---奖励(reword) 2.信用分配问题,得分可能跟你现在的行为没有直接的关系(不好表述) 3.对于现有得分,搜索/不搜索   马尔可夫决策过程 模型: 有限序列,状态序列和行为序列, 有确定假设:当前的状态只由上一状态决定,当前的决策过程只由当前的状态决定(马尔可夫过程假设) 具有无后效性,还是由假设得来的(马尔可夫性)   把“眼光
相关文章
相关标签/搜索