DQN

D Q N DQN DQN 初始Agent K,B:是模型参数 X:环境状态 Y:决定Action,Action和正确结果的正负状态决定奖励和惩罚机制 训练完后的优质Agent 全连接网络回归 全连接网络分类 Input Layer: State Output Layer :Action,Action和正确结果的正负状态决定奖励和惩罚机制 中间所有参数:模型 CNN分类 或者: 神经网络画图
相关文章
相关标签/搜索