演示图片

演 示 图 片 演示图片 演示图片 初始Agent K,B:是模型参数 X:环境状态 Y:决定Action,Action和正确结果的正负状态决定奖励和惩罚机制 训练完后的优质Agent 全连接网络回归 全连接网络分类 Input Layer: State Output Layer :Action,Action和正确结果的正负状态决定奖励和惩罚机制 中间所有参数:模型 CNN分类 或者: 神经网络画
相关文章
相关标签/搜索