演示图片

时间 2021-01-25

原文原文链接

演示图片演示图片演示图片初始Agent K,B:是模型参数 X:环境状态 Y:决定Action，Action和正确结果的正负状态决定奖励和惩罚机制训练完后的优质Agent 全连接网络回归全连接网络分类 Input Layer: State Output Layer :Action，Action和正确结果的正负状态决定奖励和惩罚机制中间所有参数:模型 CNN分类或者：神经网络画