人工智能学习笔记9

                Agent:智能体   策略网络(Policy Network): 直接预测在某个环境状态下应该采取的Action。    适合Action种类非常多或者有连续取值的Action的环境。(学习的不是某个action对应的期望价值Q,而是直接学习在当前环境应该采取的策略,可以直接产生最终的策略) 价值/估值网络(Value Network): 预测某个环境状态下所有A
相关文章
相关标签/搜索