【论文笔记】NEURAL COMBINATORIAL OPTIMIZATION WITH REINFORCEMENT LEARNING

目录 论文 一、概论 二、模型 参数 公式 网络 Critic网络 actor-critic算法 搜索策略 三、实验及结果 几种不同的实验组合 实验结论 四、迁移到背包问题 定义 实验结论 ![在这里插入图片描述](https://img-blog.csdnimg.cn/20200519165501917.png) 论文 强化学习+指针网络+组合优化 一、概论 主要是用强化学习中的策略梯度方法,来
相关文章
相关标签/搜索