谷歌大脑提出MAPO：用于程序合成的策略优化方法

时间 2021-01-20

原文原文链接

策略梯度方法正在获得越来越多学者的关注。来自西北大学、谷歌大脑的研究人员近日提出了内存策略优化方法 MAPO，其通过弱监督的方式在泛化程序合成和问答任务中性能超过了此前几种全监督的基准方法，该研究的论文已提交至 NIPS 2018 大会。项目代码：https://github.com/crazydonkey200/neural-symbolic-machines 神经符号机（NSM）是一种利用强