论文地址:https://arxiv.org/abs/1611.01578网络
强化学习,用一个RNN学一个网络参数的序列,而后将其转换成网络,而后训练,获得一个反馈,这个反馈做用于RNN网络,用于生成新的序列。架构
由于每生成一个网络,都会训练一遍,Google用了800个GPU,训练了12800个网络,它采用的是分布式训练的方法。分布式