强化学习--李宏毅

时间 2021-01-12

原文原文链接

AI = 强化学习+深度学习 Alpha go是在监督学习的基础上，让两个机器对下聊天机器人问题：训练完之后不知道聊天是否聊的好，可以考虑使用GAN，添加discriminator去判断聊天是否是人类聊天强化学习的困难：接收到positive reward的动作是需要其他没有奖励动作的基础的，游戏系统很容易学成只会开枪而不移动（因为开枪有奖励，而移动没有）系统需要探索新的行为，不能永