强化学习--李宏毅

 AI =  强化学习+深度学习  Alpha go是在监督学习的基础上,让两个机器对下 聊天机器人问题:训练完之后不知道聊天是否聊的好,可以考虑使用GAN,添加discriminator去判断聊天是否是人类聊天 强化学习的困难: 接收到positive reward的动作是需要其他没有奖励动作的基础的,游戏系统很容易学成只会开枪而不移动(因为开枪有奖励,而移动没有) 系统需要探索新的行为,不能永
相关文章
相关标签/搜索