强化学习在阿里的技术演讲与业务创新

时间 2019-12-06

原文原文链接

当前的机器学习算法⼤致能够分为有监督的学习、⽆监督的学习和强化学习（Reinforcement Learning）等。强化学习和其余学习⽅法不一样之处在于强化学习是智能系统从环境到⾏为映射的学习，以使奖励信号函数值最⼤。若是智能体的某个⾏为策略致使环境正的奖赏，那么智能体之后产⽣这个⾏为策略的趋势便会增强。强化学习是最接近于⾃然界动物学习的本质的⼀种学习范式。然⽽强化学习从提出到如今，也差很少有半

>>阅读原文<<