涨知识,什么是强化学习(Reinforcement Learning)

—— 原文发布于本人的微信公众号“大数据与人工智能Lab”(BigdataAILab),欢迎关注。算法

 

机器学习算法能够分为3种:有监督学习(Supervised Learning)、无监督学习(Unsupervised Learning)和强化学习(Reinforcement Learning),以下图所示:微信

有监督学习、无监督学习、强化学习具备不一样的特色:机器学习

  • 有监督学习是有一个label(标记)的,这个label告诉算法什么样的输入对应着什么样的输出,常见的算法是分类、回归等;函数

  • 无监督学习则是没有label(标记),常见的算法是聚类;学习

  • 强化学习强调如何基于环境而行动,以取得最大化的预期利益。大数据

强化学习(Reinforcement Learning)灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步造成对刺激的预期,产生能得到最大利益的习惯性行为。优化

这个方法具备普适性,所以在其余许多领域都有研究,例如博弈论、控制论、运筹学、信息论、模拟优化方法、多主体系统学习、群体智能、统计学以及遗传算法。人工智能

强化学习采用的是边得到样例边学习的方式,在得到样例以后更新本身的模型,利用当前的模型来指导下一步的行动,下一步的行动得到reward以后再更新模型,不断迭代重复直到模型收敛。在这个过程当中,很是重要的一点在于“在已有当前模型的状况下,若是选择下一步的行动才对完善当前的模型最有利”,这就涉及到了RL中的两个很是重要的概念:探索(exploration)和开发(exploitation),exploration是指选择以前未执行过的actions,从而探索更多的可能性;exploitation是指选择已执行过的actions,从而对已知的actions的模型进行完善。对象

强化学习最重要的3个特色是:ci

(1)基本是以一种闭环的形式;

(2)不会直接指示选择哪一种行动(actions);

(3)一系列的actions和奖励信号(reward signals)都会影响以后较长的时间。

强化学习决策实现过程须要设定一个agent(图中的大脑部分),Agent可以接收当前环境的一个observation(观察),Agent还能接收当它执行某个action后的reward,而环境environment则是agent交互的对象,它是一个行为不可控制的对象,agent一开始不知道环境会对不一样action作出什么样的反应,而环境会经过observation告诉agent当前的环境状态,同时环境可以根据可能的最终结果反馈给agent一个reward,它代表了agent作出的决策有多好或者有多很差,整个强化学习优化的目标就是最大化累积reward。

 

在强化学习中,有四个很是重要的概念:

(1)规则(policy)

Policy定义了agents在特定的时间特定的环境下的行为方式,能够视为是从环境状态到行为的映射,经常使用π来表示。policy能够分为两类:

肯定性的policy(Deterministic policy): a=π(s) 

随机性的policy(Stochastic policy): π(a|s)=P[At=a|St=t]

其中,t是时间点,t=0,1,2,3,……

St∈S,S是环境状态的集合St表明时刻t的状态,s表明其中某个特定的状态;

At∈A(St),A(St)是在状态St下的actions的集合,At表明时刻t的行为,a表明其中某个特定的行为。

(2)奖励信号(a reward signal)

Reward就是一个标量值,是每一个time step中环境根据agent的行为返回给agent的信号,reward定义了在该情景下执行该行为的好坏,agent能够根据reward来调整本身的policy。经常使用R来表示。

(3)值函数(value function)

Reward定义的是当即的收益,而valuefunction定义的是长期的收益,它能够看做是累计的reward,经常使用v来表示。

(4)环境模型(a model of the environment),预测environment下一步会作出什么样的改变,从而预测agent接收到的状态或者reward是什么。

 

总之,强化学习做为一个序列决策(Sequential Decision Making)问题,它须要连续选择一些行为,从这些行为完成后获得最大的收益做为最好的结果。它在没有任何label告诉算法应该怎么作的状况下,经过先尝试作出一些行为——而后获得一个结果,经过判断这个结果是对仍是错来对以前的行为进行反馈。

 

欢迎关注本人的微信公众号“大数据与人工智能Lab”(BigdataAILab),获取更多资讯

相关文章
相关标签/搜索