涨知识，什么是强化学习（Reinforcement Learning）

时间 2019-11-06

标签知识什么强化学习 reinforcement learning 繁體版

原文原文链接

—— 原文发布于本人的微信公众号“大数据与人工智能Lab”（BigdataAILab），欢迎关注。算法

机器学习算法能够分为3种：有监督学习（Supervised Learning）、无监督学习（Unsupervised Learning）和强化学习（Reinforcement Learning），以下图所示：微信

有监督学习、无监督学习、强化学习具备不一样的特色：机器学习

有监督学习是有一个label（标记）的，这个label告诉算法什么样的输入对应着什么样的输出，常见的算法是分类、回归等；函数
无监督学习则是没有label（标记），常见的算法是聚类；学习
强化学习强调如何基于环境而行动，以取得最大化的预期利益。大数据

强化学习（Reinforcement Learning）灵感来源于心理学中的行为主义理论，即有机体如何在环境给予的奖励或惩罚的刺激下，逐步造成对刺激的预期，产生能得到最大利益的习惯性行为。优化

这个方法具备普适性，所以在其余许多领域都有研究，例如博弈论、控制论、运筹学、信息论、模拟优化方法、多主体系统学习、群体智能、统计学以及遗传算法。人工智能

强化学习采用的是边得到样例边学习的方式，在得到样例以后更新本身的模型，利用当前的模型来指导下一步的行动，下一步的行动得到reward以后再更新模型，不断迭代重复直到模型收敛。在这个过程当中，很是重要的一点在于“在已有当前模型的状况下，若是选择下一步的行动才对完善当前的模型最有利”，这就涉及到了RL中的两个很是重要的概念：探索（exploration）和开发（exploitation），exploration是指选择以前未执行过的actions，从而探索更多的可能性；exploitation是指选择已执行过的actions，从而对已知的actions的模型进行完善。对象

强化学习最重要的3个特色是：ci

（1）基本是以一种闭环的形式；

（2）不会直接指示选择哪一种行动（actions）；

（3）一系列的actions和奖励信号（reward signals）都会影响以后较长的时间。

强化学习决策实现过程须要设定一个agent（图中的大脑部分），Agent可以接收当前环境的一个observation（观察），Agent还能接收当它执行某个action后的reward，而环境environment则是agent交互的对象，它是一个行为不可控制的对象，agent一开始不知道环境会对不一样action作出什么样的反应，而环境会经过observation告诉agent当前的环境状态，同时环境可以根据可能的最终结果反馈给agent一个reward，它代表了agent作出的决策有多好或者有多很差，整个强化学习优化的目标就是最大化累积reward。

在强化学习中，有四个很是重要的概念：

（1）规则（policy）

Policy定义了agents在特定的时间特定的环境下的行为方式，能够视为是从环境状态到行为的映射，经常使用π来表示。policy能够分为两类：

肯定性的policy（Deterministic policy）: a=π(s)

随机性的policy（Stochastic policy）: π(a|s)=P[At=a|St=t]

其中，t是时间点，t=0,1,2,3,……

St∈S，S是环境状态的集合St表明时刻t的状态，s表明其中某个特定的状态；

At∈A(St)，A(St)是在状态St下的actions的集合，At表明时刻t的行为，a表明其中某个特定的行为。

（2）奖励信号（a reward signal）

Reward就是一个标量值，是每一个time step中环境根据agent的行为返回给agent的信号，reward定义了在该情景下执行该行为的好坏，agent能够根据reward来调整本身的policy。经常使用R来表示。

（3）值函数（value function）

Reward定义的是当即的收益，而valuefunction定义的是长期的收益，它能够看做是累计的reward，经常使用v来表示。

（4）环境模型（a model of the environment），预测environment下一步会作出什么样的改变，从而预测agent接收到的状态或者reward是什么。

总之，强化学习做为一个序列决策（Sequential Decision Making）问题，它须要连续选择一些行为，从这些行为完成后获得最大的收益做为最好的结果。它在没有任何label告诉算法应该怎么作的状况下，经过先尝试作出一些行为——而后获得一个结果，经过判断这个结果是对仍是错来对以前的行为进行反馈。

欢迎关注本人的微信公众号“大数据与人工智能Lab”（BigdataAILab），获取更多资讯