【机器学习】 强化学习

强化学习实际上是找一个从观测到动作的最优映射函数,输入是外界观测,目标是奖励最大化。 强化学习的主要特点: 学习过程中没有监督信号,只要奖励(reward) 其反馈(feedback)是延迟的而非瞬间的 强化学习过程与时间序列相关,是一个序贯决策的过程 agent采取的动作(action)会影响到它所接受的序列数据 强化学习算法分类: model-free RL(不理解环境):不具备环境的先验知识
相关文章
相关标签/搜索