强化学习1 高斯赛德尔迭代

时间 2021-01-12

原文原文链接

开始看《深入浅出强化学习——原理入门》,由于时间有限，做个简要的笔记。 “深度学习如图像识别和语音识别解决的是感知问题，强化学习解决的是决策问题，人工智能的终极目标就是经过感知进行智能决策。” 1、区分有模型无模型：状态转移概率Pss'已知，是有模型的强化学习； 2、（有模型的强化学习）值函数是怎么来的：高斯赛德尔迭代，用前一次的值计算后一次的值，直到收敛！以下是高斯赛德尔迭代求值函数内容：

>>阅读原文<<