“强化学习说白了,是建立分布到分布之间的映射”?数学角度谈谈个人观点

简介:F学长是我数模竞赛、科研方法道路上的最重要的启蒙人之一。 去年他成功进入清华大学。巧的是,他的研究方向也是强化学习。 疫情期间,我们打过好几轮长长的电话,讨论强化学习,其中给我印象最为深刻的是,他说: “强化学习说白了,是建立分布到分布之间的映射。” 我从没有听过别人提这样的观点,这让我静下心来,去再次思考强化学习的数学假设。 我将在此对这个观点进行分析。 本文结构 先说结论,我 同意 这个
相关文章
相关标签/搜索