标强化学习基本假设之——回报函数假设

考虑以下命题: “我们所有目标和目的都可以通过最大化接收到的标量信号(也称为奖励)和的期望来实现。” 这是真的?假?一个定义?无法伪造?欢迎大家就该假设发表评论,一两句也行。比如,“是的”,“不是的”。 这是我最喜欢的“零假设”,以至于我有时将其简称为零假设。对这个非常基本的问题所持有的立场是很关键的,这样后面才可以更清晰,明智地谈论很多其他问题。 迈克尔·利特曼(Michael Littman)
相关文章
相关标签/搜索