Q-learning学习的一个小例子

强化学习的难点,在于其引入了时间这个维度,不论是有监督仍是无监督学习,都是能得到即便反馈,但到了强化学习中,反馈来的没那么及时。在周志华的《机器学习》中,举过一个种西瓜的例子。种瓜有不少步骤,例如选种,浇水,施肥,除草,杀虫这么多操做以后最终才能收获西瓜。可是,咱们只有等到西瓜收获以后,才知道种的瓜好很差,也就是说,咱们在种瓜过程当中执行的某个操做时,并不能当即得到这个操做能不能得到好瓜,仅能获得
相关文章
相关标签/搜索