Q-learning 理解以及简单实现

强化学习(reinforcement learning)的过程,强化学习中有状态(state)、动做(action)、奖赏(reward)这三个要素。 智能体须要根据当前状态来采起动做,得到相应的奖赏以后,再去改进这些动做,使得下次再到相同状态时,智能体能作出更优的动做。git 下面以一个综合全面的例子来理解Q-learning的过程。 http://mnemstudio.org/path-fin
相关文章
相关标签/搜索