第五章 模型和训练 | 多智能体强化学习

第五章 模型和训练 1、多智能体强化学习 为什么需要多智能体(multi-agent)学习 梯度下降算法寻优方法类似从山顶放置小球向下滚,希望寻找最快最好的路径,到达最低的谷底。 每个智能体每次只使用一个小球,学习训练并使用一条路径,重复多次。而多个智能体类似放置一群小球,同时分别学习训练并使用各自的多条路径,向下滚动过程中互相联系通信,相互告知自己的位置及状态,团队合作,引导共同到达最低的谷底。
相关文章
相关标签/搜索