第五章模型和训练 | 多智能体强化学习

时间 2021-07-14

标签人工智能.量化投资深度学习神经网络 tensorflow 机器学习数据挖掘繁體版

原文原文链接

第五章模型和训练 1、多智能体强化学习为什么需要多智能体（multi-agent）学习梯度下降算法寻优方法类似从山顶放置小球向下滚，希望寻找最快最好的路径，到达最低的谷底。每个智能体每次只使用一个小球，学习训练并使用一条路径，重复多次。而多个智能体类似放置一群小球，同时分别学习训练并使用各自的多条路径，向下滚动过程中互相联系通信，相互告知自己的位置及状态，团队合作，引导共同到达最低的谷底。

>>阅读原文<<

第五章 模型和训练 | 多智能体强化学习

第五章模型和训练 | 多智能体强化学习