强化学习7日打卡营学习总结和心得

七天打卡,六次作业,五次直播,完整的参与了百度推出的强化学习7日打卡营。 课程收获 在科科老师的讲解下,了解到了强化学习的应用, 了解到了基于价值的方法(saras,Q-learning)和基于策略的方法(REINFORCE算法),还有应用在连续动作空间的算法(DDPG)。其中DDPG算法和REINFORCE算法还需要多看看起数学原理。   强化学习个人感悟 强化学习就像是在不断的与环境进行交互通
相关文章
相关标签/搜索