Reinforcement Learning - An Introduction强化学习读书笔记 Ch9.7-Ch9.11

9.7 非线性函数逼近: 人工神经网络 前向和循环ANN在强化学习系统中都会使用,但在这里仅用简单的前向神经网络为例来进行探讨。ANN使用的激活函数一般都是S形函数或sigmoid函数,有时也使用非线性整流函数或阶梯函数。ANN一般使用SGD进行训练,并使用反向传播算法。 在深度网络中,遇到过拟合问题,防止的方法包括:当模型的性能开始在验证集上下降时停止训练(交叉验证)、修改目标函数限制近似函数的
相关文章
相关标签/搜索