欠拟合和过拟合&&梯度消失和梯度爆炸&&循环神经网络进阶

一.欠拟合和过拟合 1.1训练误差与泛化误差 在解释上述现象之前,我们需要区分训练误差(training error)和泛化误差(generalization error)。通俗来讲,前者指模型在训练数据集上表现出的误差,后者指模型在任意一个测试数据样本上表现出的误差的期望,并常常通过测试数据集上的误差来近似。 1.2 模型选择 1.2.1 验证数据集 从严格意义上讲,测试集只能在所有超参数和模型
相关文章
相关标签/搜索