S折交叉验证(S-fold cross validation)

时间 2019-11-21

标签交叉验证 fold cross validation 繁體版

原文原文链接

S折交叉验证(S-fold cross validation)

以为有用的话,欢迎一块儿讨论相互学习~Follow Me

仅为我的观点，欢迎讨论

参考文献
http://www.javashuo.com/article/p-qltovpqr-kw.html
李航-统计学习方法
https://blog.csdn.net/jasonding1354/article/details/50562513
知乎问题git

引用《统计学习方法》

S折交叉验证
- 首先随机地将已给数据切分为S个互补相交的大小相同的子集；而后利用S-1个子集的数据训练模型，利用余下的子集测试模型；将这一过程对全部可能的S种选择重复进行；最后选出S次测评中平均测试偏差最小的模型github
  
  问题引入
  此处引入各类想法

目前，根据行业公认的评价方法的所谓准确率等指标，都是对测试集而言的，所以要求测试集不参与模型的训练过程。
十折交叉验证方法中，10份数据轮流做为训练集和验证集。
所以实际上也是所有参加了训练的。所以，理论上为了保证最后测试结果的有效性，应该先将数据分为训练集和测试集，而后对训练集采用十折交叉验证。

连接：https://www.zhihu.com/question/274417233/answer/376476821性能

通常状况下，我会选择先把整个数据集分为训练集合（training set）和测试集合（test set）。训练集用来构建和筛选模型，测试集合用于评估最后肯定的模型。具体言之，咱们常常会用cross validation 来进行模型选择和hyperparameter的优化，在肯定了最佳模型和hyperparameters以后，再对最终的模型进行评估。而为保证最终的模型评估不被这个优化的过程所影响，评估时所用的数据集（也就是test set）不该该参与过以前的模型选择和参数优化，因此是独立于10-fold cross validation时所用的数据集的。
简而言之，我总结一下训练和评估的大体步骤：
1. 将数据集合分为训练集合和测试集合；
2. 在训练集合中使用k-fold validation来进行模型选择和调参数（hyperparameters），肯定最佳模型和参数配置；
3. 使用全部的训练集合中的数据来训练这个最佳模型；
4. 用测试数据集来评估这个最佳模型。

连接：https://www.zhihu.com/question/274417233/answer/378759200学习

若是是将所有的数据分红10份d1,d2...d10，挑选其中的d1做为测试集，其余的做为训练集，那么在训练以后用模型对d1进行测试。而后下一组实验开始的时候挑选d2做为测试集，其余的做为训练集，训练测试，再依次进行后面的。最后求平均。
为何测试集参与了训练？每组开始的时候模型的参数应该是从新初始化的吧。模型参数从新初始化，等同于在这一组实验内测试集仅做为测试，并无参与训练啊。

连接：https://www.zhihu.com/question/274417233/answer/552752196测试

我的观点

结合 csdn_JasonDing1354或cdsn_liuweiyuxiang以及csdn_aliceyangxi1987的观点和我本身的思考优化

如下观点仅表明我的观点

交叉验证通常是用来表示一个方法比另外一个方法好的，或者一个超参数比另外一个超参数好的(而不是具体的神经元的偏置和权重) K折交叉验证使用所有的数据，而且会有K个不一样的模型，经过计算K个模型对应的测试集上的表现的平均值评价这个方法的好坏。也就是说 每次权重都进行了初始化，是K个不一样的模型，评价的是方法
即我认同的是知乎上第三个观点：若是为了提升模型的性能，我大可以使用全部的数据进行训练。若是我真的须要评价模型的好坏，直接给个没见过的数据就行了(毕竟产学研相结合,什么东西都要放在实际生活着中进行检测，人为的提早划分数据集为训练集和测试集，再在训练集上使用K折验证，而后用测试集进行验证，不如直接把训练集上全部数据都用来训练，更多的数据训练效果更好啊！！哈哈哈~) 这样就失去交叉验证的意义了~ 呵呵呵

相关文章

相关标签/搜索

身份证验证

Thymeleaf 教程

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公众号

欢迎关注本站公众号,获取更多信息

相关文章

>>更多相关文章<<