在处理大型机器学习数据文件的时候，主要有哪几种方法？

时间 2020-12-23

原文原文链接

1.分配更多内存有的机器学习工具/库有默认内存设置，比如Weka。这便是个限制因素。你需要检查下：是否能重新设置该工具/库，分配更多内存。对于Weka，你可以在打开应用时，把内存当作个参数进行调整。 2.用更小的样本你真的需要用到全部数据吗? 可以采集个数据的随机样本，比如前1,000或100,000行。在全部数据上训练较终模型之前(使用渐进式的数据加载技巧)，先试着用这个小样本解决问题。

>>阅读原文<<