在处理大型机器学习数据文件的时候,主要有哪几种方法?

1.分配更多内存 有的机器学习工具/库有默认内存设置,比如Weka。这便是个限制因素。 你需要检查下:是否能重新设置该工具/库,分配更多内存。 对于Weka,你可以在打开应用时,把内存当作个参数进行调整。 2.用更小的样本 你真的需要用到全部数据吗? 可以采集个数据的随机样本,比如前1,000或100,000行。在全部数据上训练较终模型之前(使用渐进式的数据加载技巧),先试着用这个小样本解决问题。
相关文章
相关标签/搜索