达观杯文本处理模型实践

时间 2021-01-20

原文原文链接

tf-idf+lr 采用前文处理的tf-idf文件进行简单的模型预测，没有加入交叉验证。代码如下：这里用到了前几篇文章中处理的数据，用pickle读取即可，当时之所以分批保存到不同的pickle文件是因为内存不够直接存在一个文件中内存报错，所以选择了分别存取。我们可以看到每一个文件被处理成200多万维度的向量，显然比较大，后期准备使用pca处理一下(这个想法直接pass掉吧，因为维度太大了，

>>阅读原文<<