达观杯文本处理模型实践

tf-idf+lr 采用前文处理的tf-idf文件进行简单的模型预测,没有加入交叉验证。 代码如下: 这里用到了前几篇文章中处理的数据,用pickle读取即可,当时之所以分批保存到不同的pickle文件是因为内存不够直接存在一个文件中内存报错,所以选择了分别存取。 我们可以看到每一个文件被处理成200多万维度的向量,显然比较大,后期准备使用pca处理一下(这个想法直接pass掉吧,因为维度太大了,
相关文章
相关标签/搜索