达观杯”文本智能处理挑战赛——(二)TF-IDF理论并实践

一、特征工程(方案) 用传统的监督学习模型对一段文文本进行分类的基本过程: 一段原始文本→(数据预处理)→处理后的文本→(特征工程)→Features→输入→y=f(x_1,x_2,x_3,…)→输出→类别 特征工程是整个机器学习过程中最要的部分。特征决定了机器学习的上限,而机器学习算法只是逼近这个上限。因此,在机器学习的文本挖掘的预处理中,通常考虑采用TF-IDF的处理,那么什么是TF-IDF,
相关文章
相关标签/搜索