特征选择方法之TF-IDF、DF

    TF_IDF, DF都是经过简单的统计来选择特征,所以把它们放在一块介绍 算法     一、TF-IDF性能     单词权重最为有效的实现方法就是TF*IDF, 它是由Salton在1988 年提出的。其中TF 称为词频, 用于计算该词描述文档内容的能力; IDF 称为反文档频率, 用于计算该词区分文档的能力。TF*IDF 的指导思想创建在这样一条基本假设之上: 在一个文本中出现不少次的
相关文章
相关标签/搜索