TF-IDF

 

词袋模型搜索引擎

  如上图所示,计算机不能直接识别文字信息,它会把上面的两句话转换成词频向量来表示,就是每组词在这个句子中出现的次数,可是它并不考虑词的前后顺序,这种模型就叫词袋模型。 spa

  上图中表示每一个词的出现的数量做为向量的,就叫人词频向量3d

  

jieba分词三种模式:blog

  一、精确模式:试图将句子精确地分开,适合文本分析索引

  二、全模式:把句子中全部能够成词的词语都分开,速度快,但不能解决歧义文档

  三、搜索引擎模式:在精确模式的基础上对长词再次切分,适合搜索引擎分词基础

TF-IDF模型搜索

  TF(term frequency):表示词频,某个词在文档中出现的次数im

  DF(doucument frequency):某个词在全部文档中出现的文档数img

  IDF(inverse doucument frequency):逆文档频率,它是DF的倒数,IDF越大表示该词越少见,也即越重要

  TF-IDF: TF*IDF综合了TF和IDF的因素来平衡词的重要性

相关文章
相关标签/搜索