机器学习学习小结(2)

1. 相比于学习小结中的(1)中所说的类型,这里涉及常用的文本文章中的词袋法和TF-IDF。 1)词袋法:文本中出现的词条及其出现次数。 例如单词A、B、C...,怎么得到对应的出现频率呢?有两种方法: a)在整个文档中考虑所有的词汇,得到每个词汇出现的次数,计算频率; b)只在对应领域内的专业词汇的范围内考虑,得到在该范围内对应词汇出现的频率。 将次数/频率及对应的单词以字典的形式进行表示。 优
相关文章
相关标签/搜索