Datawhale零基础入门NLP赛事——新闻文本分类Task3

TF-IDF    对TF-IDF的理解:           一个词语在一篇文章中出现次数越多,在所有文档中出现次数越少,越能代表该文章    词频:如果“学习”在一篇文章中出现次数为5次,文章中所有词语个数为1000,那么TF=5/1000            逆文档频率:“学习”在100个文档中出现,总文档数为400,那么IDF=log(400/100)            最后相乘 h
相关文章
相关标签/搜索