关键词提取、TF-IDF

时间 2019-12-01

原文原文链接

TF-IDF字体

　　TF-IDF统计的是词库全部词的出现频率与在文件级出现频率的倒数的对数乘积。网站

　　TF:即词语出现的频率。spa

　　IDF：记每一个词出现的文件数为 file_i,总文件数为file_num，IDF[I] = log(file_num/(1+file_i)).net

　　TF-IDF = TF * IDFcode

 1 import jieba.analyse
 2 # 在线制做词云  https://wordart.com/create
 3 path = './test_text.txt'
 4 file_in = open(path, 'r',encoding='utf-8')
 5 content = file_in.read()
 6  
 7 # 中止词在网上找  https://blog.csdn.net/dorisi_h_n_q/article/details/82114913
 8 try:
 9     jieba.analyse.set_stop_words('./stop_words.txt')
10     tags = jieba.analyse.extract_tags(content, topK=100, withWeight=True)
11     for v, n in tags:
12         #权重是小数，为了凑整，乘了一万
13         # 中间使用 制表符\t 是为了在线录入数据时候 选择csv格式自动添加词
14         out_words=v + '\t' + str(int(n * 10000))
15         print(out_words)
16         with open('./out_词频.txt','a+',encoding='utf-8')as f:
17             f.write(out_words+'\n')
18 finally:
19     file_in.close()

　　打开词云制做网站，import导入数据，粘贴好数据后，选择shapes、Font等。blog

操做步骤：utf-8

　　1.导入数据get

　　2.选择SHAPES中的某个图像it

　　3.设置字体。字体能够加载本地字体，也能够导“搜字网”下载。class

　　可视化以后，效果图以下所示：

jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())

sentence:待分析的文本；
topK: 返回前topK个值； 
withWeight: 是否返回权值，默认不返回； 
allowPOS: 筛选过滤掉指定词性的词。可选：'ns', 'n', 'vn', 'v','nr'。