贪心NLP——jieba分词、停用词过滤、词的标准化，词袋模型

时间 2020-01-22

原文原文链接

基于结巴（jieba）的分词。 Jieba是最经常使用的中文分词工具python import jieba set_list=jieba.cut('中南财经政法大学在茶山刘',cut_all=False) print('/'.join(set_list)) #jieba里没有茶山刘这个词，把它加进去 jieba.add_word('茶山刘') set_list=jieba.cut('中南财经政