贪心NLP——jieba分词、停用词过滤、词的标准化,词袋模型

基于结巴(jieba)的分词。 Jieba是最经常使用的中文分词工具python import jieba set_list=jieba.cut('中南财经政法大学在茶山刘',cut_all=False) print('/'.join(set_list)) #jieba里没有茶山刘这个词,把它加进去 jieba.add_word('茶山刘') set_list=jieba.cut('中南财经政
相关文章
相关标签/搜索