《A Self-Training Approach for Short Text Clustering》论文笔记

A Self-Training Approach for Short Text Clustering 这是一篇关于短文本聚类的文章。 “因为随着社交媒体的广泛使用,短文本已经成为web上流行的文本形态。然而与长文本不同,使用词袋模型和TF-IDF表示的短文本存在着稀疏的问题。” 短文本的稀疏问题 假设有短文本数据集X={x1,x2…xn}。 对于xi∈X,假设xi中的词汇数为ni,那么数据集X的词
相关文章
相关标签/搜索