短文本(微博)分类

短文本分类

给text grocery 作个广告。排序

短文本分类由于特征少,没法获得好的效果。另外,文本短提供的信息有限,须要的样本大,没法经过人工标注来作(减小人工)。微博

如何扩展特征?

长文本分类方法。84%
尝试用Word2vec对tfidf大的词汇进行扩展。 不可用。
尝试用lda来扩展特征。 86%. ------ 由于lda扩展的特征有限。通常一条微博只能扩到1到2个特征。
尝试使用bigram来作特征扩展,效果最好。基于libshorttext。 95% 以上。 ------ 就是textgrocery。扩展

如何获取训练文本?

1.经过纯度较高的微博分类帐户做为初始训练数据。
2.根据已有数据创建高招回分类器来扩展正例。
3.对已有正例的特征作皮尔逊相关系数排序。用排名较高的词汇进行solr搜索来获取正例。搜索

更好的拟合现有数据? 将训练集的badcase减小

对badcase中svm排序最高来扩展正例。
计算badcase的相关系数,特征使用词+bigram。 选取正例加入到训练集。方法

相关文章
相关标签/搜索