文本分类 -- 追根究底

特征提取 样本如何量化     在对文本进行分类之前,首先要在文本里面找到特征,特征是什么呢,通常会凭着业务直觉加以选择,比如说要找垃圾邮件,根据我对垃圾邮件的认识,可能出现了一些特别的词就是垃圾邮件,比如“代考”、“淘宝”这些很可能是垃圾邮件,正常的邮件很少出现这些词,当然这些特征合不合理,需要通过数据的粗分析才能决定,选择好特征之后可以加上权重,就是说使用一个数值来描述特征强烈的程度,以及跟其
相关文章
相关标签/搜索