文本分类 -- 追根究底

时间 2021-01-13

原文原文链接

特征提取样本如何量化在对文本进行分类之前，首先要在文本里面找到特征，特征是什么呢，通常会凭着业务直觉加以选择，比如说要找垃圾邮件，根据我对垃圾邮件的认识，可能出现了一些特别的词就是垃圾邮件，比如“代考”、“淘宝”这些很可能是垃圾邮件，正常的邮件很少出现这些词，当然这些特征合不合理，需要通过数据的粗分析才能决定，选择好特征之后可以加上权重，就是说使用一个数值来描述特征强烈的程度，以及跟其

>>阅读原文<<

1. LDA模型 -- 追根究底
2. 基于SVD和pLSA算法的文本主题分类-- 追根究底
3. 追根究底 - 最大熵模型
4. 追根究底 - 马尔科夫网络
5. 【追根究底】Android的startActivity源码到底咋写的？
6. Vue源码学习（一）——追根究底Vue
7. 文本分类的研究学习
8. 文本分类研究最新调研
9. 文本分类：survey
10. 文本分类
更多相关文章...
• XSD 仅含文本 - XML Schema 教程
• C# 文本文件的读写 - C#教程
• Kotlin学习（二）基本类型
• Git五分钟教程