机器学习笔记二十六 余弦类似度进行文本分类

算法过程: 1. 读取样本文本 2. 对文本进行utf-8编码转换 3. 对文本进行预处理,完成中文分词,造成词条库,并去除停用词 4. 读取文本词条库,统计每一个词条的词频,词频表明了每一个词对一段文本的重要程度,字词的重要性随着它在文件中出现的次数成正比增长。 5. 对上一步整理造成的每一个词的词频组成文本的词条词频特征码。 6. 使用1-5的方法分析待分类文本,生成待分类文本的词条词频特征码
相关文章
相关标签/搜索