机器学习笔记二十六余弦类似度进行文本分类

时间 2020-05-09

标签机器学习笔记二十六余弦类似进行文本分类繁體版

原文原文链接

算法过程： 1. 读取样本文本 2. 对文本进行utf-8编码转换 3. 对文本进行预处理，完成中文分词，造成词条库，并去除停用词 4. 读取文本词条库，统计每一个词条的词频，词频表明了每一个词对一段文本的重要程度，字词的重要性随着它在文件中出现的次数成正比增长。 5. 对上一步整理造成的每一个词的词频组成文本的词条词频特征码。 6. 使用1-5的方法分析待分类文本，生成待分类文本的词条词频特征码

>>阅读原文<<

机器学习笔记二十六 余弦类似度进行文本分类

机器学习笔记二十六余弦类似度进行文本分类