舆情监控系统——step2.利用SVM实现中文文本分类

先放GitHub代码,若是以为写得不错,记得加个star哦,嘻嘻~git 基本流程 一、准备好数据食材、去停用词并利用结巴(jieba)进行分词处理github 数据食材选用参考:NLP中必不可少的语料资源web jieba分词模块参考官方文档啦~算法 # 参照代码中的cutWords.py文件 二、利用卡方检验特征选择svg 卡方检验:在构建每一个类别的词向量后,对每一类的每个单词进行其卡方统计
相关文章
相关标签/搜索