PySpark NaiveBayes算法之中文文本分类测试

时间 2019-12-04

标签 pyspark naivebayes 算法之中文本分类测试繁體版

原文原文链接

假设如今有N行文本，每行文本的第一列已经打好标签， Y 或 N，用于标识该行文本是否包含敏感词汇；第二列以后的每一列是对某些句子或文本进行中文分词以后的词汇。好比python N 朴素贝叶斯算法是生成模型中最经典分类算法之一 Y 这是一条包含色情的语句咱们如今用pyspark结合NaiveBayes分类算法来进行训练和测试，这个过程大概包括：web 词条转换成特征向量统

>>阅读原文<<