PySpark NaiveBayes算法之中文文本分类测试

假设如今有N行文本,每行文本的第一列已经打好标签, Y 或 N, 用于标识该行文本是否包含敏感词汇;第二列以后的每一列是对某些句子或文本进行中文分词以后的词汇。好比python N 朴素贝叶斯算法 是 生成模型 中 最经典 分类算法 之一 Y 这是 一条 包含 色情 的 语句 咱们如今用pyspark结合NaiveBayes分类算法来进行训练和测试,这个过程大概包括:web 词条转换成特征向量 统
相关文章
相关标签/搜索