Scikit-Learn机器学习实践——垃圾短信识别

时间 2019-12-01

标签 scikit learn 机器学习实践垃圾短信识别繁體版

原文原文链接

前不久，咱们使用NLTK的贝叶斯分类模型垃圾对短信数据进行机器学习的垃圾短信识别。html

其实除了使用NLTK，咱们还可使用Scikit-Learn这个集成了诸多机器学习算法的模块进行上述的实验。算法

Scikit-Learn的API设计很是合理和高效，对于初触机器学习的同窗来讲很是友好，值得你们尝试和使用。本人也常常在实验环境和工做环境中使用scikit-learn进行机器学习的建模。机器学习

下面，咱们就使用scikit-learn模块，经过其朴素贝叶斯算法API对短信数据进行一次垃圾短信的识别。学习

导入短信数据

首先，咱们须要对原始的短信数据进行处理，导入pandas模块和jieba模块。测试

pandas模块用于读取和处理数据，jieba模块用于对短信进行分词。设计

接着，咱们导入短信数据：3d

查看一下部分短信数据：orm

其中第一列为原始序号，第二列为短信的分类，0表示正常短信，1表示垃圾短信，第三列就是短信的正文。
咱们只须要关注第二和第三列。cdn

查看一下这个短信数据集的形状：htm

一共有七十余万条短信。

对短信进行分词

文本的分类，基本上是基于词袋模型，也就是一个文本中包含多少词以及各个词的频率。对于英文而已，其天生的句子空格能够很容易的分割单词出来，可是中文就得先进行分词处理，也就是将一个完整的中文分割为一个一个词。
在Python中，有第三方模块——jieba，结巴分词来提供对中文的分词。
咱们使用jieba对短信的内容进行分词。