确定执行的优先级以及误差分析

本节我们讨论在设计一个机器学习的系统时,应该先做什么后做什么。 我们以垃圾邮件分类为例:   特征向量: 我们发现很多遇见故意拼错单词,从而逃避被视为垃圾邮件: 正确的步骤: 我们应该先实现一个简单粗暴的算法,然后将邮件进行分类, 接着手动的去将分错了的邮件重新分类,并且归纳出分错邮件的特征,从而增加我们的特征个数, 在判断是否要使用提取词干、区分大小写等方法时,我们直接先用交叉验证集来计算误差,
相关文章
相关标签/搜索