NLP 文本预处理

时间 2021-07-11

原文原文链接

1、不同类别文本量统计，类别不平衡差异 2、文本长度统计 3、文本处理，比如文本语料中简体与繁体共存，这会加大模型的学习难度。因此，他们对数据进行繁体转简体的处理。同时，过滤掉了对分类没有任何作用的停用词，从而降低了噪声。 4、上文提到训练数据中，存在严重的样本不均衡问题，如果不对该问题做针对性的处理，则会严重制约模型效果指标的提升。通过对数据进行了大量的分析

>>阅读原文<<