NLP 文本预处理

1、不同类别文本量统计,类别不平衡差异   2、文本长度统计   3、文本处理,比如文本语料中简体与繁体共存,这会加大模型的学习难度。因此,他们对数据进行繁体转简体的处理。     同时,过滤掉了对分类没有任何作用的停用词,从而降低了噪声。   4、上文提到训练数据中,存在严重的样本不均衡问题,如果不对该问题做针对性的处理,则会严重制约模型效果指标的提升。        通过对数据进行了大量的分析
相关文章
相关标签/搜索