文本分类在内容安全应用中的数据不平衡问题

时间 2020-12-24

原文原文链接

经过几十年的发展，文本分类在学术界已经是一个比较成熟的技术，目前自然语言处理（NLP）的研究热点已经不在文本分类上面。然而，作为内容安全检测的一个重要技术手段，文本分类在实际业务中还是有不少的挑战。首先，内容安全场景对分类的准确度要求极高，不但要求较低的误判率，任何一个漏判都有可能给产品方带来严重的后果。其次，众所周知数据不平衡对分类模型的影响很大，而内容安全场景恰恰存在非常严重的数据不平衡问题

>>阅读原文<<