文本分类在内容安全应用中的数据不平衡问题

经过几十年的发展,文本分类在学术界已经是一个比较成熟的技术,目前自然语言处理(NLP)的研究热点已经不在文本分类上面。然而,作为内容安全检测的一个重要技术手段,文本分类在实际业务中还是有不少的挑战。 首先,内容安全场景对分类的准确度要求极高,不但要求较低的误判率,任何一个漏判都有可能给产品方带来严重的后果。其次,众所周知数据不平衡对分类模型的影响很大,而内容安全场景恰恰存在非常严重的数据不平衡问题
相关文章
相关标签/搜索