腾讯抗黑灰产——自监督发现行话黑词识别一词多义

本文做者:lorenzwang ,腾讯 TEG 安全工程师php 常见的中文 NLP 下游任务通常都是以分词做为起点(以 transformer 为核心的算法除外),对每一个词取 embedding,做为模型的输入。不过在黑灰产领域,这种处理方法有一个问题:大量的黑话/黑词对于下游任务很是有效,但却不在通用的词典中,致使分词器没法准确切分出对应的词。好比,今年 315 晚会曝光的“714 ”,再好
相关文章
相关标签/搜索