【数据应用案例】知乎瓦力机器人识别“阴阳怪气”回复

案例来源:@AI科技评论

案例地址:https://mp.weixin.qq.com/s/eVbRkwQu0BQKTblKMZAsfA

 

1. 目标:知乎中有“你可真是棒棒的”、“你开心就好”等评论,识别并过滤这些评论有助于提高社区讨论质量

 

2. 数据获取:

    1)根据“举报”和“踩”,得到“阴阳怪气”样本

    2)通过同义词替换,扩大样本量

    3)根据提取的阴阳怪气样本,随机构造评论做数据增强,提高模型泛化能力

 

3. 特征工程

    1)文本特征:加入阴阳怪气词库后,进行分词,保留标点、表情

    2)数值特征:句子长度,句号数量,感叹号数量

    3)embedding特征:利用知乎全量文本数据训练word2vec模型,

 

4. 分类器:

    1)采用CNN做分类器,原因是可以捕获字词的位置关系

    2)对评论上文和评论本身分别训练CNN模型,训练各自参数

    3)然后评论上文的卷积输出进行 dot-attention 目的是获取评论上文与评论不同的权重

    4)最后将特征数据全连接层以 softmax 方式进行分类

 

 

5. 效果示例

 

6. 缺陷:

    1)样本不足

    2)出现过拟合,如“哈哈哈”容易错分为阴阳怪气样本

 

7. 改进点

    1)通过主动学习(Active Learning)提高标注样本量

    2)加入语义分析信息

    3)背景知识:对于体育、明星等领域单独建模