论文学习 -- Attending to Characters in Neural Sequence Labeling Models

2016 COLING 的一篇文章,在序列标注的框架里,同时使用character级别的embedding和word级别的embedding 并且在两种embedding之间使用attention的机制结合 序列标注模型: BI-LSTM + CRF, 有一个问题不太理解: 为什么这里要加一个层,解释的理由不是太理解。 loss function是最小化负的正样本的log概率,概率是CRF得到的
相关文章
相关标签/搜索