LSTM+Attention+CRF的原理讲解

CRF 简单来说一组参数theta可以唯一确定一组模型,我们需要找到一组最优参数使得训练数据中 x->y 的概率最大化。将上述最大化的目标函数P取负,转化为最小化问题,即可用反向传播算法进行优化,找到近似最优参数theta。 在CRF模型中有一个简单的假设,即当前输出的标签只和上一级输出的标签以及当前的输入有关,所以Score(x, y)应该由两部分组成,一个是转移特征概率,一个是状态特征概率。什
相关文章
相关标签/搜索