BiLSTM-CRF模型理解

时间 2020-03-22

标签 bilstm crf 模型理解繁體版

原文原文链接

适用任务

中文分词、词性标注、命名实体识别是天然语言理解中，基础性的工做，同时也是很是重要的工做。php

在不少NLP的项目中，工做开始以前都要通过这三者中的一到多项工做的处理。python

在深度学习中，有一种模型能够同时胜任这三种工做，并且效果还很不错--那就是biLSTM_CRF。git

biLSTM，指的是双向LSTM；CRF指的是条件随机场。github

一些说明

以命名实体识别为例，咱们规定在数据集中有两类实体，人名和组织机构名称。web

在数据集中总共有5类标签：算法

B-Person （人名的开始部分）shell

I- Person （人名的中间部分）ruby

B-Organization （组织机构的开始部分）bash

I-Organization （组织机构的中间部分）app

O （非实体信息）

此外，假设x 是包含了5个单词的一句话（w0,w1,w2,w3,w4）。

在句子x中[w0,w1]是人名，[w3]是组织机构名称，其余都是“O”。

BiLSTM-CRF 模型

先来简要的介绍一下该模型。

以下图所示：

首先，句中的每一个单词是一条包含词嵌入和字嵌入的词向量，词嵌入一般是事先训练好的，字嵌入则是随机初始化的。全部的嵌入都会随着训练的迭代过程被调整。

其次，BiLSTM-CRF的输入是词嵌入向量，输出是每一个单词对应的预测标签。

以下图所示，BiLSTM层的输入表示该单词对应各个类别的分数。如W0，BiLSTM节点的输出是1.5 (B-Person), 0.9 (I-Person), 0.1 (B-Organization), 0.08 (I-Organization) and 0.05 (O)。这些分数将会是CRF层的输入。全部的经BiLSTM层输出的分数将做为CRF层的输入，类别序列中分数最高的类别就是咱们预测的最终结果。

若是没有CRF层会是什么样

即便没有CRF层，咱们照样能够训练一个基于BiLSTM的命名实体识别模型，以下图所示。

由于BiLSTM模型的结果是单词对应各种别的分数，咱们能够选择分数最高的类别做为预测结果。如W0，“B-Person”的分数最高（1.5），那么咱们能够选定“B-Person”做为预测结果。一样的，w1是“I-Person”, w2是“O”,w3是 “B-Organization” ，w4是 “O”。

尽管咱们在该例子中获得了正确的结果，但实际状况并不老是这样：

显然，此次的分类结果并不许确。

CRF层能够学习到句子的约束条件

CRF层能够加入一些约束来保证最终预测结果是有效的。这些约束能够在训练数据时被CRF层自动学习获得。

可能的约束条件有：

句子的开头应该是“B-”或“O”，而不是“I-”。
“B-label1 I-label2 I-label3…”，在该模式中，类别1,2,3应该是同一种实体类别。好比，“B-Person I-Person” 是正确的，而“B-Person I-Organization”则是错误的。
“O I-label”是错误的，命名实体的开头应该是“B-”而不是“I-”。

有了这些有用的约束，错误的预测序列将会大大减小。

CRF 层

CRF层中的损失函数包括两种类型的分数，而理解这两类分数的计算是理解CRF的关键。

1 Emission score

第一个类型的分数是发射分数（状态分数）。这些状态分数来自BiLSTM层的输出，在这里就是word预测为某个标签的几率。以下图所示，w0被预测为B-Person的分数是1.5.

为方便起见，咱们给每一个类别一个索引，以下表所示：

Xiyj表明状态分数，i是单词的位置索引，yj是类别的索引。根据上表，

表示单词w1被预测为B−Organization的分数是0.1。

2 转移分数

用tyiyj来表示转移分数。例如，tB−Person,I−Person=0.9表示从类别B−Person→I−Person的分数是0.9。所以，有一个全部类别间的转移分数矩阵。

为了使转移分数矩阵更具鲁棒性，咱们加上START 和 END两类标签。START表明一个句子的开始（不是句子的第一个单词），END表明一个句子的结束。

下表是加上START和END标签的转移分数矩阵。

如上表格所示，转移矩阵已经学习到一些有用的约束条件：

句子的第一个单词应该是“B-” 或 “O”，而不是“I”。（从“START”->“I-Person 或 I-Organization”的转移分数很低）
“B-label1 I-label2 I-label3…”，在该模式中，类别1,2,3应该是同一种实体类别。好比，“B-Person I-Person” 是正确的，而“B-Person I-Organization”则是错误的。（“B-Organization” -> “I-Person”的分数很低）
“O I-label”是错误的，命名实体的开头应该是“B-”而不是“I-”。

要怎样获得这个转移矩阵呢？

实际上，转移矩阵是BiLSTM-CRF模型的一个参数。在训练模型以前，你能够随机初始化转移矩阵的分数。这些分数将随着训练的迭代过程被更新，换句话说，CRF层能够本身学到这些约束条件。

CRF损失函数

CRF损失函数由两部分组成，真实路径的分数和全部路径的总分数。真实路径的分数应该是全部路径中分数最高的。

例如，数据集中有以下几种类别：

一个包含5个单词的句子，可能的类别序列以下：

1. START B-Person B-Person B-Person B-Person B-Person END
2. START B-Person I-Person B-Person B-Person B-Person END
…..
10. START B-Person I-Person O B-Organization O END
N. O O O O O O O

每种可能的路径的分数为Pi，共有N条路径，则路径的总分是

，e是常数e。

若是第十条路径是真实路径，也就是说第十条是正确预测结果，那么第十条路径的分数应该是全部可能路径里得分最高的。

根据以下损失函数，在训练过程当中，BiLSTM-CRF模型的参数值将随着训练过程的迭代不断更新，使得真实路径所占的比值愈来愈大。

如今的问题是:

怎么定义路径的分数？
怎么计算全部路径的总分？
当计算全部路径总分时，是否须要列举出全部可能的路径？（答案是不须要）

真实路径分数

计算真实路径分数，e^Si，是很是容易的。

咱们先集中注意力来计算Si：

以“START B-Person I-Person O B-Organization O END”这条真实路径来讲：

句子中有5个单词，w1,w2,w3,w4,w5，加上START和END 在句子的开始位置和结束位置，记为，w0，w6

Si = EmissionScore + TransitionScore

这些分数来自BiLSTM层的输出，至于x0,START 和x6,END ，则设为0。

这些分数来自于CRF层，将这两类分数加和便可获得Si 和路径分数e^Si

全部路径的总分

如何计算全部路径的总分呢？以一个玩具的例子详细讲解。

Step 1

咱们定义的损失函数以下：

如今咱们把它变成对数损失函数：

训练目标一般是最小化损失函数，加负号：

前面咱们已经很清楚如何计算真实路径得分，如今咱们须要找到一个方法去计算

Step 2：回忆一下状态分数和转移分数

为了简化问题，假定我句子只有3个单词组成：

X = [w0, w1 ,w2]

只有两个类别：

LabelSet = {l1, l2}

状态分数以下：

转移矩阵以下：

Step 3：

目标是：

整个过程是一个分数的积聚过程。它的实现思想有点像动态规划。首先，w0全部路径的总分先被计算出来，而后，计算w0 -> w1的全部路径的得分，最后计算w0 -> w1 -> w2的全部路径的得分，也就是咱们须要的结果。

接下来，会看到两个变量：obs和 previous。Previous存储了以前步骤的结果，obs表明当前单词所带的信息。

若是句子只有一个单词，就没有以前步骤的结果，因此Previous 是空。只能观测到状态分数 obs =【x01，x02】

W0 的全部路径总分就是：

为啥要扩展previous 和 obs 矩阵呢？由于这样操做能够是接下来的计算至关高效。

实际上，第二次迭代过程也就完成了。

发现了吗，这其实就是咱们的目标，

读到这边，差很少就大功告成了。这一步，咱们再重复一次以前的步骤。

跟上一步骤同样，用新的previous计算总分：

们最终获得了咱们的目标，

，咱们的句子中共有3个单词和两个类别，因此共有8条路径。

biLSTM_CRF模型在tensorflow中的实现。

运行环境

python 3.6
tensorflow 1.2
本文GITHUB 欢迎Star和Fork。
使用一样方法，构造的中文分词。中文分词GITHUB

正文

1.数据预处理
2.模型构建
3.模型训练与测试
4.模型验证
5.总结

1.数据预处理

首先是将预测数据进行处理，转成模型可以识别的数字。

数据原格式

数据是以列形式存储，截图翻转了一下。

我从训练文本中，抽取频数在前5000的字，实际只抽取到了4830左右个字。加入'<PAD>','<UNK>','<NUM>'，分别表示填充字符，未知字符，数字字符。一块儿存入字典。

字典

标签一样也有对应的字典。

# 将tag转换成数字
tag2label = {"O": 0, "B-PER": 1, "I-PER": 2, "B-LOC": 3, "I-LOC": 4, "B-ORG": 5, "I-ORG": 6}

依据字典与标签字典，将文字与标签分别转成数字。第一行是文本，第二行是标签。

文本与标签

下一步是生成batch的操做。
生成batch后，须要对batch内句子padding到统一的长度，并计算每句的真实长度。

2.模型构建

采用双向LSTM对序列进行处理，将输出结果进行拼接。输入shape[batch,seq_Length,hidden_dim]，输出shape[batch,seq_length,2*hidden_dim]。

with tf.name_scope('biLSTM'): cell_fw = tf.nn.rnn_cell.LSTMCell(pm.hidden_dim) cell_bw = tf.nn.rnn_cell.LSTMCell(pm.hidden_dim) outputs, outstates = tf.nn.bidirectional_dynamic_rnn(cell_fw=cell_fw, cell_bw=cell_bw,inputs=self.embedding, sequence_length=self.seq_length, dtype=tf.float32) outputs = tf.concat(outputs, 2)#将双向RNN的结果进行拼接 #outputs三维张量，[batchsize,seq_length,2*hidden_dim]

咱们从本文的第一幅图中，能够看出，整个biLSTM完整的输出格式是[batch,seq_length,num_tag]。num_tag是标签的数量，本实验中是标签数量是7。因此咱们须要一个全链接层，将输出格式处理一下。

with tf.name_scope('output'): s = tf.shape(outputs) output = tf.reshape(outputs, [-1, 2*pm.hidden_dim]) output = tf.layers.dense(output, pm.num_tags) output = tf.contrib.layers.dropout(output, pm.keep_pro) self.logits = tf.reshape(output, [-1, s[1], pm.num_tags])

self.logits就是须要输入CRF层中的数据。代码的第三行，对output的变形，表示将[batch,seq_length,2hidden_dim]变成[batchseq_length,2*hidden_dim]，最后处理时再变形为[batch,seq_length,num_tag]。
下面就是CRF层的处理：

with tf.name_scope('crf'): log_likelihood, self.transition_params = crf_log_likelihood(inputs=self.logits, tag_indices=self.input_y, sequence_lengths=self.seq_length) # log_likelihood是对数似然函数，transition_params是转移几率矩阵 #crf_log_likelihood{inputs:[batch_size,max_seq_length,num_tags], #tag_indices:[batchsize,max_seq_length], #sequence_lengths:[real_seq_length] #transition_params: A [num_tags, num_tags] transition matrix #log_likelihood: A scalar containing the log-likelihood of the given sequence of tag indices.

这一步，是调用from tensorflow.contrib.crf import crf_log_likelihood函数，求最大似然函数，以及求转移矩阵。最大似然函数前加上"-"，能够用梯度降低法求最小值；

with tf.name_scope('loss'): self.loss = tf.reduce_mean(-log_likelihood) #最大似然取负，使用梯度降低

转移矩阵能够帮助维特比算法来求解最优标注序列。

def predict(self, sess, seqs): seq_pad, seq_length = process_seq(seqs) logits, transition_params = sess.run([self.logits, self.transition_params], feed_dict={self.input_x: seq_pad, self.seq_length: seq_length, self.keep_pro: 1.0}) label_ = [] for logit, length in zip(logits, seq_length): #logit 每一个子句的输出值，length子句的真实长度，logit[:length]的真实输出值 # 调用维特比算法求最优标注序列 viterbi_seq, _ = viterbi_decode(logit[:length], transition_params) label_.append(viterbi_seq) return label_