做者 | Francois Chollet
编译 | CDA数据分析师
原文 | A ten-minute introduction to sequence-to-sequence learning in Keras
序列到序列学习(Seq2Seq)是关于将模型从一个域(例如英语中的句子)转换为另外一域(例如将相同句子翻译为法语的序列)的训练模型。html
“猫坐在垫子上” -> [ Seq2Seq 模型] -> “在小吃中聊天小程序
这可用于机器翻译或免费问答(在给定天然语言问题的状况下生成天然语言答案)-一般,它可在须要生成文本的任什么时候间使用。数组
有多种处理此任务的方法,可使用RNN或使用一维卷积网络。在这里,咱们将重点介绍RNN。网络
当输入序列和输出序列的长度相同时,您能够简单地使用Keras LSTM或GRU层(或其堆栈)来实现此类模型。在此示例脚本 中就是这种状况, 该脚本显示了如何教RNN学习加编码为字符串的数字:函数
该方法的一个警告是,它假定能够生成target[...t]给定input[...t]。在某些状况下(例如添加数字字符串),该方法有效,但在大多数用例中,则无效。在通常状况下,有关整个输入序列的信息是必需的,以便开始生成目标序列。oop
在通常状况下,输入序列和输出序列具备不一样的长度(例如,机器翻译),而且须要整个输入序列才能开始预测目标。这须要更高级的设置,这是人们在没有其余上下文的状况下提到“序列模型的序列”时一般所指的东西。运做方式以下:学习
RNN层(或其堆栈)充当“编码器”:它处理输入序列并返回其本身的内部状态。请注意,咱们放弃了编码器RNN的输出,仅恢复 了状态。在下一步中,此状态将用做解码器的“上下文”或“条件”。测试
另外一个RNN层(或其堆栈)充当“解码器”:在给定目标序列的先前字符的状况下,对其进行训练以预测目标序列的下一个字符。具体而言,它通过训练以将目标序列变成相同序列,但在未来会偏移一个时间步,在这种状况下,该训练过程称为“教师强迫”。重要的是,编码器使用来自编码器的状态向量做为初始状态,这就是解码器如何获取有关应该生成的信息的方式。有效地,解码器学会产生targets[t+1...] 给定的targets[...t],调节所述输入序列。编码
在推断模式下,即当咱们想解码未知的输入序列时,咱们会经历一个略有不一样的过程:spa
一样的过程也能够用于训练Seq2Seq网络,而无需 “教师强制”,即经过将解码器的预测从新注入到解码器中。
由于训练过程和推理过程(解码句子)有很大的不一样,因此咱们对二者使用不一样的模型,尽管它们都利用相同的内部层。
这是咱们的训练模型。它利用Keras RNN的三个关键功能:
return_state构造器参数,配置RNN层返回一个列表,其中,第一项是输出与下一个条目是内部RNN状态。这用于恢复编码器的状态。
inital_state呼叫参数,指定一个RNN的初始状态(S)。这用于将编码器状态做为初始状态传递给解码器。
return_sequences构造函数的参数,配置RNN返回其输出全序列(而不仅是最后的输出,其默认行为)。在解码器中使用。
from keras.models import Model
from keras.layers import Input, LSTM, Dense
encoder_inputs = Input(shape=(None, num_encoder_tokens))
encoder = LSTM(latent_dim, return_state=True)
encoder_outputs, state_h, state_c = encoder(encoder_inputs)
encoder_outputs
and only keep the states.encoder_states = [state_h, state_c]
encoder_states
as initial state.decoder_inputs = Input(shape=(None, num_decoder_tokens))
decoder_lstm = LSTM(latent_dim, return_sequences=True, return_state=True)
decoder_outputs, , = decoder_lstm(decoder_inputs,
initial_state=encoder_states)
decoder_dense = Dense(num_decoder_tokens, activation='softmax')
decoder_outputs = decoder_dense(decoder_outputs)
encoder_input_data
& decoder_input_data
into decoder_target_data
model = Model([encoder_inputs, decoder_inputs], decoder_outputs)
咱们分两行训练咱们的模型,同时监视20%的保留样本中的损失。
model.compile(optimizer='rmsprop', loss='categorical_crossentropy')
model.fit([encoder_input_data, decoder_input_data], decoder_target_data,
batch_size=batch_size,
epochs=epochs,
validation_split=0.2)
在MacBook CPU上运行大约一个小时后,咱们就能够进行推断了。为了解码测试语句,咱们将反复:
这是咱们的推理设置:
encoder_model = Model(encoder_inputs, encoder_states)
decoder_state_input_h = Input(shape=(latent_dim,))
decoder_state_input_c = Input(shape=(latent_dim,))
decoder_states_inputs = [decoder_state_input_h, decoder_state_input_c]
decoder_outputs, state_h, state_c = decoder_lstm(
decoder_inputs, initial_state=decoder_states_inputs)
decoder_states = [state_h, state_c]
decoder_outputs = decoder_dense(decoder_outputs)
decoder_model = Model(
[decoder_inputs] + decoder_states_inputs,
[decoder_outputs] + decoder_states)
咱们使用它来实现上述推理循环:
def decode_sequence(input_seq):
states_value = encoder_model.predict(input_seq)
target_seq = np.zeros((1, 1, num_decoder_tokens))
target_seq[0, 0, target_token_index['t']] = 1.
stop_condition = False
decoded_sentence = ''
while not stop_condition:
output_tokens, h, c = decoder_model.predict(
[target_seq] + states_value)
sampled_token_index = np.argmax(output_tokens[0, -1, :])
sampled_char = reverse_target_char_index[sampled_token_index]
decoded_sentence += sampled_char
if (sampled_char == 'n' or
len(decoded_sentence) > max_decoder_seq_length):
stop_condition = True
target_seq = np.zeros((1, 1, num_decoder_tokens))
target_seq[0, 0, sampled_token_index] = 1.
states_value = [h, c]
return decoded_sentence
咱们获得了一些不错的结果-绝不奇怪,由于咱们正在解码从训练测试中提取的样本
Input sentence: Be nice.
Decoded sentence: Soyez gentil !
-
Input sentence: Drop it!
Decoded sentence: Laissez tomber !
-
Input sentence: Get out!
Decoded sentence: Sortez !
到此,咱们结束了对Keras中序列到序列模型的十分钟介绍。提醒:此脚本的完整代码能够在GitHub上找到。
扫码进入CDA官方小程序,解锁更多新鲜资讯和优质内容,还有免费试听课程,不要错过哟!