文本生成(seq2seq)

问题:根据指定文本的风格生成。例如三国演义


如何实现?编码

首先须要了解语言模型token

什么是语言模型?

语言模型是给定序列,预测下一个token出现的几率分布。
就好像是完型填空,只不过这个空在最后。而选项是整个单词表。
例如:一个女孩看见我,忽然脸()
若是训练语料是我平生的简介的话,那么根据训练语料能够推测出,这个下面这个字大几率是“红”。入门

怎么作呢?

作文本生成的方法有不少。我做为刚入门都算不上的新手。写一下最简单的解决办法吧。方法

用LSTM 对文本编码 取出全部时间的编码或者最后时间的编码。而后去预测下一个token。新手

例如:咱们从Si:“一个女孩看见我,"开始生成(固然也能够用一个表明开始的字符)。 对这个句子做为x,而后标签是“突”,最后计算将预测的几率分布和真实的几率分布作交叉熵损失计算,而后就是咱们你们都知道的反向传播balabalabalala...
如今,就和普通的分类问题一毛同样了。语言

x:一个女孩看见我, y:突
x:个女孩看见我,突 y:然
x:女孩看见我,忽然 y:脸
x:孩看见我,忽然脸 y:红时间

这里假设根据前8个token预测下一个token。标签

其他的作法。

之后会学到新的生成方法,再来更新。
(要是能生成女友就行了)字符

相关文章
相关标签/搜索