如何实现?编码
首先须要了解语言模型。token
语言模型是给定序列,预测下一个token出现的几率分布。
就好像是完型填空,只不过这个空在最后。而选项是整个单词表。
例如:一个女孩看见我,忽然脸()
若是训练语料是我平生的简介的话,那么根据训练语料能够推测出,这个下面这个字大几率是“红”。入门
作文本生成的方法有不少。我做为刚入门都算不上的新手。写一下最简单的解决办法吧。方法
用LSTM 对文本编码 取出全部时间的编码或者最后时间的编码。而后去预测下一个token。新手
例如:咱们从Si:“一个女孩看见我,"开始生成(固然也能够用一个表明开始的字符)。 对这个句子做为x,而后标签是“突”,最后计算将预测的几率分布和真实的几率分布作交叉熵损失计算,而后就是咱们你们都知道的反向传播balabalabalala...
如今,就和普通的分类问题一毛同样了。语言
x:一个女孩看见我, y:突
x:个女孩看见我,突 y:然
x:女孩看见我,忽然 y:脸
x:孩看见我,忽然脸 y:红时间
这里假设根据前8个token预测下一个token。标签
之后会学到新的生成方法,再来更新。
(要是能生成女友就行了)字符