nlp项目实践古诗创作tensorflow ---(2)reader类编写(获得训练数据batch)

之前介绍了数据集,接下来将数据集生成batch的训练数据,并增加一些符号以及转换成数字。 整体介绍 对于输入的中文,想要在模型中体现,必然不可能以汉字的形式呈现,而是使用embedding将这个字对应到一个n维的向量中去,而为了能够较快的完成这个对应任务,需要首先把汉字转换成一个序号,由于使用了别人训练好的embedding,因此也要使用别人的字符序号。 将一句话转换成序号后,还需要做一些“加减法
相关文章
相关标签/搜索