深度学习笔记(2)

一、文本预处理 文本是一类序列数据,一篇文章可以看作是字符或单词的序列,预处理通常包括四个步骤: 1、读入文本 2、分词:对每个句子进行分词,也就是将一个句子划分成若干个词(token),转换为一个词的序列。 3、建立字典:将每个词映射到一个唯一的索引(index)。为了方便模型处理,我们需要将字符串转换为数字。因此我们需要先构建一个字典(vocabulary),将每个词映射到一个唯一的索引编号。
相关文章
相关标签/搜索