深度学习笔记（2）

时间 2021-01-15

原文原文链接

一、文本预处理文本是一类序列数据，一篇文章可以看作是字符或单词的序列，预处理通常包括四个步骤： 1、读入文本 2、分词：对每个句子进行分词，也就是将一个句子划分成若干个词（token），转换为一个词的序列。 3、建立字典：将每个词映射到一个唯一的索引（index）。为了方便模型处理，我们需要将字符串转换为数字。因此我们需要先构建一个字典（vocabulary），将每个词映射到一个唯一的索引编号。

>>阅读原文<<