动手学深度学习——学习笔记(Task2)

文本预处理 文本是一类序列数据,一篇文章可以看作是字符或单词的序列,本节将介绍文本数据的常见预处理步骤,预处理通常包括四个步骤: 读入文本; 分词; 建立字典;将每个词映射到一个唯一的索引(index) 将文本从词的序列转换为索引的序列,方便输入模型。 读入文本 分词 建立字典 将词转化为索引 语言模型 语言模型的计算 n元语法 时序数据采样 随机采样 相邻采样 总结 N元语法是基于n − 1阶马
相关文章
相关标签/搜索