文本分类语言模型-《动手学深度学习pytorch》

文本预处理 预处理通常包括四个步骤: 读入文本 分词 建立字典,将每个词映射到一个唯一的索引(index) 将文本从词的序列转换为索引的序列,方便输入模型 有一些现有的工具可以很好地进行分词,例如spaCy和NLTK 语言模型 一段自然语言文本可以看作是一个离散时间序列,给定一个长度为TT的词的序列w1,w2,…,wT语言模型的目标就是评估该序列是否合理,即计算该序列的概率:P(w1,w2,…,w
相关文章
相关标签/搜索