文本分类语言模型-《动手学深度学习pytorch》

时间 2020-12-30

标签机器学习繁體版

原文原文链接

文本预处理预处理通常包括四个步骤：读入文本分词建立字典，将每个词映射到一个唯一的索引（index）将文本从词的序列转换为索引的序列，方便输入模型有一些现有的工具可以很好地进行分词，例如spaCy和NLTK 语言模型一段自然语言文本可以看作是一个离散时间序列，给定一个长度为TT的词的序列w1,w2,…,wT语言模型的目标就是评估该序列是否合理，即计算该序列的概率：P(w1,w2,…,w

>>阅读原文<<