NLP-C2-W3-N-gram和自动补全

自动补全系统的一个关键组成部分是语言模型。给语言序列分配概率,更容易出现的序列得分越高。例如,“我有一支笔”比“我是一支笔”的概率更高,因为第一个句子在现实世界中更容易出现。 步骤 加载和预处理数据 加载和tokenize数据 把句子分成训练集和测试集。 用一个<unk>标记替换低频单词。 开发基于N-gram的语言模型 从给定的数据集计算n_gram的计数。 用k-smoothing估计下一个词
相关文章
相关标签/搜索