(五)N-gram语言模型的数据处理

1、步骤 数据集说明:一段英文 (1)分词:把原始的英文分词,只保留词之间的顺序不变,多个句子也是看出总体进行分词。 (2)统计词频:按照n元进行词频统计,好比“I love NLP I enjoy it”当n=2时候,能够划分为(【I love】,【love NLP】,【NLP I】…),分别统计【I love】,【love NLP】等出现的次数。(在朴素贝叶斯中只是统计一个词,这里是统计n个先
相关文章
相关标签/搜索