[笔记] Introduction to Shallow Language Processing

Bag of Words 解释: 搜素引擎用词袋模型这种shallow form理解语言。词袋模型的特征有: 1)忽略word order; 2)忽略stopwords(像the,a这种频率高又没什么实际意义的词); 3)把words变成terms,将root相同的words变成一个term,比如cats->cat 优缺点: pros:简单;有效 cons:有损的,无法从词袋还原到原文档;忽略了词
相关文章
相关标签/搜索