词袋模型BoW和词集模型SoW比较

Bag-of-Words词袋模型,经常用在自然语言处理和信息检索当中.在词袋模型中,一篇文本(文章)被表示成"装着词的袋子",也就是说忽略文章的词序和语法,句法;将文章看做词的组合,文中出现的每个词都是独立的,不依赖于其他词.虽然这个事实上并不成立,但是在实际工作中,效果很好. Set-of-Words词集模型SoW:用0-1作为文章中词的数量表示. 在词袋模型BoW中,每个词的数量表示有多种方法
相关文章
相关标签/搜索