《introduction to information retrieval》信息检索学习笔记2 词项词汇和倒排记录表

第2章 词项词汇和倒排记录表 回顾建立倒排索引的主要步骤: 1.收集要索引的文档。 2.词条化文本。 3.对词条进行语言预处理,生成标准化词条。 4.建立倒排索引,索引每个词项出现的文档。 2.1文档描述和字符序列解码 1.在文档中获取字符序列 文档处理第一步:将文档中的字节序列转换成字符的线性序列 (1)确定编码方案(可看作机器学习分类的问题,但通常通过启发式方法、用户选择或使用提供的文档元数据
相关文章
相关标签/搜索