【阅读笔记】《信息检索导论》第二章 词项词典及倒排记录表

【阅读笔记】《信息检索导论》第二章 词项词典及倒排记录表 文档分析及编码转换 词项集合的确定 基于跳表的倒排记录表快速合并算法 含位置信息的倒排记录表及短语查询 二元词索引 位置信息索引 混合索引机制 文档分析及编码转换 1、判断文档的编码方式(ASCII,UTF-8等),将字节序列转换成线性的字符序列 2、确定文档的索引单位(索引粒度问题indexing granularity) *注:索引粒度
相关文章
相关标签/搜索