搜索系统简介

搜索系统简介 一个基本的搜索引擎系统主要由离线(建库)和在线(检索)两部分构成,离线侧主要完成“网页获取——网页分析——建倒排索引库”的过程,在线侧主要完成“query获取——query处理——与doc进行相关性匹配”的过程。首先给出一个全貌图: 搜索系统概览 网页获取 做过爬虫的人都知道,网页获取实际上就是一个spider的过程,spider通过“抓取网页——分析页面——进网页库——提取链接——
相关文章
相关标签/搜索