搜索引擎学习-概述

定义

互联网上搜索,经过 文本匹配,采起一些 手段找到 最好的信息

结果衡量

  • 相关性-结果与query的匹配,结果与用户需求的匹配
  • 权威性-结果被引用次数(超链),连接分析
  • 时效性-结果对用户是有用新鲜的
  • 多样性-根据用户行为返回丰富的结果(苹果?)
  • 个性化-地域、用户喜爱
  • 反spam
能够抽象为1个打分公式:score = F(query, doc, user)

搜索步骤

数据的处理:
  1. 抓取网页(高效、实时)
  2. 创建网页库,存储数据(海量)
  3. 创建索引
  4. 信息抽取、特征生产
搜索的实现:
  1. query分析、切词
  2. 倒排索引
  3. 结果排序(相关性计算)
  4. 展示



问题

经过上面能够了解搜索引擎的基本流程和原理,可是具体实现并用于实际服务中,就会有各类问题须要解决:
  • 网页的发现、高效及时的抓取
  • 海量数据的存储和处理
  • 相关性的计算
  • query分析:
    • 基本分析(切词)- term重要性计算,查询模式,term紧密度分析;
    • 需求分析 - 需求扩展、时效性检查、需求类型识别
    • query变换
  • 对用户需求快速、稳定的响应
  • 丰富的展示
对于实现的介绍,见下篇文章。

 

转载于:https://www.cnblogs.com/whuqin/p/4981991.htmlhtml