定义
从
互联网上搜索,经过
文本匹配,采起一些
手段找到
最好的信息。
结果衡量
- 相关性-结果与query的匹配,结果与用户需求的匹配
- 权威性-结果被引用次数(超链),连接分析
- 时效性-结果对用户是有用新鲜的
- 多样性-根据用户行为返回丰富的结果(苹果?)
- 个性化-地域、用户喜爱
- 反spam
搜索步骤
数据的处理:
- 抓取网页(高效、实时)
- 创建网页库,存储数据(海量)
- 创建索引
- 信息抽取、特征生产
- query分析、切词
- 倒排索引
- 结果排序(相关性计算)
- 展示
问题
经过上面能够了解搜索引擎的基本流程和原理,可是具体实现并用于实际服务中,就会有各类问题须要解决:
- 网页的发现、高效及时的抓取
- 海量数据的存储和处理
- 相关性的计算
- query分析:
- 基本分析(切词)- term重要性计算,查询模式,term紧密度分析;
- 需求分析 - 需求扩展、时效性检查、需求类型识别
- query变换
- 对用户需求快速、稳定的响应
- 丰富的展示