搜索引擎基本原理

时间 2019-11-30

标签搜索引擎基本原理栏目搜索引擎繁體版

原文原文链接

摘要：最近读了《这就是搜索引擎：核心技术详解》一书，简要做个记录。算法

__________________________________________________数据库

目录缓存

【1】搜索引擎概述服务器

【2】搜索引擎的基础技术网络

【3】搜索引擎的平台基础架构

【4】搜索结果的改善优化框架

__________________________________________________机器学习

【1】搜索引擎概述

过去的15年间，互联网信息急剧膨胀，靠人工的方式去筛选获取有用信息再也不可能，所以搜索引擎应运而生。根据其发展，能够将其划为四个时代。分布式

分类目录。yahoo是这个时期的表明，采用纯人工方式收集，质量较高，但效率低。
文本检索。采用了经典的信息检索模型，主要查询用户关键词语网页内容类似度，收录容量增长，但质量不是很好。如，早期的AltaVista.
连接分析。典型：Google的PageRank，极大扩充了网页内容，质量有提升，随之而来各类做弊方法。
用户为中心？如今的大部分搜索引擎对相同查询返回相同的结果，可是不一样用户可能关注不同，将来也许更多考虑用户的差别性。

说到发展，不得不提搜索引擎的三个主要目标，不管它往何方发展，如下三个目标老是一个很好的评估标准：性能

更全：如何把更多相关的网页收录？
更快：如何从数以亿计的网页中迅速返回结果？
更准：如何把用户最感兴趣的结果呈现？

【2】搜索引擎的基础技术

这一部分主要从如下四个部分来说述搜索引擎的基础技术，这四个部分也是搜索引擎的重要环节。

网络爬虫
创建索引
内容检索
连接分析

2.1 网络爬虫

网络爬虫是搜索引擎的下载系统，它的做用是内容的获取，手段就是在万维网中经过连接不断爬取收集各种网页。可是互联网的页面浩如烟海，并且天天不断有新的内容产生，根据爬取目标和范围，能够将爬虫简单分为如下几类：

批量性爬虫：明确的抓取目标和范围，达到即中止
增量型爬虫：应对网页不断更新的状态，爬虫须要及时反应。通用商业引擎通常都是这类
垂直型爬虫：只针对某个特定领域的爬虫，根据主题过滤。

爬虫在爬取网页的时候，应该怎样肯定下一步的目标呢？主要有如下策略：

宽度优先：最简单的方式，即将某个页面中的连接依次加入待爬取队列
局部PageRank：PageRank是一种网页重要性指标，这种方式根据必定时期内的局部PageRank值决定下一步爬取目标
OPIC：当下载当前网页后，将其重要性平均分给包含的连接，每次选取最重要的页面，不用迭代计算，速度较快
大站优先：思想很简单，以网站为单位衡量页面重要性。

接下来，简要介绍一下搜索引擎中的一个重要问题：暗网抓取。所谓暗网，是指常规方式很难爬到的网页，而在网络中，这样的网是大量存在的。有的网页没有外链，有的主要内容存储于数据库中(如携程网)，没有连接指向这些记录。暗网挖掘是商业搜索引擎的一大研究重点，Google是这样，百度的“阿拉丁”计划也在于此。

2.2 创建索引

对于搜索引擎，索更是其中最重要的核心技术之一，面对海量的网页内容，如何快速找到包含用户查询词的全部网页？倒排索引在其中扮演了关键的角色。

对于一个网页，咱们把它看作一个文档，其中的内容由一个个单词组成。为了对于用户的搜索词快速给出文档结果，咱们要创建一个单词-文档的存储结构。倒排索引是实现单词—文档矩阵的一种具体存储形式。经过倒排索引，能够根据单词快速获取包含这个单词的文档列表。倒排索引主要由两个部分组成：单词词典和倒排文件。

单词词典主要是两种存储方式：哈希加连接和树形结构。

索引创建方法：

（1）两遍文档遍历

　　在第一遍扫描文档集合时，该方法并无当即开始创建索引，而是收集一些全局的统计信息。好比文档集合包含的文档个数N，文档集合内所包含的不一样单词个数M，每一个单词在多少个文档中出现过的信息DF。在得到了上述3 类信息后，就能够知道最终索引的大小，因而在内存中分配足够大的空间，用来存储倒排索引内容。在第二遍扫描的时候，开始真正创建每一个单词的倒排列表信息，即对某个单词来讲，得到包含这个单词的每一个文档的文档ID，以及这个单词在文档中的出现次数TF

（2）排序法

　　排序法对此作出了改进，该方法在创建索引的过程当中，始终在内存中分配固定大小的空间，用来存放词典信息和索引的中间结果，当分配的空间被消耗光的时候，把中间结果写入磁盘，清空内存里中间结果所占空间，以用作下一轮存放索引中间结果的存储区。这种方法因为只须要固定大小的内存，因此能够对任意大小的文档集合创建索引。

（3）归并法

　　在分配的内存定额被消耗光时，排序法只是将中间结果写入磁盘，而词典信息一直在内存中进行维护，随着处理的文档愈来愈多，词典里包含的词典项愈来愈多，因此占用内存愈来愈大，致使后期中间结果可用内存愈来愈少。归并法对此作出了改进，即每次将内存中数据写入磁盘时，包括词典在内的全部中间结果信息都被写入磁盘，这样内存全部内容均可以被清空，后续创建索引可使用所有的定额内存。

索引更新策略：

彻底重建
再合并策略
原地更新策略
混合策略

2.3 内容检索

内容检索模型是搜索引擎排序的理论基础，用来计算网页与查询的相关性。

经常使用的检索模型

布尔模型
向量空间模型
几率模型
语言模型
机器学习排序

检索系统评价指标

精确率：搜索结果中相关文档的比例 A/(A+B)
召回率：结果中相关文档占全部相关文档的比例 A/(A+C)
P@10 : 前10个结果中相关查询的数目
MAP指标：对返回结果按次序加权,权值为排名的倒数

	查询相关	查询无关
在搜索结果内	A	B
不在搜索结果	C	D

2.4 连接分析

搜索引擎在查找可以知足用户请求的网页时，主要考虑两方面的因素：一方面是用户发出的查询与网页内容的内容类似性得分，即网页和查询的相关性；另外一方面就是经过连接分析方法计算得到的得分，即网页的重要性。连接分析就是经过网络的连接结构去获取网页重要性的一类方法。

连接分析算法不少，从模型上看，主要分为两类：

随机游走：从某个网页以必定的几率跳转到它所包含的连接
子集传播：给予某个子集必定的传播，按照特定的条件，将权值传给其余网页

经常使用算法：

PageRank
HITS
SALSA
主题敏感PageRank
Hilltop

【3】搜索引擎的平台基础

这一部分主要是讲搜索引擎的平台支持，主要是云存储和云计算模型。

对于商业搜索引擎，须要保存大量的数据，而且须要对这些大规模的海量数据进行处理。云存储和云计算就是为了这个问题提出的解决方案。

大量的数据不可能存在一台服务器上，它必然是分布式存储的。当数据更新时，这就会产生多个服务器上数据不一致的状况，以及如何选择服务器的问题。

咱们首先先介绍一些基本原则：

（1）CAP原则

CAP是Consistency，Availability，Partition Tolerance的简称，即一致性，可用性和分区容忍性。

对于一个数据系统，三个原则不能兼得。云存储每每关注CA，牺牲部分一致性。

（2）ACID原则

这是关系数据库采起的原则。它是Atomicity，Consistency，Isolation，Durability的缩写，即原子性，一致性，事务独立，持久性。

（3）BASE原则

大多云存储系统采用，它和ACID不一样，牺牲了强数据一致性换取高可用性。由于用户可能对数据的变化没有能不能提供服务敏感。

它的三个方面是：

基本可用: Basically Available
柔性状态: Soft State，不要求随时同步
最终一致性: 即若数据一致性，只要在必定时间段内达到一致便可

Google的云存储和云计算架构

云存储：

GFS文件系统：由主服务器(Master)，Chunk服务器和GFS客户端构成
Chubby锁服务：针对分布式系统粗粒度的锁服务
BigTable：针对海量数据的结构或半结构的存储模型，本质是三维映射表，由行主键，列主键以及时间构成
MegaStore：适合于实时交互，而GFS和BigTable适合后台处理

云计算

MapReduce
Percolator ：增量模式，做为对MapReduce的补充
Pregel：大规模图计算模型

其它云存储系统

Dynamo ： Amazon
PNUTS ： Yahoo!
HayStack ： Facebook

【4】搜索结果的改善优化

前面讲过，搜索引擎追求的三个目标就是更快，更全，更准。可是要达到这些目标并非一件很轻松的工做，须要不少环节的处理。这一部分主要从如下一个方面来说讲，怎样提升搜索引擎的搜索结果，改善搜索质量，提高搜索性能。

4.1 做弊分析

做弊方法

内容做弊：设置无关关键字，内容农场（大量低质量内容）
连接做弊：连接农场，互相连接...
页面隐藏做弊：欺骗爬虫，隐藏无关关键字，重定向。。。
WEB2.0做弊

反做弊总体思路

信任传播
不信传播
异常发现

（1）所谓信任传播模型，基本思路以下：在海量的网页数据中，经过必定的技术手段或者人工半人工手段，从中筛选出部分彻底值得信任的页面，也就是确定不会做弊的页面（能够理解为白名单），算法以这些白名单内的页面做为出发点，赋予白名单内的页面节点较高的信任度分值，其余页面是否做弊，要根据其和白名单内节点的连接关系来肯定。白名单内节点经过连接关系将信任度分值向外扩散传播，若是某个节点最后获得的信任度分值高于必定阈值，则认为没有问题，而低于这一阈值的网页则会被认为是做弊网页。

（2）不信任传播模型从框架上来说，其和信任传播模型是类似的，最大的区别在于：初始的页面子集合不是值得信任的页面节点，而是确认存在做弊行为的页面集合，即不值得信任的页面集合（能够理解为黑名单）。赋予黑名单内页面节点不信任分值，经过连接关系将这种不信任关系传播出去，若是最后页面节点的不信任分值大于设定的阈值，则会被认为是做弊网页。

（3）异常发现模型也是一个高度抽象化的算法框架模型，其基本假设认为：做弊网页必然存在有异于正常网页的特征，这种特征有多是内容方面的，也有多是连接关系方面的。而制定具体算法的流程每每是先找到一些做弊的网页集合，分析出其异常特征有哪些，而后利用这些异常特征来识别做弊网页。

　　只要操纵搜索引擎搜索结果可以带来收益，那么做弊动机就会始终存在，尤为是在网络营销起着愈来愈重要宣传做用的时代尤为如此。做弊与反做弊是相互抑制同时也是相互促进的一个互动过程，“道高一尺，魔高一丈”的故事不断重演。前述内容主要是以技术手段来进行反做弊，而事实上纯粹技术手段目前是没法完全解决做弊问题的，必须将人工手段和技术手段相互结合，才能取得较好的反做弊效果。技术手段能够分为相对通用的手段和比较特殊的手段，相对通用的手段对于可能新出现的做弊手法有必定的预防能力，可是由于其通用性，因此针对性不强，对特殊的做弊方法效果未必好。而专用的反做弊方法每每是过后诸葛亮，即只有做弊行为已经发生而且比较严重，才可能概括做弊特征，采起过后过滤的方法。人工手段则与技术手段有很强的互补性，能够在新的做弊方式一出现就被人发现，能够看作一种处于做弊进行时的预防措施。因此从时间维度考虑对做弊方法的抑制来讲，通用反做弊方法重在预防，人工手段重在发现，而专用反做弊方法重在过后处理，其有内在的联系和互补关系存在。

4.2 分析用户意图

准确分析用户的搜索意图是目前搜索引擎的重点研究方向。

用户的意图能够初略分为

导航型
信息型
事物型

搜索日志是挖掘用户意图的重要数据来源

点击图：用户在查询结果出来后点击的连接可能更是他但愿的结果
查询回话：用户在短期的连续查询词存在相关性
查询图：构建用户查询之间的结构关系

用户在搜索时可能想不到合适的搜索词，或者关键词输入错误，这时候就须要帮助用户澄清搜索意图。

常见的方法是：

相关搜索
查询纠错

4.3 网页去重

通过统计，网络中有至关比例的网页是近似相同或者彻底相同的，高达29%。若是搜索返回大量类似网页，显然下降了搜索结果质量。针对这一现象，网页去重就显得十分必要。

网页去重通常是在爬虫抓取到网页后，对其创建索引以前。去重算法应该兼顾准确性和运行效率。

典型的网页去重算法：

特征抽取
文档指纹生成
类似性计算

几种典型的去重算法：

Shingling算法：将文档中连续的单词序列做为特征
I-Match算法：先统计一个全局的特征词典，而后用单文档的特征与其比较
SimHash算法：多是目前最优秀的去重算法
SpotSig算法

4.4 缓存机制

缓存机制能够加快用户相应速度，节省计算资源

缓存系统的目标是最大化缓存命中率和保持缓存与索引的一致性

缓存的对象主要是网页搜索结果和查询词对应的倒排列表

缓存淘汰策略主要有动态策略和混合策略