搜索引擎技术介绍

时间 2019-11-08

标签搜索引擎技术介绍栏目搜索引擎繁體版

原文原文链接

引言

早些时候分享过一份关于搜索引擎技术的PPT，这篇文章基本上是基于原来框架，在内容上作了一些改进和扩充。

主要是对搜索引擎技术的各方面作一些简单的介绍和入门的指引。

索引

1. 需求与历史

2. 搜索产品简单介绍

3. 搜索技术

3.1 系统

3.2 数据

3.3 算法

4. 开源方案

5. 现状与将来

需求与历史

搜索引擎的诞生源自互联网最根本的用途之中的一个：信息获取。在搜索引擎出现以前，互联网缺乏入口，用户每每需要本身记住实用的站点和网页。

为了知足这样的需求，最先的“搜索引擎”，即分类文件夹浏览式的引擎便出现了，Yahoo就是当中的表明。

当时仅仅是把一些实用的站点经过分类的方式手工组织起来，便于用户找到实用的信息。

能够手工组织也是基于早年整个互联网的站点数量也不多，能够经过人工方式实现组织。

但随着互联网的壮大，网页站点数量愈来愈多，手工组织的方式变为不可行，因而由机器实现的全文检索引擎便出现了。

用户可以经过keyword查询来获取相关的网页。

但随着网页数量进一步增多，不论什么keyword查询都会返回大量的相关网页，假设对网页进行评分和排序，返回给用户真正有价值的网页便成为重点。

基于网页之间的连接关系为网页进行评分，成为很是多搜索引擎的网页排序算法基础，Google的PageRank算法即是当中的表明者和姣姣者。

Google也以此为基础成为搜索引擎产品中的率先者，为用户提供了更好的搜索结果相关性。

现代搜索引擎基本上也由此基本成型，尽管后来的技术创新和改进很是多，但基本的思路基本上没有变。

搜索引擎发展到今天，基础架构和算法在技术上都已经基本成型和成熟。如今的一些改进和变化基于在多元化的信息整合，以及产品形态的改进上。

将来会往什么方向发展，或者有什么革命的变化，都不能肯定。

搜索产品

搜索引擎产品事实上包含很是多种类，并不限于咱们最熟悉的全网搜索引擎。

简单分类罗列一下：

* 全网搜索：包含市场份额最高的几大搜索引擎巨头，Google, Yahoo, Bing。

* 中文搜索：在中文搜索市场中，百度一家独大，其余几家如搜狗、搜搜、有道，市场份额相对还比較小。

* 垂直搜索：在各自的垂直领域成为搜索入口的，购物的淘宝，美食的大众点评，旅游的去哪儿，等等。

* 问答搜索：专一于为问句式提供有效的答案，比方Ask.com；其余的如问答社区像Quora和国内的知乎，应该也会往这方面发展。

* 知识搜索：典型表明就是WolframAlpha，差异于提供搜索结果列表，它会针对查询提供更具体的整合信息。

* 云搜索平台：为其余产品和应用提供搜索服务托管平台(SaaS或是PaaS)，Amazon刚刚推出它的CloudSearch, IndexTank在被Linkedin收购以前也是作这项服务。

* 其余：比始DuckDuckGo，主打隐私保护，也有部分用户买账。

各类搜索产品在各自领域都需要解决特定的技术和业务问题，因此也可以创建相对通用搜索的优点，来获得本身的市场和用户。

搜索技术

搜索引擎所涉及和涵盖的技术范围很广，涉及到了系统架构和算法设计等不少方面。

可以说由于搜索引擎的出现，把互联网产品的技术水平提升到了一个新的高度；搜索引擎无论是在数据和系统规模，仍是算法技术的研究应用深度上，都远超以前的简单互联网产品。

列举一些搜索引擎所涉及到的技术点：

* 爬虫 (Crawling)

* 索引结构 (Inverted Index)

* 检索模型 (VSM & TF-IDF)

* 搜索排序 (Relevance Ranking & Evaluation)

* 连接分析 (Link Analysis)

* 分类 (Document & Query Classification)

* 天然语言处理 (NLP: Tokenization, Lemmatization, POS Tagging, NER, etc.)

* 分布式系统 (Distributed Processing & Storage)

* 等等

尽管搜索引擎涉及的技术方方面面，但归结起来最关键的几点在于：

* 系统：大规模分布式系统，支撑大规模的数据处理容量和在线查询负载

* 数据：数据处理和挖掘能力

* 算法：搜索相关性排序，查询分析，分类，等等

系统

搜索引擎系统是一个由不少模块组成的复杂系统。

核心模块一般包含：爬虫，索引，检索，排序。

除了必需的核心模块以外，一般还需要一些支持辅助模块，常见的有连接分析，去重，反垃圾，查询分析，等等。

[附图：搜索系统架构概念模型]

简介一下搜索系统的概念模型中的各模块：

* 爬虫

从互联网爬取原始网页数据，存储于文档server。

* 文档server

存储原始网页数据，通宵是分布式Key-Value数据库，能依据URL/UID高速获取网页内容。

* 索引

读取原始网页数据，解析网页，抽取有效字段，生成索引数据。

索引数据的生成方式通常是增量的，分块/分片的，并会进行索引合并、优化和删除。

生成的索引数据一般包含：字典数据，倒排表，正排表，文档属性等。

生成的索引存储于索引server。

* 索引server

存储索引数据，主要是倒排表。

通常是分块、分片存储，并支持增量更新和删除。

数据内容量很大时，还依据类别、主题、时间、网页质量划分数据分区和分布，更好地服务在线查询。

* 检索

读取倒排表索引，响应前端查询请求，返回相关文档列表数据。

* 排序

对检索器返回的文档列表进行排序，基于文档和查询的相关性、文档的连接权重等属性。

* 连接分析

收集各网页的连接数据和锚文本（Anchor Text），以此计算各网页连接评分，终于会做为网页属性參与返回结果排序。

* 去重

提取各网页的相关特征属性，计算类似网页组，提供离线索引和在线查询的去重服务。

* 反垃圾

收集各网页和站点历史信息，提取垃圾网页特征，从而对在线索引中的网页进行断定，去除垃圾网页。

* 查询分析

分析用户查询，生成结构化查询请求，指派到对应的类别、主题数据server进行查询。

* 页面描写叙述/摘要

为检索和排序完毕的网页列表提供对应的描写叙述和摘要。

* 前端

接受用户请求，分发至对应server，返回查询结果。

[附图：爬虫系统架构]

爬虫系统也是由多个模块构成：

* URL Scheduler

存储和高度待爬取的网页地址。

* Downloader

依据指定的网页列表爬取网页内容，存储至文档server。

* Processer

对网页内容进行简单处理，提取一些原始属性，为爬取的兴许操做服务。

* Traffic Controller

爬取流量控制，防止对目标站点在短期内形成过大负载。

[附图：搜索系统架构实例：Google]

这是Google早期的一张系统架构图，可以看出Google系统的各模块基本和前面概念模型一致。

因此一个完整的全网搜索系统的大体系统架构是相似的，差异和竞争力体现在细节实现和优化上。

数据

除了搜索引擎系统提供了系统支撑外，搜索结果质量很是大程度上依赖于源数据的数量和质量，以及数据处理的能力。

全网数据的主要来源通常是从互联网上进行本身主动爬取，从一些高质量的种子网站開始，并沿网页连接不断展开，收集巨量的网页数据；这一般能达到数据在数量的要求，但也不可避免混入了大量的低质量网页。

除了本身主动爬取来的数据外，搜索引擎的数据来源还可以来自人工收集、合做伙伴提供、第三方数据源和API、以及购买；这些来源通常会有更好的质量保证，但在数量规模和覆盖率上会相对少一些，可以和爬取的数据造成有效的互补。

收集到足量的原始数据后，需要进行各类数据处理操做，把原始数据转换成在线检索需要的数据。

这个过程一般包含：网页分析，数据抽取，文本处理和分词，索引及合并；终于生成的数据会包含：词典，倒排表，正排表，文档权重和各类属性。

终于生成的数据要布署上对应的在线检索server上，通常会进行数据分区和分片布署，数据内容更丰富时还可能依据内容分类和主题进行分别布署，比方新闻时效类的网页可能就会独立布署，针对性地响应时效类的查询。

[附图：索引数据：字典、倒排表、正排表]

这张图来源于Google早期的索引数据结构，包含词典、倒排表、正排表。

算法

有了至关数量的高质量数据以后，搜索结果的质量改进就取决于搜索算法的准确性上。

现在的搜索引擎一般经过向量空间模型（VSM = Vector Space Model）来计算查询和各文档之间的文本类似性；即把查询或文档抽象成一个词向量，而后再计算向量在向量空间中的夹角，可以用余弦公式得出，做为文本类似度的度量值。

在主要的向量空间模型基础上通常会进一步增长词的权重值进行改进，经过经典的TF-IDF公式得出，即词频（TF）乘上逆文档频率（IDF）；当中TF = Term Frequency，即该词在所在文档中的出现次数；IDF = Invert Document Frequency，即包括该词的文档数除以总文档数，再取反，一般还会取对数来降维，这个值值越大表示这个词越能表明文档特征。

除了经过向量空间模型得出的文本匹配评分外，每个文档还会有本身自己的质量评分，一般由网页连接数据计算得出，表明了该网页自己的流行度权重。

终于的评分会以文本匹配的查询时动态评分和文档静态评分为基础计算得出；搜索引擎的评分计算都会考虑很是多因素，但这两项通常是评分计算的基础。

有了肯定的排序算法后，还有一个重要的任务就是评估搜索结果的质量。

由于搜索结果的好与坏是一个比較主观的过程，因此进行定量的评估并不easy。

常见的作法是经过事先选定一批查询，经过人工评估或是预先设定标准值的方式，逐个评估每个设定查询搜索结果，终于获得一个统计结果，做为搜索算法的评估度量。

还有一类作法是直接经过线上的用户PV数据来统计评估搜索结果质量，或是经过A/B測试来比較两种排序算法的点击效果来衡量。

合理而有效的评估方法，是搜索算法可以不断改进和比較的前提。

查询分析是还有一个对搜索结果影响很是大的方面，主要任务是把用户的查询文本转换成内部的结构化的搜索请求。

涉及的处理可能包含主要的分词处理，专有名词的识别和提取，或是查询模式的识别，或是查询分类的识别。

这些处理的准确性将能极大地改进搜索请求的方式，进一步影响搜索结果的相关性和质量。

开源方案

近年来在搜索公司内部搜索系统和技术的改进和发展的同一时候，一批开源的搜索系统和解决方式也逐渐发展和成熟起来。

固然开源系统在功能全面性、复杂性和规模上都不能与专业的搜索引擎系统相比，但对于中小企业的搜索应用来讲应该已经能很是好地知足需求，而且也成功应用到了一些大规模的产品系统中（比方Twitter的搜索就使用和改进了Lucene）。

现在比較常见的开源搜索解决方式有：

* Lucene

Lucene天然是现在最流行，使用度最高的搜索开源方案。它用Java开发，以索引和检索库的方式提供，可以很是easy地嵌入需要的应用中。

* Solr & SolrCloud

Solr是Lucene的子项目，同属Apache软件基金会项目；它是基于Lucene之上实的一个完整的搜索服务应用，提供了大量的搜索定制功能，可以知足大部分的搜索产品需求。

SolrCloud是Solr为了增强其分布式服务能力而开发的功能，眼下还在开发阶段，将在Solr 4.0公布。

* Zoie & Sensei (Linkedin)

Zoie是Linkedin公司在Lucene基础上实现的准实时索引库，经过增长额外的内存索引，来达到准实时索引的效果。

Sensei是Linkedin公司在Zoie基础上实现的分布式搜索服务，经过索引分区来实现分布式搜索服务。

* ElasticSearch

ElasticSearch 也是刚推出不久的一个基于Lucene实现的分布式搜索服务，听说在分布式支持和易用性上都有不错的表现。因为还比較年轻，真实的应用应该还很少，需要观察。因为也是基于Lucene的分布式开源搜索框架，基本上会与SolrCloud和Sensei造成正面竞争关系。

* 其余开源产品

除了Lucene家族之外，另外一些其余的开源产品，比方Sphinx和Xapian，也有很多的应用；但近年来的更新频率和社区活跃度都不太能和Lucene系的产品相比。

* 托管平台

除了开源产品外，现在还出现了一些基于云计算和云服务的搜索服务，比方Amazon新近推了的CloudSearch，还有更早一些的 IndexTank（已被Linkedin收购）。这类服务无需本身布置搜索系统，直接使用在线服务，按需付费，因此也将是开源产品的替代方案和竞争对手。

附几张上面提到的开源系统的概念模型和架构图：

[附图：Lucene概念模型]

[附图：Lucene工做流程]

[附图：Sensei系统架构]

[附图：SolrCloud系统架构]

现状与将来

传统的搜索引擎通过了十几年的发展，眼下在技术和产品上都已走向逐渐稳定和成熟，通用搜索的市场也基本进入饱和，不像早些年一直呈现高增加率。

同一时候，在各个垂直领域，也出现了很是多和产品结合的很是好的垂直搜索产品，比方淘宝的购物搜索，大众点评的美食搜索，去哪儿和酷讯的旅游搜索等，也都在各自领域占领了至关大的市场，成为除了通用搜索引擎以外的重要的用户入口。

在开源领域，各类开源产品和解决方式也逐渐发展成熟，通用搜索技术再也不为大公司所专有，中小企业能够以较低的成本实现本身的搜索应用。

现在搜索引擎产品之间的竞争不少其它的在数据、应用方式和产品形态上，在系统架构和基本算法上区分并不大。

搜索引擎在将来发展上，一是搜索将不仅以独立产品的形式出现，不少其它的会做为搜索功能整合到不少其它的产品和应用中。

在产品形态上，基于传统的搜索引擎，会演化出像推荐引擎，知识引擎，决策引擎等形式的产品，更好地知足和服务用户需求。

而搜索引擎所涉及和发展起来的各类技术，会更普遍地应用到各类基它产品上，比方天然语言处理，推荐和广告，数据挖掘，等等。

总之，搜索引擎对互联网技术和产品带来的影响是巨大的，将来也仍将有很是大的发展和应用空间。

转自：网易杭研后台技术中心的博客 http://backend.blog.163.com/blog/static/202294126201252872124208/