搜索引擎概述

搜索引擎定义
Search Engine 是指根据必定的策略,运用特定的计算机程序收集互联网上的信息,在对信息进行组织和处理后,将处理后的信息显示给用户,是为用户提供检索服务的系统。

搜索引擎分类(按照工做方式)
1.全文搜索引擎(百度,谷歌)
     Full Text Search Engine,从互联网提取各个网站的信息(以网页文字为主),创建起数据库,并能检索与用户查询条件相匹配的记录,按必定的排列顺序返回结果。根据搜索结果来源的不一样,全文搜索引擎可分为两类,一类拥有本身的网页抓取、索引、检索系统(Indexer),有独立的“蜘蛛”(Spider)程序、或爬虫(Crawler)、或“机器人”(Robot)程序(这三者意义相同),能自建网页数据库,搜索结果直接从自身的数据库中调用;另外一类则是租用其余搜索引擎的数据库,并按自定的格式排列搜索结果。全文搜索引擎的自动信息收集能够分为按期搜索(搜索引擎主动派出蜘蛛)和提交网站搜索(网站拥有者主动提交网站)。

2.目录索引搜索引擎(新浪目录分类搜索)
     Search Index/Directory,将网站分门别类地存放在相应的目录中。
3.元搜索引擎
     Meta Search Engine,元搜索引擎在接受用户查询请求时,同时在其余多个引擎上进行搜索并将结果返回给用户。在搜索结果排列方面,有的直接按来源引擎排列搜索结果。有的则按自定的规则将结果从新排列组合。

搜索引擎的工做原理
1.抓取网页
     每一个独立的搜索引擎都有本身的网页抓取程序(spider,蜘蛛程序)。Spider顺着网页中的超连接,连续地抓取网页,被抓取的网页被称之为网页快照

2.处理网页
      搜索引擎抓到网页后,还要作大量的预处理工做,才能提供检索服务。其中,最重要的就是提取关键词,创建索引文件,其余还包括去除重复网页、分词(中文)、判断网页类型、分析超连接、计算网页的重要度/丰富度等。

3.提供检索服务
     用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页。


搜索引擎组成部分
   搜索引擎通常由 搜索器、索引器、检索器和用户接口四个部分组成。
  一个搜索引擎的有效性在很大程度上取决于索引的质量。 
搜索器:在互联网中漫游, 发现和搜集信息。(蜘蛛程序)
索引器:理解搜索器所搜索到的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表。
检索器:根据用户的查询在索引库中快速检索文档,进行相关度评价,对将要输出的结果排序,并能按用户的查询需求合理反馈信息;
用户接口:接纳用户查询、显示查询结果、提供个性化查询项。(HTML页面)