SEO第二课：索引

时间 2020-05-26

原文原文链接

上周咱们学习了搜索引擎工做原理中信息收集的部分——蜘蛛和收录，了解到搜索引擎蜘蛛对网页的抓取方式以及网站目录结构、连接结构将决定蜘蛛采用深度优先或广度优先进行爬取。那么搜索引擎是如何存储蜘蛛爬取到的网页和连接信息？如何根据用户给定的关键字返回结果呢？

归档

对每条蜘蛛爬取的信息，搜索引擎都会将其存储在本身的数据中心。从咱们使用搜索引擎的体验中能够想象，搜索引擎至少要存储如下数据：

页面标题、页面连接、关键字、描述；全文搜索引擎如百度和Google还须要存储正文和正文中的图片（快照功能）。

通常的搜索引擎都会采用分布式的存储和处理架构对这些数据进行归档，归档后的网页将拥有一个快照，以便在用户查询是进行全文的关键字匹配。对已经被归档的网页咱们能够说，某网页被搜索引擎索引了。

被归档的网页会造成网页快照，咱们经过Google的网页快照能够了解搜索引擎对该页面的归档时间以及它如何看待咱们的页面（如何判断关键字并分词的）

标注×××的是网页快照

该页面被索引（归档）的时间若是与发布时间相对比，有时能够反映出搜索引擎对一个网站的更新频率；Google对该页面关键字的判断及分词（分为Teched和2009）能够帮助咱们改进关键字策略

索引和收录

你可能会问，上一节咱们讲收录时说过，“被蜘蛛爬过”就收录了，就能够用site命令查询并在结果列表中显示；貌似收录和索引没有太多区别。区别看似不大，但对SEO来讲，这些细小的差异足够重要。

被收录只能证实你的页面“被蜘蛛爬过”：在收录阶段，页面尚未进入搜索引擎的存储过程，只是缓存在一个位置，你搜索时页面会出现，并且颇有可能会出如今靠前的位置；由于搜索引擎尚未对其进行评估。

这种评估是针对页面质量（关键字、内容质量、是否原创、图片处理等）的。窃觉得，搜索引擎会根据页面质量来评估这个网页的重要性，并根据这种重要性在用户查询相关关键字时给出排名。而这一过程发生在索引过程当中。

也就是说，收录只是搜索引擎对页面的简单记录，收录的过程只是针对咱们前面所讲到的，对连接结构、页面基本元素（连接地址、关键字、正文内容等）进行收集；而真正决定结果排名的是索引的过程，在这个过程当中搜索引擎会根据本身的算法来判断某一网页显示在结果页的位置（第一位仍是第N位）。

收录和索引紧密相连（但不会同时发生，请看图二的注释）。在SEO中，针对收录和索引，咱们要作的是对页面大小的优化（1M仍是10K）。咱们知道蜘蛛很忙，你不能期望蜘蛛爬取一个1M的网页；面对天天数百万的新增网页，搜索引擎的索引过程也必须保证简单而快速的处理。若是一个页面太大，会直接致使不收录、索引不全（无排名）或索引处理中评分不高（排名太低）的现象。

为此，咱们在SEO时，要保证网站页面足够小巧；在新增文章时，注意分页和正文中图片尺寸的处理。

索引

如今咱们对索引有了一个简单的认识：在索引过程当中，搜索引擎会对蜘蛛爬取来的网页进行评分，以决定用户查询时这些页面显示在结果页的位置。能够说，索引过程才是关键，咱们以前针对收录所作的网站信息量、更新频度、搜索引擎友好性、连接优化、目录结构优化、页面大小优化都是为了走到索引这一步。

针对索引过程，咱们SEO要作的事情不少。如今这个阶段咱们须要知道：好的内容处理、优秀的内容质量能够在索引过程当中被搜索引擎根据本身的评分规则（算法）打高分，在用户查询时排名靠前。

那么如何提升内容质量让搜索引擎打高分呢？因为每一个搜索引擎的排名算法不一样，评分规则也存在差异。后面的课程咱们会单独针对不一样搜索引擎的索引过程在标题、正文、关键字、等方面的处理上进行专门的讲解，相对应的知识是标题伪原创、正文伪原创、关键字分布、图片优化等。

下周的课程咱们会学习搜索引擎工做原理中最炫的一步：根据用户输入的关键字检索索引库并返回结果。