Hexo 我的博客 SEO 优化（1）：搜索引擎原理介绍

时间 2019-11-17

原文原文链接

文章首发于个人博客：Hexo 我的博客 SEO 优化（1）：搜索引擎原理介绍算法

Hexo 我的博客 SEO 优化（1）：搜索引擎原理介绍数据库

Hexo 我的博客 SEO 优化（2）：站内优化浏览器

Hexo 我的博客 SEO 优化（3）：改造你的博客，提高搜索引擎排名写在文章前面：前段时间接到一个企业官网站内优化的任务。为了完成它，只能赶鸭子上架，从零开始系统地去学习 SEO 知识。通过几天的学习后，也算是入了门。才意识到 SEO 它的意义与重要性，以为 SEO 对于作我的站点（博客也算是我的站点）的意义与重要性不言而喻。可能有人会反驳在现在自媒体、微信公众号及知乎、掘金、sf等各类垂直网站盛行的年代，再去研究 SEO，对博客作 SEO 是否有必要。个人见解是，若是你想长期坚持维护本身的博客，那么学习必要的 SEO 知识的收益是一件半衰期很长的事情，是一件坚持就会事半功倍的事情。缓存

由于你只需花费很少的精力对博客进行站内优化，而后保持必定的文章更新频率（若是有须要的话，还能够进行站外优化）。就能提升你的博客在搜索引擎排名，为本身的博客带来更多的访问量。不管你是想提升知名度仍是想让你的文章可以帮助到更多的人，访问量多了才能到达你的目的。服务器

接下来的内容彻底是一个 SEO 初学者的学习总结，若是 SEO 大神看到，请轻喷，还望指出不足之处。微信

搜索引擎

可能有些人还不了解什么是 SEO。所谓 SEO 指 Search Engine Optimization（搜索引擎优化）。经过对网站进行优化，来提升网站在搜索引擎中的排名，为网站带来更多的访问。在介绍 SEO 优化要素及技巧以前，咱们须要先对搜索引擎的工做原理有个了解。才能更好的理解 SEO 具体操做的意义。hexo

基本原理简介

搜索引擎过程很是复杂，咱们这里只能以最简单的流程来介绍搜索引擎是怎么实现网页排名的。搜索引擎的工做过程大致能够分为三个阶段：ide

爬行和抓取：搜索引擎经过跟踪连接访问网页、得到页面 HTML 代码并存入数据库。
预处理：索引程序对抓取来的页面数据进行文字提取、中文分词、索引等处理，以备排名程序调用。
排名：用户输入关键词后，排名程序调用索引数据库，计算相关性，而后按照一个的格式生成搜索结果页面。

第一步：爬行和抓取

爬行和抓取是搜索引擎工做的第一步，完成数据收集的任务。post

spider

搜索引擎用来爬行和抓取页面的程序叫作也就是咱们熟知的蜘蛛（spider），也称为机器人（bot）。spider访问网站页面相似于普通用户使用的浏览器。spider 发出页面访问请求后，服务器返回 HTML 代码，spider 把收到的程序存入原始页面数据库。为了提升爬行和抓取速度，搜索引擎一般或多个spider并行爬行。学习

spider 访问任何一个网站时，都会先访问该网站根目录下的 rotbots.txt 文件。该文件能够告诉 spider 哪些文件或目录能够抓取或者禁止抓取。和不一样的浏览器 UA 不一样同样，不一样厂商的 spider 也带有特定代理的名称。

跟踪连接

为了抓取网上尽量多的页面，spider 会跟踪网页上的连接，从一个页面爬到下一个页面，就好像蜘蛛在蜘蛛网上爬行同样。爬行遍历有两种策略：

深度优先：spider 沿着页面的连接一直爬取，直到该页面没有其余连接为止
广度优先：spider 在一个页面发现多个连接，先把这页面的全部第一层连接都遍历完，再继续第二层连接遍历

程序猿确定对这两个遍历算法很熟悉啦。理论上不管是深度优先仍是广度优先，只要给 spider 足够的时间，老是能把互联网上全部的页面连接都爬取完。但实际状况并非这样，因为各类资源的限制，搜索引擎也只是爬行和收录互联网的一部分。

因此一般 spider 都是深度优先和广度优先混合使用。

吸引蜘蛛

经过上面的介绍能够知道，spider 不可能将全部的页面都收录，所以 SEO 就是要经过各类手段，吸引 spider 爬行收录本身网站更多的页面。既然不能全部页面都收录，那么 spider 确定是尽可能抓取重要页面。那么 spider 是如何判断哪些页面重要？有几个影响因素：

网站和页面权重。质量高，资格老的网站权重高。
页面更新度。更新频率高的网站权重高。
导入的连接。不管是外部连接仍是内部连接，要被 spider 抓取，就必需要有导入连接进入页面。高质量的导入连接也常常使页面上的导出连接被爬行深度增长。
与首页的点击距离。通常来讲，网站最高的权重就是首页，大部分外链都是指向首页，spider 访问最频繁的也是首页。因此离首页越近的页面，权重也相对更高，被 spider 爬行的机会也越大。

地址库

为了不重复爬行和抓取网址，搜索引擎会创建一个地址库，记录已经被发现尚未抓取的页面，以及已经被抓取的页面。经过地址库会有几个来源：

人工录入的种子网站
spider 爬取页面后，解析出网址，与地址库对比。若是不存在，则存入
站长经过搜索引擎网页提交网址（通常我的博客或网站都采用这种方式）

文件存储

spider 抓取的数据存入原始页面数据库。其中的页面数据与用户浏览器获得的 HTML 是彻底同样。

爬行时的复制内容检测

检测并删除复制内容是在预处理的步骤处理掉。不过 spider 在爬行的时候也会进行必定程度的复制内容检测。权重低，而大量抄袭复制内容的网站，spider 可能就再也不继续爬行了。这也是为何说一个网站须要原创内容的缘由。

第二步：预处理

预处理有时候也称为索引。由于索引是预处理中最主要的步骤。预处理有几个步骤：

提取文字。搜索引擎会提取页面的可见文字以及特殊的包含文字信息的代码，如 Meta 标签、图片Alt属性、超连接锚文字等。
分词，不一样的语言有不一样的分词如中文分词，英文分词。对第一步提取的文字进行分词。不一样的搜索引擎使用的分词算法不一样，会有差别。
去中止词。不管中文仍是英文，都会有一些频率高，对内容没有影响的词。如语气词、感叹词，介词、副词等。搜索引擎会在索引页面以前去除这些词。
消除噪声。绝大部分页面还有一部份内容对页面主题也没有贡献。好比版权声明文字，导航条等。以博客为例，每一个页面几乎都会有的文章分类，历史导航等信息，都是与页面主题无关的。这些都是属于噪音，须要消除掉。
去重。同一篇文章常常会重复出如今不一样的网站及同一个网站的不一样网址，搜索引擎并不喜欢这种重复的内容，因此搜索引擎会对这部份内容进行去重。
正向索引。也称索引。通过前面文字提取、分词、消噪、去重后，搜索引擎获得的就是独特的，能反映页面主体内容，以词为单位的内容。接下来搜索引擎索引程序就能够提取关键词，按照分词程序划分好的词，把页面转换为一个关键词组成的集合，同时记录每个关键词在页面上的出现频率、出现次数、格式、位置。而后把这些页面及关键词造成的结构存储进索引库。
倒排索引。正向索引还不能直接用于关键词排名。搜索引擎还须要把正向索引数据库从新构造为倒排索引，把文件对应到关键词的映射转换为关键词到文件映射。这样在搜索关键词的时候，排序程序就在倒排索引中定位到这个关键词，就能够立刻找出这个关键词全部的文件。
连接关系计算。连接关系计算也是预处理重要的一部分。搜索引擎在抓取页面内容后，必须事前计算出：页面上有哪些连接指向哪些其余页面，每一个页面都有哪些导入连接，连接使用了什么锚文字。这些复杂的连接指向关系造成了网站和页面的连接权重。Google PR 值就是这种连接关系的最主要体现之一。其余搜索引擎也都进行相似技术，虽然并不称为 PR。
特殊文件计算。除了 HTML 文件以外，搜索引擎还能爬取抓取和索引以文字为基础的多种文件类型，如 PDF，Word，PPT，TXT等。

第三步：排名

到了这一步就是处理用户输入，而后根据用户输入的关键词，排名程序调用索引程序，计算排名，显示给用户。这个过程也分为下面几个步骤：

搜索词处理

对用户输入的关键词进行分词、去中止词、指令处理等处理。

文件匹配

根据关键词找出全部匹配关键字的文件。

初始子集选择

因为文件匹配阶段出来的文件数量巨大，不可能所有显示。所以须要根据页面权重计算出一个子集。

排名过滤及调整

通过上面的步骤以后，已经获得大致的排名。以后搜索引擎可能还会有一些过滤算法，对排序进行轻微调整，其中最重要的过滤就是施加惩罚。一些有做弊的页面会被下降权重。

排名显示

全部排名肯定后，排名程序就调用原始页面的标题、Description Meta 等信息显示在页面上。

搜索缓存

用户搜索很大一部分是由重复的。因此有一部分的搜索是会被缓存下来的。

查询及点击日志

搜用用户的 IP 地址，搜索的关键词、搜索时间，以及点击了哪些结果页面，搜索引擎都记录造成日志，造成搜索统计日志。这些日志信息对搜索引擎判断搜索结果质量、调整搜索算法、预期搜索趋势等都有重要意义。

经过上面的三个步骤，你就能对搜索引擎的工做原理有了更深的理解。这对接下来要写的站内优化内容及博客优化实践能更好的理解。