文章首发于个人博客:Hexo 我的博客 SEO 优化(1):搜索引擎原理介绍算法
Hexo 我的博客 SEO 优化(1):搜索引擎原理介绍数据库
Hexo 我的博客 SEO 优化(3):改造你的博客,提高搜索引擎排名 写在文章前面: 前段时间接到一个企业官网站内优化的任务。为了完成它,只能赶鸭子上架,从零开始系统地去学习 SEO 知识。通过几天的学习后,也算是入了门。才意识到 SEO 它的意义与重要性,以为 SEO 对于作我的站点(博客也算是我的站点)的意义与重要性不言而喻。可能有人会反驳在现在自媒体、微信公众号及知乎、掘金、sf等各类垂直网站盛行的年代,再去研究 SEO,对博客作 SEO 是否有必要。个人见解是,若是你想长期坚持维护本身的博客,那么学习必要的 SEO 知识的收益是一件半衰期很长的事情,是一件坚持就会事半功倍的事情。缓存
由于你只需花费很少的精力对博客进行站内优化,而后保持必定的文章更新频率(若是有须要的话,还能够进行站外优化)。就能提升你的博客在搜索引擎排名,为本身的博客带来更多的访问量。不管你是想提升知名度仍是想让你的文章可以帮助到更多的人,访问量多了才能到达你的目的。服务器
接下来的内容彻底是一个 SEO 初学者的学习总结,若是 SEO 大神看到,请轻喷,还望指出不足之处。微信
可能有些人还不了解什么是 SEO。所谓 SEO 指 Search Engine Optimization(搜索引擎优化)。经过对网站进行优化,来提升网站在搜索引擎中的排名,为网站带来更多的访问。 在介绍 SEO 优化要素及技巧以前,咱们须要先对搜索引擎的工做原理有个了解。才能更好的理解 SEO 具体操做的意义。hexo
搜索引擎过程很是复杂,咱们这里只能以最简单的流程来介绍搜索引擎是怎么实现网页排名的。 搜索引擎的工做过程大致能够分为三个阶段:ide
爬行和抓取是搜索引擎工做的第一步,完成数据收集的任务。post
搜索引擎用来爬行和抓取页面的程序叫作也就是咱们熟知的蜘蛛(spider),也称为机器人(bot)。spider访问网站页面相似于普通用户使用的浏览器。spider 发出页面访问请求后,服务器返回 HTML 代码,spider 把收到的程序存入原始页面数据库。为了提升爬行和抓取速度,搜索引擎一般或多个spider并行爬行。学习
spider 访问任何一个网站时,都会先访问该网站根目录下的 rotbots.txt 文件。该文件能够告诉 spider 哪些文件或目录能够抓取或者禁止抓取。 和不一样的浏览器 UA 不一样同样,不一样厂商的 spider 也带有特定代理的名称。
为了抓取网上尽量多的页面,spider 会跟踪网页上的连接,从一个页面爬到下一个页面,就好像蜘蛛在蜘蛛网上爬行同样。 爬行遍历有两种策略:
程序猿确定对这两个遍历算法很熟悉啦。 理论上不管是深度优先仍是广度优先,只要给 spider 足够的时间,老是能把互联网上全部的页面连接都爬取完。但实际状况并非这样,因为各类资源的限制,搜索引擎也只是爬行和收录互联网的一部分。
因此一般 spider 都是深度优先和广度优先混合使用。
经过上面的介绍能够知道,spider 不可能将全部的页面都收录,所以 SEO 就是要经过各类手段,吸引 spider 爬行收录本身网站更多的页面。既然不能全部页面都收录,那么 spider 确定是尽可能抓取重要页面。那么 spider 是如何判断哪些页面重要?有几个影响因素:
为了不重复爬行和抓取网址,搜索引擎会创建一个地址库,记录已经被发现尚未抓取的页面,以及已经被抓取的页面。经过地址库会有几个来源:
spider 抓取的数据存入原始页面数据库。其中的页面数据与用户浏览器获得的 HTML 是彻底同样。
检测并删除复制内容是在预处理的步骤处理掉。不过 spider 在爬行的时候也会进行必定程度的复制内容检测。权重低,而大量抄袭复制内容的网站,spider 可能就再也不继续爬行了。这也是为何说一个网站须要原创内容的缘由。
预处理有时候也称为索引。由于索引是预处理中最主要的步骤。预处理有几个步骤:
到了这一步就是处理用户输入,而后根据用户输入的关键词,排名程序调用索引程序,计算排名,显示给用户。 这个过程也分为下面几个步骤:
对用户输入的关键词进行分词、去中止词、指令处理等处理。
根据关键词找出全部匹配关键字的文件。
因为文件匹配阶段出来的文件数量巨大,不可能所有显示。所以须要根据页面权重计算出一个子集。
选完子集后,就须要对子集中的页面进行相关性介绍。计算相关性是排名过程最重要的一步。 影响相关性主要因素有几点:
hexo博客SEO
,若是在页面上连续完整出现 hexo博客SEO
,说明相关性最高。通过上面的步骤以后,已经获得大致的排名。以后搜索引擎可能还会有一些过滤算法,对排序进行轻微调整,其中最重要的过滤就是施加惩罚。一些有做弊的页面会被下降权重。
全部排名肯定后,排名程序就调用原始页面的标题、Description Meta 等信息显示在页面上。
用户搜索很大一部分是由重复的。因此有一部分的搜索是会被缓存下来的。
搜用用户的 IP 地址,搜索的关键词、搜索时间,以及点击了哪些结果页面,搜索引擎都记录造成日志,造成搜索统计日志。这些日志信息对搜索引擎判断搜索结果质量、调整搜索算法、预期搜索趋势等都有重要意义。
经过上面的三个步骤,你就能对搜索引擎的工做原理有了更深的理解。这对接下来要写的站内优化内容及博客优化实践能更好的理解。