博客SEO-搜索引擎工做原理简介

资源推荐

Zac出版的《SEO实战密码》是SEO入门的好书,惋惜我在当当网买的电子书受DRM版权保护,没法与你们分享。html

我在网上找到了此书的  了解搜索引擎  章节,很是详细,且容易理解。连接以下:java

http://www.21jn.net/seo/zac/zac.htmlweb

前言

SEO由英文Search Engine Optimization缩写而来,中文意译为“搜索引擎优化”。SEO是指从天然搜索结果得到网站流量的技术和过程,是在了解搜索引擎天然排名机制的基础上,对网站进行内部及外部的调整优化,改进网站在搜索引擎中的关键词天然排名,得到更多流量。博客SEO的目的,就是要提高博客的访问量和人气。算法

博客SEO-搜索引擎工做原理简介

要想作好SEO,就必须简单了解搜索引擎工做原理以及天然排名机制。数据库

搜索引擎工做过程很是复杂,我这里只简单介绍搜索引擎是怎样实现网页排名的,而且我只是针对注册类博客的SEO须要了解的知识。本文章介绍的内容相对于真正的搜索引擎技术,来讲只是皮毛,不过对博客的SEO已经足够用了。我尽可能最容易理解的方式,而且不设计到算法和深奥的理论知识。工具

博客SEO-搜索引擎工做原理简介

搜索引擎的工做过程大致上能够分红三个阶段:爬行和抓取、预处理、返回搜索结果。学习

爬行和抓取

搜索引擎蜘蛛经过跟踪连接访问网页,得到页面HTML代码存入数据库。优化

搜索引擎蜘蛛是怎样抓取网页的呢?网站

发现某一个连接 → 下载这一个网页 → 加入到临时库 → 提取网页中的连接 → 在下载网页 → 循环。搜索引擎

博客SEO-搜索引擎工做原理简介

首先搜索引擎的蜘蛛须要去发现连接,至于怎么发现就简单了,就是经过连接发现连接。其方式有深度优先和广度优先。固然咱们注册的博客基本不考虑网站目录结构的问题。一般网站结构一般分为如下三个层次:首页——频道——文章页。理想的网站结构应该是更扁平一些,从首页到内容页的层次尽可能少,这样搜索引擎处理起来,会更简单。

对于博客SEO,要想让蜘蛛抓取咱们的文章,就必须为文章导入连接。不管是外部连接仍是同一个博客的内部连接,均可以增大蜘蛛发现网页并爬行的几率。不然蜘蛛根本没有机会知道页面的存在。

好比:我写系列博客喜欢把相关文章的链接写在博文里,虽然开始个人文章没有一篇被百度收录。一天,有一篇文章上了http协议分析工具上了博客园-原创精华区,由于其页面权重高,百度蜘蛛抓取也就越频繁。随着这一篇博文的收录,个人全部博文就都被百度收录了。

预处理

索引程序对抓取来的页面数据主要进行关键词提取、生成倒排索引、页面PageRank值计算、关键词与页面相关性、TrustRank值计算等处理,以备排名程序调用。这是搜索引擎能在极短期内返回搜索结果的关键。其中咱们最关心的是PR值和相关性。

PageRank原理

了解PageRank也就是理解为何SEO要求必定数量高质量的外链。

PageRank能够形象的比喻成:一个页面的排名是由连接来"投票"的结果,而且是权重不等的投票,优秀的网站为你投的一票会为你的排名更靠前,垃圾网站就没啥用。所以高质量的外链是对SEO是颇有帮助的。

通过页面PageRank值计算以后,网页会获得一个与页面主题(内容)无关的排名。

博客SEO-搜索引擎工做原理简介

PageRank值决定因数:(来自维基百科)

PageRank works by counting the number and quality of links to a page to determine a rough estimate of how important the website is. The underlying assumption is that more important websites are likely to receive more links from other websites

上面这段话的大意是:PR值是经过指向该页面连接的数量和质量来决定。

连接的质量怎么理解?

假设一个网页PR值较高(重要性高),那么出如今该网页内的链接质量就比较好。一般一些权威网站PR值较高。

这也就意味着网页之间的重要性会传递。一个连接传递的PR值决定于导入连接所在页面的PR,发出连接的页面自己PR值越高,所能传递出去的PR也越高。

关键词与页面的相关性

了解相关键词与页面的相关性就是要理解为何SEO要求作好文章的锚文本以及关键字优化。

博客SEO-搜索引擎工做原理简介

影响页面与搜索关键词相关性的因素有连接分析、词频及密度、关键词位置及形式、关键词距离等因素,其中连接分析占了至关大的比重。

不得不提的是百度创始人李彦宏的超链分析专利

创建一个连接词库,记录连接锚文字的一些相关信息,如锚文字中包含哪些关键词,发出连接的页面索引,包含特定锚文字的连接总数,包含特定关键词的连接都指向哪些页面。词库不只包含关键词原型,也包含同一个词干的其余衍生关键词。

根据这些连接数据,尤为是锚文字,计算出基于连接的网页的相关性。在用户搜索时,将获得的基于连接的相关性与基于关键词匹配的传统相关性综合使用,获得更准确的排名。

页面有越多以搜索词为锚文字的导入连接(这句话得仔细体会),说明页面的相关性越强。连接分析还包括了连接源页面自己的主题、锚文字周围的文字等,好比一个服装类的网站有指向java语言学习页面的链接,那么这个页面和搜索关键词的相关性就低。

返回搜索结果

用户输入关键词后,排名程序调用索引库数据,匹配关键词,而后按必定格式生搜索结果页面。这是由于前面的预处理,搜索引擎能在极短期内返回结果。

百度搜索结果显示格式

 

博客SEO-搜索引擎工做原理简介

 

天然结果格式解析

百度天然界结果的一条记录格式以下:

博客SEO-搜索引擎工做原理简介

第一行是页面标题,一般取自页面HTML代码中的标题标签(Title Tag)。这是结果列表中最醒目的部分,用户点击标题就能够访问对应的网页。因此页面标题标签的写法,不管对排名仍是点击率都有重要意义。

第2、三行是页面说明。页面说明有的时候取自页面HTML中的说明标签(DescriptionTag),有的时候是从页面可见文字中动态抓取相关内容。因此显示什么页面说明文字是用户查询时才决定的。

第四行是百度快照和百度口碑的好评率,注意这个好评率是整个网站的好评率,而不是单个网页。

相关文章
相关标签/搜索