google搜索引擎爬虫爬网站原理

时间 2019-11-16

标签 google 搜索引擎爬虫爬网原理栏目 Google 繁體版

原文原文链接

google搜索引擎爬虫爬网站原理

1、总结

一句话总结：从几个大站开始，而后开始爬，根据页面中的link，不断爬

从几个大站开始，而后开始爬，根据页面中的link，不断加深爬

一、搜索引擎和数据库检索的区别是什么？

数据库索引相似分类目录，分类目录是人工方式创建网站的索引，全文搜索是自动方式创建网页的索引

分类目录则是经过人工的方式收集整理网站资料造成数据库的，好比雅虎中国以及国内的搜狐、新浪、网易分类目录。另外，在网上的一些导航站点，也能够归属为原始的分类目录，好比“网址之家”（http://www.hao123.com/）。html

全文搜索引擎经过自动的方式分析网页的超连接，依靠超连接和HTML代码分析获取网页信息内容，并按事先设计好的规则分析整理造成索引，供用户查询。web

二者的区分可用一句话归纳：分类目录是人工方式创建网站的索引，全文搜索是自动方式创建网页的索引。（有些人常常把搜索引擎和数据库检索相比较，实际上是错误的）。数据库

二、搜索引擎对相同超连接的处理的策略是什么？

在搜索相同超连接时，会自动比对新旧网页的内容和大小，若是一致，则不采集

搜索机器人有专门的搜索连接库，在搜索相同超连接时，会自动比对新旧网页的内容和大小，若是一致，则不采集。所以有人担忧修改后的网页是否能被收录，这是多余的浏览器

三、搜索引擎的复杂的部分是创建索引，创建索引涉及哪些知识？

索引是搜索中较为复杂的部分，涉及到【网页结构分析、分词、排序】等技术，好的索引能极大的提升检索速度。

索引（Indexing）：搜索引擎整理信息的过程称为“创建索引”。搜索引擎不只要保存搜集起来的信息，还要将它们按照必定的规则进行编排。索引能够采用通用的大型数据库，如ORACLE、Sybase等，也能够本身定义文件格式进行存放。索引是搜索中较为复杂的部分，涉及到网页结构分析、分词、排序等技术，好的索引能极大的提升检索速度。服务器

关键点1：虽然如今的搜索引擎都支持增量的索引，可是索引建立依然须要较长的时间，搜索引擎都会按期更新索引，所以即使爬虫来过，到咱们能在页面上搜索到，会有必定的时间间隔。网络

关键点2：索引是区别好坏搜索的重要标志。框架

四、谷歌搜索排名技术的核心？

PageRank 并不计算直接连接的数量，而是将从网页 A 指向网页 B 的连接解释为由网页 A对网页 B 所投的一票。这样，PageRank 会根据网页 B 所收到的投票数量来评估该页的重要性。此外，PageRank还会评估每一个投票网页的重要性，由于某些网页的投票被认为具备较高的价值，这样，它所连接的网页就能得到较高的价值。

对于搜索来讲，谷歌强于百度，主要的缘由就是谷歌更加公正，而百度有不少人为的因素（这也符合我国的国情），google之因此公正，源于他的排名技术PageRank。ide

不少人知道PageRank，是网站的质量等级，越小表示网站越优秀。其实PageRank是依靠一个专门的公式计算出来的，当咱们在google搜索关键词的时候，页面等级小的网页排序会越靠前，这个公式并无人工干预，所以公正。工具

PageRank的最初想法来自于论文档案的管理，咱们知道每篇论文结尾都有参考文献，假如某篇文章被不一样论文引用了屡次，就能够认为这篇文章是篇优秀的文章。post

同理，简单的说，PageRank可以对网页的重要性作出客观的评价。PageRank 并不计算直接连接的数量，而是将从网页 A 指向网页 B 的连接解释为由网页 A对网页 B 所投的一票。这样，PageRank 会根据网页 B 所收到的投票数量来评估该页的重要性。此外，PageRank还会评估每一个投票网页的重要性，由于某些网页的投票被认为具备较高的价值，这样，它所连接的网页就能得到较高的价值。

Page Rank的公式这里省略，说说影响Page Rank的主要因素

一、指向你的网站的超连接数量（你的网站被别人引用），这个数值越大，表示你的网站越重要，通俗的说，就是其它网站是否友情连接，或者推荐连接到你的网站；

二、超连接你的网站的重要程度，意思就是一个质量好的网站有你的网站的超连接，说明你的网站也很优秀。

三、网页特定性因素：包括网页的内容、标题及URL等，也就是网页的关键词及位置。

五、新网站如何才能提升搜索引擎采集到的几率和排名（仅供参考）？

（1）和优秀的网站交换连接；

（2）普遍登陆各类大网站的网站目录列表；

（3）多去质量好的论坛发言，发言要有质量，最好不要回复，发言中留下本身网站地址；

（4）申请大网站的博客（新浪、网易、CSDN），并在博客中推广本身的网站；

（5）使用好的建站程序，最好能生成静态页面和自动生成关键词；

（6）重视每一个网页的标题，以及<head>区域，尽可能把符合的关键词放在这些容易被搜索索引的位置，重视文章的开头部分，尽量在文章的开始部分使用相似摘要的功能（能够学学网易的文章样式）。

2、百度、谷歌搜索引擎原理

参考：百度、谷歌搜索引擎原理 - 云淡风清的Coding - CSDN博客
https://blog.csdn.net/qq_36747842/article/details/75453579

第一节搜索引擎原理

一、基本概念

来源于中文wiki百科的解释：（网络）搜索引擎指自动从互联网搜集信息，通过必定整理之后，提供给用户进行查询的系统。
来源于英文wiki百科的解释：Web search engines providean interface to search for information on the World WideWeb.Information may consist of web pages, images and other types offiles.（网络搜索引擎为用户提供接口查找互联网上的信息内容，这些信息内容包括网页、图片以及其余类型的文档）

二、分类

按照工做原理的不一样，能够把它们分为两个基本类别：全文搜索引擎（FullTextSearch Engine）和分类目录Directory）。

分类目录则是经过人工的方式收集整理网站资料造成数据库的，好比雅虎中国以及国内的搜狐、新浪、网易分类目录。另外，在网上的一些导航站点，也能够归属为原始的分类目录，好比“网址之家”（http://www.hao123.com/）。

全文搜索引擎经过自动的方式分析网页的超连接，依靠超连接和HTML代码分析获取网页信息内容，并按事先设计好的规则分析整理造成索引，供用户查询。

二者的区分可用一句话归纳：分类目录是人工方式创建网站的索引，全文搜索是自动方式创建网页的索引。（有些人常常把搜索引擎和数据库检索相比较，实际上是错误的）。

三、全文搜索的工做原理

全文搜索引擎通常信息采集、索引、搜索三个部分组成，详细的可由搜索器、分析器、索引器、检索器和用户接口等5个部分组成

（1）信息采集（Webcrawling）：信息采集的工做由搜索器和分析器共同完成，搜索引擎利用称为网络爬虫（crawlers）、网络蜘蛛（spider）或者叫作网络机器人（robots）的自动搜索机器人程序来查询网页上的超连接。

进一步解释一下："机器人"其实是一些基于Web的程序，经过请求Web站点上的HTML网页来对采集该HTML网页，它遍历指定范围内的整个Web空间，不断从一个网页转到另外一个网页，从一个站点移动到另外一个站点，将采集到的网页添加到网页数据库中。"机器人"每遇到一个新的网页，都要搜索它内部的全部连接，因此从理论上讲，若是为"机器人"创建一个适当的初始网页集，从这个初始网页集出发，遍历全部的连接，"机器人"将可以采集到整个Web空间的网页。

网上后不少开源的爬虫程序，能够到一些开源社区中查找。

关键点1：核心在于html分析，所以严谨的、结构化的、可读性强、错误少的html代码，更容易被采集机器人所分析和采集。例如，某个页面存在<body这样的标签或者没有</body></html>这样的结尾，在网页显示是没有问题的，可是颇有可能会被采集拒绝收录，在例如相似../../***.htm这样的超连接，也有可能形成蜘蛛没法识别。这也是须要推广web标准的缘由之一，按照web标准制做的网页更容易被搜索引擎检索和收录。

关键点2：搜索机器人有专门的搜索连接库，在搜索相同超连接时，会自动比对新旧网页的内容和大小，若是一致，则不采集。所以有人担忧修改后的网页是否能被收录，这是多余的。

（2）索引（Indexing）：搜索引擎整理信息的过程称为“创建索引”。搜索引擎不只要保存搜集起来的信息，还要将它们按照必定的规则进行编排。索引能够采用通用的大型数据库，如ORACLE、Sybase等，也能够本身定义文件格式进行存放。索引是搜索中较为复杂的部分，涉及到网页结构分析、分词、排序等技术，好的索引能极大的提升检索速度。

关键点1：虽然如今的搜索引擎都支持增量的索引，可是索引建立依然须要较长的时间，搜索引擎都会按期更新索引，所以即使爬虫来过，到咱们能在页面上搜索到，会有必定的时间间隔。

关键点2：索引是区别好坏搜索的重要标志。

（3）检索（Searching）：用户向搜索引擎发出查询，搜索引擎接受查询并向用户返回资料。有的系统在返回结果以前对网页的相关度进行了计算和评估，并根据相关度进行排序，将相关度大的放在前面，相关度小的放在后面；也有的系统在用户查询以前已经计算了各个网页的网页等级（PageRank 后文会介绍），返回查询结果时将网页等级大的放在前面，网页等级小的放在后面。

关键点1：不一样搜索引擎有不一样的排序规则，所以在不一样的搜索引擎中搜索相同关键词，排序是不一样的。

第二节百度搜索引擎工做方式

我所知道的百度搜索：因为工做的关系，小生有幸一直在使用百度的百事通企业搜索引擎（该部门现已被裁人，主要是百度的战略开始向谷歌靠拢，再也不单独销售搜索引擎，转向搜索服务），据百度的销售人员称，百事通的搜索核心和大搜索的相同，只有可能版本稍低，所以我有理由相信搜索的工做方式大同小异。下面是一些简单介绍和注意点：

一、关于网站搜索的更新频率

百度搜索能够设定网站的更新频率和时间，通常对于大网站更新频度很快，并且会专门开设独立的爬虫进行跟踪，不过百度是比较勤奋的，中小网站通常也会天天更新。所以，若是你但愿本身的网站更新得更快，最好是在大型的分类目录（例如yahoosina网易）中有你的连接，或者在百度本身的相关网站中，有你网站的超连接，在或者你的网站就在一些大型网站里面，例如大型网站的blog。

二、关于采集的深度

百度搜索能够定义采集的深度，就是说不见得百度会检索你网站的所有内容，有可能只索引你的网站的首页的内容，尤为对小型网站来讲。

三、关于对时常不通网站的采集

百度对于网站的通断是有专门的判断的，若是一旦发现某个网站不通，尤为是一些中小网站，百度的自动中止往这些网站派出爬虫，因此选择好的服务器，保持网站24小时畅通很是重要。

四、关于更换IP的网站

百度搜索可以基于域名或者ip地址，若是是域名，会自动解析为对应的ip地址，所以就会出现2个问题，第一就是若是你的网站和别人使用相同的IP地址，若是别人的网站被百度惩罚了，你的网站会受到牵连，第二就是若是你更换了ip地址，百度会发现你的域名和先前的ip地址没有对应，也会拒绝往你的网站派出爬虫。所以建议，不要随意更换ip地址，若是有可能尽可能独享ip，保持网站的稳定很重要。

五、关于静态和动态网站的采集

不少人担忧是否是相似asp?id=之类的页面很难被收集，html这样的页面容易被收集，事实上状况并无想的这么糟，如今的搜索引擎大部分都支持动态网站的采集和检索，包括须要登录的网站均可以检索到，所以大可没必要担忧本身的动态网站搜索引擎没法识别，百度搜索中对于动态的支持能够自定义。可是，若是有可能，仍是尽可能生成静态页面。同时，对于大部分搜索引擎，依然对脚本跳转（JS）、框架（frame）、

Flash超连接，动态页面中含有非法字符的页面迫不得已。

六、关于索引的消失

前面讲过，搜索的索引须要建立，通常好的搜索，索引都是文本文件，而不是数据库，所以索引中须要删除一条记录，并非一件方便的事情。例如百度，须要使用专门的工具，人工删除某条索引记录。据百度员工称，百度专门有一群人负责这件事情——接到投诉，删除记录，手工。固然还能直接删除某个规则下的全部索引，也就是能够删除某个网站下的全部索引。还有一个机制（未经验证），就是对于过时的网页和做弊的网页（主要是网页标题、关键词和内容不匹配），在重建索引的过程当中也会被删除。

七、关于去重

百度搜索的去重不如谷歌的理想，主要仍是判别文章的标题和来源地址，只要不相同，就不会自动去重，所以没必要担忧采集的内容雷同而很快被搜索惩罚，谷歌的有所不一样，标题相同的被同时收录的很少。

补充一句，不要把搜索引擎想得这么智能，基本上都是按照必定的规则和公式，想不被搜索引擎惩罚，避开这些规则便可。

第三节谷歌搜索排名技术

对于搜索来讲，谷歌强于百度，主要的缘由就是谷歌更加公正，而百度有不少人为的因素（这也符合我国的国情），google之因此公正，源于他的排名技术PageRank。

不少人知道PageRank，是网站的质量等级，越小表示网站越优秀。其实PageRank是依靠一个专门的公式计算出来的，当咱们在google搜索关键词的时候，页面等级小的网页排序会越靠前，这个公式并无人工干预，所以公正。

PageRank的最初想法来自于论文档案的管理，咱们知道每篇论文结尾都有参考文献，假如某篇文章被不一样论文引用了屡次，就能够认为这篇文章是篇优秀的文章。

Page Rank的公式这里省略，说说影响Page Rank的主要因素

二、超连接你的网站的重要程度，意思就是一个质量好的网站有你的网站的超连接，说明你的网站也很优秀。

三、网页特定性因素：包括网页的内容、标题及URL等，也就是网页的关键词及位置。

第四节新网站如何应对搜索

如下内容是对上面分析的总结：

一、搜索引擎为何不收录你的网站，存在如下可能（不绝对，根据各自状况不一样）

（1）没有任何指向连接的孤岛网页，没有被收录的网站指向你的超连接，搜索引擎就没法发现你；
（2）网站中的网页性质及文件类型（如flash、JS跳转、某些动态网页、frame等）搜索引擎没法识别；
（3）你的网站所在服务器曾被搜索引擎惩罚，而不收录相同IP的内容；
（4）近期更换过服务器的IP地址，搜索引擎须要必定时间从新采集；
（5）服务器不稳定、频繁宕机，或者经不起爬虫采集的压力；
（6）网页代码劣质，搜索没法正确分析页面内容，请至少学习一下HTML的基本语法，建议使用XHTML；
（7）网站用robots（robots.txt）协议拒绝搜索引擎抓取的网页；
（8）使用关键词做弊的网页，网页的关键词和内容严重不匹配，或者某些关键词密度太大；
（9）非法内容的网页；
（10）相同网站内存在大量相同标题的网页，或者网页的标题没有实际含义；

二、新站如何作才正确（仅供参考）

（1）和优秀的网站交换连接；
（2）普遍登陆各类大网站的网站目录列表；
（3）多去质量好的论坛发言，发言要有质量，最好不要回复，发言中留下本身网站地址；
（4）申请大网站的博客（新浪、网易、CSDN），并在博客中推广本身的网站；
（5）使用好的建站程序，最好能生成静态页面和自动生成关键词；
（6）重视每一个网页的标题，以及<head>区域，尽可能把符合的关键词放在这些容易被搜索索引的位置，重视文章的开头部分，尽量在文章的开始部分使用相似摘要的功能（能够学学网易的文章样式）。

例如“基于开源jabber(XMPP)架设内部即时通信服务的解决方案”；

标题部分：<title>基于开源jabber(XMPP)架设内部即时通信服务的解决方案- 肥龙龙（expendable）的专栏 -CSDNBlog</title>
关键词部分：<meta name="keywords"cCOLOR:#c00000">安装,">
文章描述部分：<metaname="description" cCOLOR:#c00000">是著名的即时通信服务服务器，它是一个自由开源软件，能让用户本身架即时通信服务器，能够在Internet上应用，也能够在局域网中应用。

XMPP（可扩展消息处理现场协议）是基于可扩展标记语言（XML）的协议，它用于即时消息（IM）以及在线现场探测。它在促进服务器之

间的准即时操做。这个协议可能最终容许因特网用户向因特网上的其余任何人发送即时消息，即便其操做系统和浏览器不一样。XMPP的技术来自

于Jabber，其实它是Jabber的核心协定，因此XMPP有时被误称为Jabber协议。Jabber是一个基于XMPP协议的IM应用，除Jabber以外，XMPP还支持不少应用。