SEO优化之浅谈蜘蛛日志

时间 2019-12-04

标签 seo 优化浅谈蜘蛛日志栏目网站开发繁體版

原文原文链接

不少时候，日志文件只在网站出现问题的时候才会被查阅，在SEO方面，更是容易被你们忽略的一块内容。却不知经过蜘蛛日志文件，咱们能够获取各类信息并能发现站点存在的一些问题，对于SEO实际上是相当重要的。html

什么是蜘蛛日志

假设咱们的站点使用了nginx作反向代理，一旦有请求到达网站服务器，nginx会生成相应的日志文件。蜘蛛日志就是当搜索引擎向服务器发送请求时产生的访问记录文件。nginx

蜘蛛日志在哪

nginx会生成名为access.log的日志文件,蜘蛛产生的浏览记录就保存在这里。这个文件默认记录了一天内的访问记录，以前的日志会被自动分割压缩，固然，这个分割时间是能够本身手动修改的，须要根据本身的日访问量作决定。web

使用find / -name access.log命令能够找到访问日志文件所在的位置。这条命令的意思是从根目录里查找名为access.log的文件。浏览器

我这里的日志位于/var/log/nginx/目录下，使用命令cd /var/log/nginx/进入该文件夹。服务器

这里须要提的一点是若是access.log文件比较大，好比多达几十兆，就不建议在服务器上直接查看了，而是应当把它下载到咱们本身的机器上去分析，由于分析日志须要的一些命令比较占用资源，极可能会所以影响生产环境中的正常业务。网络

日志内容分析

咱们首先看一下日志的组成部分。日志的格式和内容是能够经过配置本身定义的，咱们在这里只分析默认状况下的日志格式。iphone

221.221.153.47 - - [25/Jun/2018:11:39:13 +0800] "GET / HTTP/1.1" 200 19285 "https://www.baidu.com/from=844b/bd_page_type=1/ssid=0/uid=0/pu=usm%401%2Csz%401320_2001%2Cta%40iphone_1_11.3_3_604/baiduid=6EC3CDA4AF6......" "Mozilla/5.0 (iPhone; CPU iPhone OS 11_3 like Mac OS X) AppleWebKit/604.1.34 (KHTML, like Gecko) CriOS/67.0.3396.87 Mobile/15E216 Safari/604.1"

221.221.153.47 - 客户端的IP地址
[25/Jun/2018:11:39:13 +0800] - 访问时间
GET - 请求方式
/news/7fcfca6a-0e14-42a0-a9f8-c0ffca0d8ab5 - 请求地址
HTTP/1.1 - 请求协议
200 - HTTP状态码，关于状态码的内容请搜索查阅，这里再也不赘述
19285 - 请求的页面大小
https://www.baidu.com/from=84... - 来源地址
Mozilla/5.0 (iPhone; CPU iPhone OS 11_3 like Mac OS X) App... - 客户端浏览器的相关信息，咱们简称为Agent

这里列出一些常见的搜索引擎Agent信息,这部分的内容来源于网络，且与时效性有关，仅供参考，建议在使用的时候查找最新的Agent信息。ide

Google蜘蛛 ：Mozilla/5.0 (compatible; Googlebot/2.1; http://www.google.com/bot.html)  
Baidu蜘蛛 ：Baiduspider+(+http://www.baidu.com/search/spider.html)  
Yahoo!蜘蛛 ：Mozilla/5.0 (compatible; Yahoo! Slurp/3.0; http://help.yahoo.com/help/us/ysearch/slurp)  
Yahoo!中国蜘蛛 ：Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html)  
微软Bing蜘蛛 ：msnbot/2.0b (+http://search.msn.com/msnbot.htm)  
Google Adsense蜘蛛 ：Mediapartners-Google  
有道蜘蛛 ：Mozilla/5.0 (compatible; YoudaoBot/1.0; http://www.youdao.com/help/webmaster/spider/)  
Soso搜搜博客蜘蛛 ：Sosoblogspider+(+http://help.soso.com/soso-blog-spider.htm)  
Sogou搜狗蜘蛛 ：Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)  
Twiceler爬虫程序 ：Mozilla/5.0 (Twiceler-0.9 http://www.cuil.com/twiceler/robot.html)  
Google图片搜索蜘蛛 ：Googlebot-Image/1.0  
俄罗斯Yandex搜索引擎蜘蛛 ：Yandex/1.01.001 (compatible; Win16; I)  
Alexa蜘蛛 ：ia_archiver (+http://www.alexa.com/site/help/webmasters)  
Feedsky蜘蛛 ：Mozilla 5.0 (compatible; Feedsky crawler /1.0)  
韩国Yeti蜘蛛：Yeti/1.0 (NHN Corp.; http://help.naver.com/robots/)

看到这里，咱们就能够经过客户端Agent来过滤掉咱们不想要看到的日志。由上面的列表咱们知道，百度的Agent信息为Baiduspider+(+http://www.baidu.com/search/spider.html)，所以咱们能够根据Baiduspider关键词来对日志进行过滤，以此来筛选百度蜘蛛的访问记录。工具

怎样查看蜘蛛日志

在这里总结一些经常使用的分析命令。优化

cat access.log | grep Baiduspider

获取百度蜘蛛的详细爬取记录

cat access.log | grep Baiduspider | wc -l

统计百度蜘蛛的爬取次数

cat access.log | grep Baiduspider | grep "GET url"

统计百度蜘蛛爬取某个页面的记录，命令中的url为页面的相对地址

......

上面命令中的grep是个比较强大的文字搜索工具，咱们可使用这个工具来匹配搜索文本，精确找出咱们想要看的日志内容，减小筛选时间，提高工做效率。因此，能够根据实际的场景，输入关键词来过滤日志，灵活地进行拓展。

如何利用蜘蛛日志

经过蜘蛛日志，咱们能够知晓蜘蛛是否对站点进行了抓取，以及抓取是否成功。咱们能够以此来判断咱们的网站程序是否符合搜索引擎的抓取规范，发现抓取失败的缘由。
经过蜘蛛日志咱们能够统计蜘蛛的抓取频次。有些恶意蜘蛛会频繁对网站抓取，若是蜘蛛访问频度太高，极可能会正常服务的运行，能够经过对日志的分析，发现恶意蜘蛛的足迹，并限制其访问频率甚至禁止其访问，以保障服务器的稳定。能够经过robots.txt文件制定蜘蛛的访问规则，搜索引擎的蜘蛛会严格遵照这个文件。
经过日志文件，咱们能够分析蜘蛛的访问路径，优化咱们的站点结构。

挖掘日志更多信息

排查网站错误。能够经过日志中的状态码分析网站是否存在问题，例如存在死链、程序错误、页面失效等；
分析用户行为习惯。经过日志文件，咱们能够发现用户对整站页面的访问次数、访问时间和访问路径。以此得出用户的行为习惯和关注点；
获取用户画像。经过分析日志，能够知道用户的地理区域、来源地址、浏览设备以及搜索引擎等信息；
防范恶意攻击。对日志中高频访问的用户进行鉴定，阻止非正常的高频度访问，避免没必要要的资源浪费。

结语

本文只给出了日志分析的方法和操做，更多的细节须要结合站长工具作深刻的研究。纸上得来终觉浅，须要各位读者去在实际场景中摸索更多的技巧和解决方案。SEO非一日之功，比的就是谁能作到更极致！