日志分析之识别真假蜘蛛与处理办法

导读(日志分析是站长必需要作的事情,若是一个网站主或者seoer不对日志进行分析,那么他绝对不是一个合格的站长。日志分析相关知识不少,我相信大部分站长对基础分析都会掌握,可是一些深刻的日志分析问题可能或多或少有些迷茫!好比怎么识别真假蜘蛛以及处理方法!)
一,关于日志分析软件:html

二,日志重点分析点linux

三,如何分分辨真假蜘蛛windows

四,如何处理假蜘蛛安全

日志分析工具不少,用处大体都相同 ,若是你想要直观化的分析能够选择一个比较容易理解的日志分析工具,好比拉格号在线分析工具等比较合适!ide

日志分析的重点在于:
1.蜘蛛来类(百度,360,谷歌等),2.抓取目录与页面(观察更新的页面是否被访问与抓取,爬取的目录等)3.蜘蛛访问次数与访问时间(访问频繁表明蜘蛛青睐此网站)4.网站安全与返回码(主要看是否被挂黑链,返回码通常200属于正常,可是若是404页面返回是200就得主要,还有其余500与302须要注意)5.文章权重(部分工具能够分析出访问蜘蛛的权重,权重蜘蛛访问则说明文章优质)。
对于如何分辨真假蜘蛛这里就详细的解答一下,方法不少好比:
一、在linux平台下,可使用host ip命令反解ip来判断是否来自Baiduspider的抓取。Baiduspider的hostname以 .baidu.com 或 .baidu.jp 的格式命名。
二、在windows平台或者IBM OS/2平台下,可使用nslookup ip命令反解ip来 判断是否来自Baiduspider的抓取。打开命令处理器 输入nslookup xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 来判断是否来自Baiduspider的抓取,Baiduspider的hostname以.baidu.com 或.baidu.jp的格式命名。
三、在mac os平台下,你可使用dig 命令反解ip来判断是否来自百度spider的抓取。打开命令处理器,输入dig xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 来判断是否来自Baiduspider的抓取,Baiduspider的hostname以.baidu.com 或.baidu.jp的格式命名。工具

而后咱们把有疑问的蜘蛛ip记录下来网站

好比这个ip段的百度蜘蛛从访问的页面月状态码来看都不正常,因此咱们就用上述的第二种方式查询!
操做步骤:打开电脑开始栏→输入cmd打开cmd.exe→使用nslookup ip查询spa

clipboard.png

咱们能够经过查询有疑问的蜘蛛ip发现找不到!这种状况就是假蜘蛛。而通常真常状况的蜘蛛是下面这种显示baidu字样的!日志

clipboard.png

找到了假冒的蜘蛛那么到底这个假冒蜘蛛有什么危害呢?小编在网上查找答案没有找到相关权威的知识解答,因而去百度站长社区与反馈平台反馈获得的结果也不尽如意。因而就联络一些有过这种状况的站长,通过他们以往的经验来看,小编得出如下的结论!
一、占用网站带宽,致使网站流量上升,增长额外开销,
二、在有限带宽的前提下,阻碍了正常蜘蛛的抓取,误导了咱们在对网站开展SEO工做时的思路,
三、部分假装成假蜘蛛的采集工具剽窃了咱们的工做
4..假冒蜘蛛不能抓取内容,不能造成建库收录,因此影响不是很大。
因此假冒蜘蛛存在着一些危害,但总的来讲都在可控范围类,因此一旦发现假冒蜘蛛访问与抓取,能够暂时不用屏蔽,能够先观察百度站长的网站抓取是否正常,而后看具体的带来的危害,好比是否长时间出现此类假冒蜘蛛。观察一段时间后若是没问题就不用管,若是有影响就用robots协议屏蔽掉此ip段的假冒蜘蛛,不过须要注意的是在屏蔽的时候不要屏蔽错误。
本文由甲爪联盟原创供稿!原文连接:http://www.jiazhua.com/wz/467...htm

相关文章
相关标签/搜索