日志文件记录的重要性

Log日志都是一个系统不可缺乏的一个重要组成部分,一般是系统的运行记录。日志通常分为两大类型:web

1、系统日志:安全

    记录系统中硬件、软件和系统问题的信息,同时还能够监视系统中发生的事件。系统日志包括系统日志、应用程序日志和安全日志。服务器

  

 2、网站日志:网站

    记录web服务器接收处理请求以及运行时错误等各类原始信息以.log结尾的文件。咱们经过对日志进行统计、分析、综合,就能有效地掌握网站运行情况,发现和排除错误缘由,了解客户访问分布等,更好的增强系统的维护和管理。搜索引擎

  日志也是了解搜索引擎工做原理和搜索引擎对网页抓取频率的最佳途径。经过这个文件,能够了解搜索引擎什么时间、抓取了哪些页面,以及能够知道是主搜索蜘蛛仍是从搜索蜘蛛抓取了您的网站等的信息。url

  经过不一样的log日志级别来记录以往的操做行为,能够很轻易地分析获得:日志

     经过分析网站日志Log文件咱们能够看到用户、搜索引擎蜘蛛访问网站和管理人员操做的行为数据,这些数据能让咱们分析出用户和蜘蛛对网站的偏好以及网站安全操做及健康状况。所以在网站日志分析中,咱们主要须要分析的是蜘蛛行为和操做行为。
     在分析日志时,对于单日日志文件咱们须要分析的内容有:访问次数、停留时间、抓取量、目录抓取统计、页面抓取统计、蜘蛛访问IP、HTTP状态码、蜘蛛活跃时段、蜘蛛爬取路径等;对于多日日志文件咱们须要分析的内容有:蜘蛛访问次数趋势、停留时间趋势、总体抓取趋势、各目录抓取趋势、抓取时间段、蜘蛛活跃周期等。blog

网站日志数据分析解读:

一、访问次数、停留时间、抓取量
从这三项数据中咱们能够得知:平均每次抓取页面数、单页抓取停留时间和平均每次停留时间。
平均每次抓取页面数=总抓取量/访问次数
单页抓取停留=每次停留/每次抓取
平均每次停留时间=总停留时间/访问次数
    从这些数据咱们能够看出蜘蛛的活跃程度、亲和程度、抓取深度等,总访问次数、停留时间、抓取量越高、平均抓取页面、平均停留时间,代表网站页面越受搜索引擎喜欢。而单页抓取停留时间代表网站页面访问速度,时间越长,代表网站访问速度越慢,对搜索引擎抓取收录较不利,咱们应尽可能提升网页加载速度,减小单而立停留时间,让爬虫资源更多的去抓取收录。
二、目录抓取统计
经过日志分析咱们能够看到网站哪些目录受蜘蛛喜欢、抓取目录深度、重要页面目录抓取情况、无效页面目录抓取情况等。对于重要目录,咱们须要经过内外调整增长权重及爬取;对于无效页面,在robots.txt中进行屏蔽。
三、访问状态码
蜘蛛常常出现的状态码如30一、404等,出现这些状态码要及时处理,以免对网站形成坏的影响。
四、蜘蛛爬取路径
    在网站日志中咱们能够跟踪到特定IP的访问路径,则能发现对于本网站结构下蜘蛛的爬取路径偏好。由此,咱们能够适当的引导蜘蛛的爬取路径,让蜘蛛更多的爬取重要、有价值、新更新页面。其中爬取路径中咱们能够分析页面物理结构路径偏好以及url逻辑结构爬取偏好。索引

相关文章
相关标签/搜索