导读 网站数据统计分析工具是各网站站长和运营人员常用的一种工具,经常使用的有 谷歌分析、百度统计和腾讯分析等等。全部这些统计分析工具的第一步都是网站访问数据的收集。目前主流的数据收集方式基本都是基于javascript的。在此简要分析数据收集的原理,并按照步骤,带领你们一同搭建一个实际的数据收集系统。
数据收集原理分析

简单来讲,网站统计分析工具须要收集到用户浏览目标网站的行为(如打开某网页、点击某按钮、将商品加入购物车等)及行为附加数据(如某下单行为产生的订单金额等)。早期的网站统计每每只收集一种用户行为:页面的打开。然后用户在页面中的行为均没法收集。这种收集策略能知足基本的流量分析、来源分析、内容分析及访客属性等经常使用分析视角,可是,随着ajax技术的普遍使用及电子商务网站对于电子商务目标的统计分析的需求愈来愈强烈,这种传统的收集策略已经显得力不能及。
后来,Google在其产品谷歌分析中创新性的引入了可定制的数据收集脚本,用户经过谷歌分析定义好的可扩展接口,只需编写少许的javascript代码就能够实现自定义事件和自定义指标的跟踪和分析。目前百度统计、搜狗分析等产品均照搬了谷歌分析的模式。
其实提及来两种数据收集模式的基本原理和流程是一致的,只是后一种经过javascript收集到了更多的信息。下面看一下如今各类网站统计工具的数据收集基本原理。javascript

流程概览

首先经过一幅图整体看一下数据收集的基本流程。
1 网站数据统计数据收集基本流程
首先,用户的行为会触发浏览器对被统计页面的一个http请求,这里姑且先认为行为就是打开网页。当网页被打开,页面中的埋点javascript片断会被执行,用过相关工具的朋友应该知道,通常网站统计工具都会要求用户在网页中加入一小段javascript代码,这个代码片断通常会动态建立一个script标签,并将src指向一个单独的js文件,此时这个单独的js文件(图1中绿色节点)会被浏览器请求到并执行,这个js每每就是真正的数据收集脚本。数据收集完成后,js会请求一个后端的数据收集脚本(图1中的backend),这个脚本通常是一个假装成图片的动态脚本程序,可能由php、python或其它服务端语言编写,js会将收集到的数据经过http参数的方式传递给后端脚本,后端脚本解析参数并按固定格式记录到访问日志,同时可能会在http响应中给客户端种植一些用于追踪的cookie。
上面是一个数据收集的大概流程,下面以谷歌分析为例,对每个阶段进行一个相对详细的分析。php

埋点脚本执行阶段

若要使用谷歌分析(如下简称GA),须要在页面中插入一段它提供的javascript片断,这个片断每每被称为埋点代码。下面是个人博客中所放置的谷歌分析埋点代码截图:
2 谷歌分析埋点代码
其中_gaq是GA的的全局数组,用于放置各类配置,其中每一条配置的格式为:html

_gaq.push([‘Action’, ‘param1’, ‘param2’, …]);前端

Action指定配置动做,后面是相关的参数列表。GA给的默认埋点代码会给出两条预置配置,_setAccount用于设置网站标识ID,这个标识ID是在注册GA时分配的。_trackPageview告诉GA跟踪一次页面访问。更多配置请参考:https://developers.google.com/analytics/devguides/collection/gajs/。实际上,这个_gaq是被当作一个FIFO队列来用的,配置代码没必要出如今埋点代码以前,具体请参考上述连接的说明。
就本文来讲,_gaq的机制不是重点,重点是后面匿名函数的代码,这才是埋点代码真正要作的。这段代码的主要目的就是引入一个外部的js文件(ga.js),方式是经过document.createElement方法建立一个script并根据协议(http或https)将src指向对应的ga.js,最后将这个element插入页面的dom树上。
注意ga.async = true的意思是异步调用外部js文件,即不阻塞浏览器的解析,待外部js下载完成后异步执行。这个属性是HTML5新引入的。java

数据收集脚本执行阶段

数据收集脚本(ga.js)被请求后会被执行,这个脚本通常要作以下几件事:
一、经过浏览器内置javascript对象收集信息,如页面title(经过document.title)、referrer(上一跳url,经过document.referrer)、用户显示器分辨率(经过windows.screen)、cookie信息(经过document.cookie)等等一些信息。
二、解析_gaq收集配置信息。这里面可能会包括用户自定义的事件跟踪、业务数据(如电子商务网站的商品编号等)等。
三、将上面两步收集的数据按预约义格式解析并拼接。
四、请求一个后端脚本,将信息放在http request参数中携带给后端脚本。
这里惟一的问题是步骤4,javascript请求后端脚本经常使用的方法是ajax,可是ajax是不能跨域请求的。这里ga.js在被统计网站的域内执行,然后端脚本在另外的域(GA的后端统计脚本是http://www.google-analytics.com/__utm.gif),ajax行不通。一种通用的方法是js脚本建立一个Image对象,将Image对象的src属性指向后端脚本并携带参数,此时即实现了跨域请求后端。这也是后端脚本为何一般假装成gif文件的缘由。经过http抓包能够看到ga.js对__utm.gif的请求:
3 后端脚本请求的http包
能够看到ga.js在请求__utm.gif时带了不少信息,例如utmsr=1280×1024是屏幕分辨率,utmac=UA-35712773-1是_gaq中解析出的个人GA标识ID等等。
值得注意的是,__utm.gif未必只会在埋点代码执行时被请求,若是用_trackEvent配置了事件跟踪,则在事件发生时也会请求这个脚本。
因为ga.js通过了压缩和混淆,可读性不好,咱们就不分析了,具体后面实现阶段我会实现一个功能相似的脚本。python

后端脚本执行阶段

GA的__utm.gif是一个假装成gif的脚本。这种后端脚本通常要完成如下几件事情:
一、解析http请求参数的到信息。
二、从服务器(WebServer)中获取一些客户端没法获取的信息,如访客ip等。
三、将信息按格式写入log。
四、生成一副1×1的空gif图片做为响应内容并将响应头的Content-type设为image/gif。
五、在响应头中经过Set-cookie设置一些须要的cookie信息。
之因此要设置cookie是由于若是要跟踪惟一访客,一般作法是若是在请求时发现客户端没有指定的跟踪cookie,则根据规则生成一个全局惟一的cookie并种植给用户,不然Set-cookie中放置获取到的跟踪cookie以保持同一用户cookie不变(见图4)。
3 经过cookie跟踪惟一用户的原理
这种作法虽然不是完美的(例如用户清掉cookie或更换浏览器会被认为是两个用户),可是是目前被普遍使用的手段。注意,若是没有跨站跟踪同一用户的需求,能够经过js将cookie种植在被统计站点的域下(GA是这么作的),若是要全网统必定位,则经过后端脚本种植在服务端域下(咱们待会的实现会这么作)。linux

系统的设计实现

根据上述原理,我本身搭建了一个访问日志收集系统。整体来讲,搭建这个系统要作以下的事:
4 访问数据搜集系统工做分解
下面详述每一步的实现。我将这个系统叫作MyAnalytics。nginx

肯定收集的信息

为了简单起见,我不打算实现GA的完整数据收集模型,而是收集如下信息。
确认搜集信息git

埋点代码

埋点代码我将借鉴GA的模式,可是目前不会将配置对象做为一个FIFO队列用。一个埋点代码的模板以下:github

    // 

这里我启用了二级域名analytics.codinglabs.org,统计脚本的名称为ma.js。固然这里有一点小问题,由于我并无https的服务器,因此若是一个https站点部署了代码会有问题,不过这里咱们先忽略吧。

前端统计脚本

我写了一个不是很完善但能完成基本工做的统计脚本ma.js:

    (function () {
    var params = {};
    //Document对象数据
    if(document) {
    params.domain = document.domain || '';
    params.url = document.URL || '';
    params.title = document.title || '';
    params.referrer = document.referrer || '';
    }
    //Window对象数据
    if(window && window.screen) {
    params.sh = window.screen.height || 0;
    params.sw = window.screen.width || 0;
    params.cd = window.screen.colorDepth || 0;
    }
    //navigator对象数据
    if(navigator) {
    params.lang = navigator.language || '';
    }
    //解析_maq配置
    if(_maq) {
    for(var i in _maq) {
    switch(_maq[i][0]) {
    case '_setAccount':
    params.account = _maq[i][1];
    break;
    default:
    break;
    }
    }
    }
    //拼接参数串
    var args = '';
    for(var i in params) {
    if(args != '') {
    args += '&';
    }
    args += i + '=' + encodeURIComponent(params[i]);
    }
    //经过Image对象请求后端脚本
    var img = new Image(1, 1);
    img.src = 'http://analytics.codinglabs.org/1.gif?' + args;
    })();

整个脚本放在匿名函数里,确保不会污染全局环境。功能在原理一节已经说明,再也不赘述。其中1.gif是后端脚本。

日志格式

日志采用每行一条记录的方式,采用不可见字符^A(ascii码0x01,Linux下可经过ctrl + v ctrl + a输入,下文均用“^A”表示不可见字符0x01),具体格式以下:
时间^AIP^A域名^AURL^A页面标题^AReferrer^A分辨率高^A分辨率宽^A颜色深度^A语言^A客户端信息^A用户标识^A网站标识

后端脚本

为了简单和效率考虑,我打算直接使用nginx的access_log作日志收集,不过有个问题就是nginx配置自己的逻辑表达能力有限,因此我选用了OpenResty作这个事情。OpenResty是一个基于Nginx扩展出的高性能应用开发平台,内部集成了诸多有用的模块,其中的核心是经过ngx_lua模块集成了Lua,从而在nginx配置文件中能够经过Lua来表述业务。关于这个平台我这里不作过多介绍,感兴趣的同窗能够参考其官方网站http://openresty.org/,或者这里有其做者章亦春(agentzh)作的一个很是有爱的介绍OpenResty的slide:http://agentzh.org/misc/slides/ngx-openresty-ecosystem/,关于ngx_lua能够参考:https://github.com/chaoslawful/lua-nginx-module。
首先,须要在nginx的配置文件中定义日志格式:
log_format tick “$msec^A$remote_addr^A$u_domain^A$u_url^A$u_title^A$u_referrer^A$u_sh^A$u_sw^A$u_cd^A$u_lang^A$http_user_agent^A$u_utrace^A$u_account”;
注意这里以u_开头的是咱们待会会本身定义的变量,其它的是nginx内置变量。
而后是核心的两个location:

    location /1.gif {
    #假装成gif文件
    default_type image/gif;
    #自己关闭access_log,经过subrequest记录log
    access_log off;
    access_by_lua "
    -- 用户跟踪cookie名为__utrace
    local uid = ngx.var.cookie___utrace
    if not uid then
    -- 若是没有则生成一个跟踪cookie,算法为md5(时间戳+IP+客户端信息)
    uid = ngx.md5(ngx.now() .. ngx.var.remote_addr .. ngx.var.http_user_agent)
    end
    ngx.header['Set-Cookie'] = {'__utrace=' .. uid .. '; path=/'}
    if ngx.var.arg_domain then
    -- 经过subrequest到/i-log记录日志,将参数和用户跟踪cookie带过去
    ngx.location.capture('/i-log?' .. ngx.var.args .. '&utrace=' .. uid)
    end
    ";
    #此请求不缓存
    add_header Expires "Fri, 01 Jan 1980 00:00:00 GMT";
    add_header Pragma "no-cache";
    add_header Cache-Control "no-cache, max-age=0, must-revalidate";
    #返回一个1×1的空gif图片
    empty_gif;
    }
    location /i-log {
    #内部location,不容许外部直接访问
    internal;
    #设置变量,注意须要unescape
    set_unescape_uri $u_domain $arg_domain;
    set_unescape_uri $u_url $arg_url;
    set_unescape_uri $u_title $arg_title;
    set_unescape_uri $u_referrer $arg_referrer;
    set_unescape_uri $u_sh $arg_sh;
    set_unescape_uri $u_sw $arg_sw;
    set_unescape_uri $u_cd $arg_cd;
    set_unescape_uri $u_lang $arg_lang;
    set_unescape_uri $u_utrace $arg_utrace;
    set_unescape_uri $u_account $arg_account;
    #打开日志
    log_subrequest on;
    #记录日志到ma.log,实际应用中最好加buffer,格式为tick
    access_log /path/to/logs/directory/ma.log tick;
    #输出空字符串
    echo '';
    }

要彻底解释这段脚本的每个细节有点超出本文的范围,并且用到了诸多第三方ngxin模块(全都包含在OpenResty中了),重点的地方我都用注释标出来了,能够不用彻底理解每一行的意义,只要大约知道这个配置完成了咱们在原理一节提到的后端逻辑就能够了。

日志轮转

真正的日志收集系统访问日志会很是多,时间一长文件变得很大,并且日志放在一个文件不便于管理。因此一般要按时间段将日志切分,例如天天或每小时切分一个日志。我这里为了效果明显,每一小时切分一个日志。我是经过crontab定时调用一个shell脚本实现的,shell脚本以下:

    _prefix="/path/to/nginx"
    time=`date +%Y%m%d%H`
    mv ${_prefix}/logs/ma.log ${_prefix}/logs/ma/ma-${time}.log
    kill -USR1 `cat ${_prefix}/logs/nginx.pid`

这个脚本将ma.log移动到指定文件夹并重命名为ma-{yyyymmddhh}.log,而后向nginx发送USR1信号令其从新打开日志文件。
而后再/etc/crontab里加入一行:

59 * * * * root /path/to/directory/rotatelog.sh

在每一个小时的59分启动这个脚本进行日志轮转操做。

测试

下面能够测试这个系统是否能正常运行了。我昨天就在个人博客中埋了相关的点,经过http抓包能够看到ma.js和1.gif已经被正确请求:
5-1http包分析ma.j和1
同时能够看一下1.gif的请求参数:
6 gif的请求参数
相关信息确实也放在了请求参数中。
而后我tail打开日志文件,而后刷新一下页面,由于没有设access log buffer, 我当即获得了一条新日志:
1351060731.360^A0.0.0.0^Awww.codinglabs.org^Ahttp://www.codinglabs.org/^ACodingLabs^A^A1024^A1280^A24^Azh-CN^AMozilla/5.0 (Macintosh; Intel Mac OS X 10_8_2) AppleWebKit/537.4 (KHTML, like Gecko) Chrome/22.0.1229.94 Safari/537.4^A4d612be64366768d32e623d594e82678^AU-1-1
注意实际上原日志中的^A是不可见的,这里我用可见的^A替换为方便阅读,另外IP因为涉及隐私我替换为了0.0.0.0。
看一眼日志轮转目录,因为我以前已经埋了点,因此已经生成了不少轮转文件:
7-1轮转日志

关于分析

经过上面的分析和开发能够大体理解一个网站统计的日志收集系统是如何工做的。有了这些日志,就能够进行后续的分析了。本文只注重日志收集,因此不会写太多关于分析的东西。
注意,原始日志最好尽可能多的保留信息而不要作过多过滤和处理。例如上面的MyAnalytics保留了毫秒级时间戳而不是格式化后的时间,时间的格式化是后面的系统作的事而不是日志收集系统的责任。后面的系统根据原始日志能够分析出不少东西,例如经过IP库能够定位访问者的地域、user agent中能够获得访问者的操做系统、浏览器等信息,再结合复杂的分析模型,就能够作流量、来源、访客、地域、路径等分析了。固然,通常不会直接对原始日志分析,而是会将其清洗格式化后转存到其它地方,如MySQL或HBase中再作分析。
分析部分的工做有不少开源的基础设施可使用,例如实时分析可使用Storm,而离线分析可使用Hadoop。固然,在日志比较小的状况下,也能够经过shell命令作一些简单的分析,例如,下面三条命令能够分别得出个人博客在今天上午8点到9点的访问量(PV),访客数(UV)和独立IP数(IP):

    awk -F^A '{print $1}' ma-2012102409.log | wc -l
    awk -F^A '{print $12}' ma-2012102409.log | uniq | wc -l
    awk -F^A '{print $2}' ma-2012102409.log | uniq | wc -l

其它好玩的东西朋友们能够慢慢挖掘。

转 http://www.cnblogs.com/linuxprobe/p/5601960.html