ABT日志入库记录正则表达式
1.确认文件内容格式apache
文件内容有两种记录格式api
格式一:(分流结果)数据结构
2018-07-03 06:50:00,142 [XNIO-2 task-28] INFO com.leeyk99.bi.abt.rest.CoreApiController - 1A42F7C6_B904_A334_AB87_5A69A7034DA0 PcRealClass 66 158
数据结构:oop
数据之间空格分隔,,cid、uid均可能为空。ui
格式二:(接口信息)spa
2018-07-03 20:39:46,043 [XNIO-2 task-211] INFO com.leeyk99.bi.abt.filter.LogFilter - GET /api/v1/bi/abt?cid=973EA838_E20E_74E4_41AB_E218DA91D73E&uid=&site=mtw&terminal=Leeyk99-M&lan=zh-tw took 1ms and returned 200
这个暂时不须要,故不入库。rest
2.入库建表语句及正则表达式日志
须要建立表记录分流结果。code
表一:ABT-分流结果表(日)
--不能删表,不然日志文件就没了。 create table ods.ods_abt_exp_results_di( log_time string, abt_class string, client_id string, user_id string, poskey_id string, exp_id string, branch_id string ) partitioned by (dt string) row format serde 'org.apache.hadoop.hive.contrib.serde2.RegexSerDe' with serdeproperties ('input.regex'='([0-9\\-\\s:,]+)s*\\[XNIO\\-[0-9]+ task\\-[0-9]+\\]\\sINFO\\s*(.*) \\- ([\\w]*)\\s([\\w]*)\\s([\\w\\-]*)\\s([0-9]+) ([0-9]+)') stored as textfile;
(为何不能删表,由于咱们是经过指定文件位置来添加数据的,删表就删除文件了;若是是从本地文件系统Load进去的,能够直接删除重建;若是源文件是在HDFS或S3文件系统上,也不能轻易删表,由于load是移动文件。)
若是正则表达式不对,能够修改:
alter table ods.ods_abt_exp_results_di set serdeproperties ('input.regex'='([0-9\\-\\s:,]+)s*\\[XNIO\\-[0-9]+ task\\-[0-9]+\\]\\sINFO\\s*(.*) \\- ([\\w]*)\\s([\\w]*)\\s([\\w\\-]*)\\s([0-9]+) ([0-9]+)');
通常不会由于正则不表达式建表失败,若是失败,先执行:
add jar s3://dsdata01/bi/etl/udf/hive-contrib.jar;
3.日志文件入库
若是日志文件在集群存储系统外部,则须要Load进表或者使用建立外部表的方式。
ABT日志在AWS S3存储上,能够直接增长分区,指定到相应的位置。
该方法会致使表中有不少无用记录。(不符合正则的为NULL)
alter table ods.ods_abt_exp_results_di add partition (dt='20180702') location 's3://dsdata01/flume/abtcore/20180702';
查看有效的数据:
add jar s3://dsdata01/bi_wh/etl/udf/hive-contrib.jar; select * from ods.ods_abt_exp_results_di a where dt='20180702' abt_class='com.leeyk99.bi.abt.rest.CoreApiController' limit 1;
该方法会致使表中有不少无用记录,不符合正则的为NULL。这是什么缘由呢?
由于咱们添加的目录位置中,文件中的内容包含两种,一个是分流结果,一个是接口请求信息,而咱们配置的正则是分流结果的,所以接口请求信息在表里的数据就是NULL. 在实际开发中,咱们能够在后续加一段代码过滤掉便可。
若是源文件是单独的,就不会出现这种状况啦。