赛题目标:经过用户历史订单数据,预测用户下一次购买的商品。测试
赛题数据:数据保存为四个文件中,训练数据(Antai_AE_round1_train_20190626.csv)、测试数据(Antai_AE_round1_test_20190626.csv)、商品信息(Antai_AE_round1_item_attr_20190626.csv)、提交示例(Antai_AE_round1_submit_20190715.csv)spa
训练数据:用户每次购买的商品id,订单日期以及用户国家标识code
测试数据:较于训练数据,测试数据剔除了用户须要预测最后一次购买记录orm
商品信息:商品id、品类id、店铺id和商品价格blog
提交示例:预测用户购买商品Top30的item_id依几率从高到低排序,buyer_admin_id,predict 1,predict 2,…,predict 30排序
训练集样本量是 12868509
测试集样本量是 166832
样本比例为: 77.13453653975256
源数据中都木有空值,可是因为某些商品,不在商品表,所以缺乏了一些价格、品类信息。get
数据探查it
1.buyer_country_id 国家编号io
本次比赛给出若干日内来自成熟国家的部分用户的行为数据,以及来自待成熟国家的A部分用户的行为数据,以及待成熟国家的B部分用户的行为数据去除每一个用户的最后一条购买数据,让参赛人预测B部分用户的最后一条行为数据。form
2.buyer_admin_id 用户编号
训练集中用户数量 809213
测试集中用户数量 11398
同时在训练集测试集出现的有6位用户,id以下: [12647969, 13000419, 3106927, 12858772, 12929117, 12368445]
3.用户记录数分布
用户记录数进行了一波简单的探查:
Notes: 验证集中用户最少仅有7条,是由于最后一条记录被抹去
用户记录数进一步探查结论:
* 无论是训练集仍是验证集,99%的用户购买记录都在50条内,这是比较符合正常逻辑 * TODO:对于发生大量购买行为的用户,后面再单独探查,是否有其余规律或疑似刷单现象
4.item_id 商品编号
商品表中商品数: 2832669
训练集中商品数: 2812048
测试集中商品数: 104735
仅训练集有的商品数: 2735801
仅测试集有的商品数: 28488
训练集测试集共同商品数: 76247
训练集中不在商品表的商品数: 7733
测试集中不在商品表的商品数: 313
初步数据发现:
很明显: