分类
- 艺人:选取08月总值较高的14个艺人做为研究对象
- 用户:根据袁光浩PPT中对第11个线路画的每一个用户刷卡次数的统计表
咱们以用户user_id=b15e8846dc61824c1242a6b36796117b(播放量最高的艺人)为例,画出该艺人的用户183的播放量图像:
(127135*0.995=
126499.3)以下是将用户总小到大取前
126499个用户的图像:横轴是用户按播放量从小到大的编号,纵轴是用户总播放量。
能够看到用户两级分化,一部分用户的播放量特别的小,不到50;另外一部分特色的大,甚至超高150。对此考虑对艺人的用户分类为
粉丝用户和
随机用户2类。
通过摸索,
分类标准能够定义为使粉丝用户的总播放量和随机用户的总播放量尽量对等。例如:
计算改艺人183天的总播放量是:115,3409,
设n=35,通常用户a(a=users[users$play<n]
)总播放量:61,7199;
此时粉丝用户b总播放量为:53,6210,人数;
此时总用户人数是
12,7135,
通常用户a有
12,0375,粉丝用户b有6760个。
按用户划分后艺人每日的播放量(黑),通常用户a(蓝色)和粉丝用户b(红色)的点播量以下,如下绿色圈圈能够看出分类把两类用户按日不一样的播放行为较好的显示出来。
从图中能够看出不一样的用户点播趋势是不一样的!通常用户上升,粉丝用户降低!为何会是这样的趋势呢?
分析缘由:因为
艺人当日播放量=艺人当日用户数*当日用户平均点播量,分别统计2类用户的每日平均点播量和每日用户人数,做图以下
一、每日平均点播量:
能够看出粉丝用户(红)每日平均播放量呈现趋势,大概是个二次多项式的降低趋势,越到后降低越缓慢;这能够解释总播放量那张图粉丝用户是降低的
通常用户(蓝)相比于粉丝用户每日平均播放量基本就是一个平稳的
正态序列!
二、每日用户人数:
能够看出全部序列都呈现出较强的周期性(一周7天的特征)
通常用户(蓝)每日用户数呈上升趋势,这就是为何总播放量那张图通常用户是上升的
粉丝用户(红)每日用户人数先增多后减小;
相比于通常用户,人数趋于平稳序列(极差大概是500)
在观察前14个艺人的分类用户能够
总结以下:
一、
原先艺人天天的总播放量能够分解为2类用户每日播放量和:
粉丝用户和通常用户的分类标准是尽可能使2类用户的各自的总播放量相等,也就是播放量是对半的,但粉丝用户人数远小于通常用户。目前前14个艺人用到的播放量分界点有15,20,35,100,150。
具体计算分界点能够写一个函数:(计算累加用户播放量与总用户播放放量一半的差值,去最小差值处播放量做为分界点值)先按用户播放量从大到小排序,而后循环累加用户播放量(好比设定播放量为1五、20,35,100,150之类的),计算目前累加值与用户总播放量的一半的差值并记录,每次循环记录,取最小差值。(尚未实现!)
以下横轴是2类用户的每日的用户数,纵轴是每日的点播量,能够看出分类基本是正确的!
二、2类用户的每日播放量又能够分解为
每日平均用户点播量和每日用户人数的乘积,而且大体符合如下规律:
一、粉丝用户序列b1:有趋势
二、通常用户序列a1:平稳
一、粉丝用户序列b2
:平稳
二、通常用户序列a2
:有趋势
所以咱们主要的预测对象就是:
一、
粉丝用户的
每日平均点播量(b1)和通常用户的
每日用户人数(a2),把2个时序分开作线性回归,a1和b2用均值代替(平稳序列),再代入公式:该play=a1*a2+b1*b2
二、周期,从每日用户人数中获取。
2.1如下是全部艺人的每个月每周总播放量统计,趋势不是明显,但能够看出节假日(六、7天)与工做日(1~5天)有区别,节假日在最后三个月明显播放量变低!(明天再看)
2.2袁光浩PPT展现的2个线路天天刷卡人数按一周七天的的变化规律,
建模方法是节假日、工做日单独建模,
创建的自回归AR模型(时序模型,把
(t-1天)
因变量做为第t天的自变量带入计算)
以前理解有误,补充学习了时序模型知识以后才发现AR模型在实际运用中是在回归模型的基础上对残差建模预测平稳序列的,而
袁光浩PPT右侧图中的模型并非AR模型,这里指的是将客户分类,分为
常客(Yfreq)和
随机客(Yrand),分别创建线性回归模型作预测再叠加!还有一点要注意的剔除异常数据,发现规律,简化特征!咱们目前特征有点多!
补充:
关于艺人分类:
以下图所示用
复赛数据每一个艺人8月播放量均值
画出散点图,能够很清晰的发现分类分界线是
15000,将其分为2类:高播放量艺人和低播放量艺
人,同时以8月均值做为60天天天的播放量,用评分公式计算彻底预测准确时F值为
64296.57135,其中高播放量艺人F总和为
31413.58217,低播放量艺人F为
32882.98918,恰巧是总F值的一半,说明这个分组群体是正确的,且2类艺人的评分都不可忽略!