世界上的问题不少,小伙伴们都想知道是什么吗?NOW,告诉大家,只要给我数据,我用OpenFEA分析分析,就能给您一个比较靠谱的答案。排序
昨天家里有个小朋友看了一个户外运动的广告,她感受蛮好玩的,而后就问爸爸:“爸爸,为何你每天要加班,而不带我一块儿去作户外运动?”内存
爸爸回答:“小朋友,爸爸身上有房贷,要挣钱养家,爸爸如今又不是土豪!“数据分析
小朋友又问:”爸爸,那土豪是什么意思,土豪在哪里?“it
对呀,土豪在哪里?爱户外运动的土豪又在哪里?io
别急,我慢慢算给你听!csv
1、分析思路nio
土豪标志就是买!买!买!爱户外运动的土豪的标志就是买!买!买!im
骑个车,登个山,跑个步,游个泳有必要买个万把块的户外运动手表吗?这不就是土豪行为嘛!统计
(一)数据准备命名
上某东,抓数据!怎么抓?来找我,我当面告诉你!
一、佳明手表购买评论记录及手表价格
二、颂拓手表购买评论记录及手表价格
(二)分析过程
一、把数据上传到OpenFEA,以下图:
二、加载数据到内存DF表
三、数据分析与统计
(1)表联合
(2)分组与统计
(3)重命名字段
(4)结果排序
(5)绘图
从图中得出结论:喜欢户外运动的人士主要分布在北京、广州、上海。可是,这些人士并不彻底是土豪,还须要剔除购买低价位户外运动手表的人士。
(6)剔除购买低价位户外运动手表的记录,而后再统计分析
最终得出结论:喜欢户外运动的土豪人士主要分布在北京、广州、上海。
2、分析脚本
#加载数据
jmsb = load csv by xhzjmsb.csv
stsb = load csv by xhzstsb.csv
jmprice = load csv by jmprice.csv
stprice = load csv by stprice.csv
#表连接
sbun = union (jmsb,stsb)
#表分组
gt = group sbun by (省份)
#表统计
result = agg gt by (省份:count)
#重命名字段
rename result as (u"省份":u"人数")
#排序
result = order result by (人数) with desc
#绘图
plot result by 04
priceun = union (jmprice,stprice)
#表关连查型
sbun1 = join (sbun,priceun) by (型号,型号)
#表过滤
sbun2 = filter sbun1 by (price>4000)
gt2 = group sbun2 by (省份)
result2 = agg gt2 by (省份:count)
rename result2 as (u"省份":u"人数")
result2 = order result2 by (人数) with desc
plot result2 by 04