2019年就这么匆匆过去了,就在前几天国家电影局发布了2019年中国电影市场数据,数据显示去年总票房为642.66亿元,同比增加5.4%;国产电影总票房411.75亿元,同比增加8.65%,市场占比 64.07%;城市院线观影人次17.27亿,同比增加0.64%。python
看上去彷佛是一片大好对不对?不过做为一名严谨求实的数据分析师,我从官方数据中看出了一点端倪:国产票房增幅都已经高达8.65%了,为何观影人次增加不足1%?数据库
到底为何会出现这样的现象,最好的办法就是从数据中找答案。咱们说干就干,按照老规矩,先用python爬取数据、再用BI进行数据分析,最终事情的真相就会显如今咱们面前。segmentfault
首先明确咱们数据分析的目的,根据2019年电影的数据分析国内电影市场,主要是为了找到票房与观影人次的关系。浏览器
怎么去衡量一部电影的好坏呢?懂电影的人应该都知道这么几个指标:“电影票房”、“票房占比”、“上座率”、“排片比”、“评分”等等,其中咱们的数据源就用猫眼电影吧,可是由于猫眼评分门槛很低,可能充斥着不少水军,因此此次就不用“评分”这个指标了。函数
下面就要开始爬取数据了,由于猫眼电影的网页结构比较简单,爬取操做比较简单,因此这里我就不详细展现了,只说几步须要注意的地方就行。工具
注:源代码能够在后台私信回复我 “电影” 得到!
一、先看看结构性能
从猫眼电影上能够看到咱们要爬取的网页,首先要提取出这个网页的信息,在了解了大致的状况以后,就右键选择查看网页的源代码,看一下咱们须要爬取的数据信息在源代码中的什么地方。字体
二、假装成浏览器进行数据请求动画
这个方法就是老生常谈的事情了,这里不细讲了,在发送请求前加上headers参数便可。编码
三、提取数据
猫眼里的电影票房等都是加密后的字体,所以咱们须要解密字体。虽然字符的编码是变化的,可是对象是不变的。那么咱们能够经过第一次下载一个字体文件origin.ttf,并把对应编码的字体写出来,当第二次从网上从新下载一个字体文件online_base64.ttf 的时候,能够对比对象信息,若是对象是同样的,那么就把第一次编码对应的文字赋值给第二次的编码,这样便可。
四、主程序调用保存在excel中
首先须要创建一个空列表,将全部的数据添加到里面去。在以前的提取数据那个函数的时候,将print(data),改写成yield data,将全部的数据添加到一个列表以后就能够保存数据了。
五、须要注意的地方
有了源文件,咱们就能够进行BI分析了,至于为何不用python是由于比较麻烦,像咱们若是要作二八分析模型,代码写起来仍是比较麻烦的,平常共工做中不太能知足需求。
因此通常来讲我如今都是用专业的BI工具进行数据分析。目前市场上的BI工具十分繁多,可是性能也良莠不齐,这里我就以国产BI工具的优秀表明FineBI为例。
注:想要获取finebi下载地址,能够后台私信回复“电影”得到!
一、数据链接
首先导入咱们须要分析的数据,finebi能够链接Excel,CSV,XML,以及各种数据库,这里由于有了python爬取到的excel表,因此直接选择excel导入便可。
二、数据加工
咱们爬取到的数据可能须要第二次加工,好比脏数据处理、数据合并、过滤等等,FineBI是经过自助数据集的方式,根据需求对原数据进行再加工处理,新建一个用于分析的数据集,再处理包括选择字段、过滤、分组汇总、新增列、字段设置、排序、合并的操做。
三、数据可视化
由于本次涉及到的指标比较简单,因此基本经过FineBI拖拽数据字段便可呈现可视化。
不说废话,先放结论:
一、票房排名前二十的电影
今年票房前二十名中一半以上都是国产电影,看似繁荣,但其实从上图的区间柱状图中可以看出,《哪吒》、《流浪地球》、《复联4》三部电影属于第一梯队,票房在40亿以上;《我和个人祖国》、《中国机长》、《疯狂的外星人》、《海王》属于第二梯队,票房在20-30亿左右;剩下的电影中基本在20亿如下,排名20的《银行补习班》只有8亿。
总体来讲,去年国内电影市场爆款较多,可是总体呈现阶梯状,断崖较多,大部分集中于前五名之中,大致上符合二八法则。
二、票房的帕累托模型
为了搞清是否真的符合帕累托法则,我特地用FineBI加入了一条票房累积百分比:
结果很明显,排名前20%的电影占据了整个市场80%以上的票房总量,也就是说,去年国内市场的票房总量基本上靠着几大爆款电影撑起来的,票房分布愈来愈集中绝对不是一件好事,这意味大多数的电影成绩惨淡,根本没有生存空间。
三、票房占比、排片率与票房的关系
这张图咱们能够跟排名前二十的柱状图对比一下,真正意义上高票房、高票房占比、低排片率的黑马电影有哪些呢?答案只有一部《流浪地球》。
《哪吒》的排片率高是由于上映同期没有什么优质电影与之竞争,因此《哪吒》的成功一半要归功于人和,一半要归功于天时;《疯狂外星人》的表现中规中矩,《海王》属于典型的商业片,《我和个人祖国》属于特殊状况,不能一律而论。
四、上座率与票房的关系
为了方便对比,我在图中加入了一条平均上座率的警惕线,其中上座率最高的是《我和个人祖国》、《我为你牺牲》,缘由就不说了,你们应该都明白;其中比较奇怪的是《飞驰人生》、《新喜剧之王》、《攀登者》,上座率很是高,票房成绩却不如人意,应该是得益于其导演、主演的号召力。
《流浪地球》上座率在平均值以上,不管从哪一个角度看都是一部好电影,无懈可击。
值得欣慰的是,上座率排名靠前的基本都是国产电影,看的出来国外电影尚不能知足大多数人的口味。
五、作点其余分析
电影类型与上座率的关系
喜剧电影一骑绝尘,动画电影黑马突起,科幻电影方兴未艾,惊悚、悬疑、历史等小众题材的电影仍然惨淡无比。
颜色越深表明上座率越高,字体越大表明票房越高
陈凯歌如今虽然常常被烂片之王所诟病,可是不得不说他的成绩仍是很不错的,另外像宁浩、韩寒、郭帆、陈国辉等人都是国产电影的但愿。
最后别忘了,python源代码和BI下载地址,均可以私信我“电影”得到!