《流浪地球》16w数据可视化分析

今天下午去电影院看完了《流浪地球》,多是昨晚没休息好的缘由,我居然在中间不当心有睡着过。python

若是满分 10 分的话,我给 8 分,整场电影看下来比较平淡,并且须要有必定的科学和太空方面的知识(虽然我也不太懂),不然看起来可能比较费脑子。echarts

因此看完后,我至少到目前为止好像尚未找到一个推荐别人去看这个电影的理由,固然并非说电影很差。spa

我给的 8 分是以为电影颇有创意,这对中国的科幻电影必定是有巨大的意义的,同时这种科幻大片也应该是一个国家软实力的象征。code

好了,以上都仅仅是我我的观点,回到主题,今天主要仍是来对上周 python 采集的 16w 评论数据进行简单的可视化分析,python爬取《流浪地球》16w评论。cdn

今天主要从【全国观众地域分布】、【观众地域排行榜单】、【评论词云图】、【观众评论数量与日期的关系】、【观众评论数量与时间的关系】这五个方面进行分析,注意这里涉及的全部分析都是基于python爬取《流浪地球》16w评论 文章中获取的 16w 评论数据。blog

数据处理和统计用的 pandas 和 collections 两个库,地图和柱状图用的 pyecharts 库。使用前,请先安装相关三方库,还有下面三个地图包。ip

#安装国家、省级、市级地图包
pip install echarts-countries-pypkg
pip install echarts-china-provinces-pypkg
pip install echarts-china-cities-pypkg
复制代码

一、全国观众地域分布ci

从地图中能够看出,全国观众主要分布在东南、中部、北部,从颜色也能够大概看出(红色表明观众最多),各省会城市的观众居多,与实际的经济、消费水平基本相符。源码

二、观众地域排行榜单pandas

找出全国各地观众最多的排名前 20 的城市,北京观众最多,不愧是首都,让人惊喜的是成都位列第三,超过了广州和上海,其余的基本上都是各省会城市了。

我以为从这些数据中基本能够反映一个城市的经济实力和消费水平了,因此若是要考虑投资买房等能够优先考虑这 20 个城市了。

三、评论词云图

这个词云图就更直观了,16w 评论中出现的词越多,在这张词云图中的字号就会越大。能够看到你们评论最多的词是 "好看" "中国" "科幻电影" "不错" "国产" "好莱坞" 等。

四、观众评论数量与日期的关系

经过观众的评论日期能够看出,大年初一上映第一天的评论并很少,多是大年初一你们都在家里和家人团聚,从初二开始评论数就开始递增了,说明这电影上映后愈来愈火。

因为我当时采集数据的时间是 17 日,并且 10 日到 17 日的数据有部分缺乏,因此从 10 往后的数据应该就不够准确了。

五、观众评论数量与时间的关系

从图中能够看出,评论的时间主要集中于下午 15-20 点和 21-24 点,这电影时长为 2 小时,因此把评论时间往前移 2 小时即基本就是看电影时间。能够看出你们都是中午吃完午餐 (13点左右) 和晚上吃完晚饭 (19点左右) 再去看电影的,并且晚上看电影的人更多一些。

以上就是对《流浪地球》 16w 评论的可视化分析,分析结果仅表明我的观点。

本文涉及的完整 python 源码及源数据,请在公众号【谭某人】后台回复关键字【流浪地球】获取。

相关文章
相关标签/搜索