数据准备
数据库
获取近10年的新闻联播文本有两个方法,一是本身写爬虫,将CCTV网站的新闻联播网页爬取下来,二是经过Tushare SDK的API免费获取数据。编程
若是是本身爬,好处是能够锻炼本身的爬虫编程能力,磨练本身被可能不统一的网页格式虐心千百遍还不砸电脑的心态意志。微信
坏处是爬数据,清洗数据确实浪费时间,搞很差真有可能费电脑。echarts
固然若是直接经过Tushare SDK调取数据,只须要一行代码便可获取到格式统一的数据。工具
df = pro.cctv_news(date='20181222')
学习
推荐下我本身建立的Python学习交流群960410445,这是Python学习交流的地方,无论你是小白仍是大牛,小编都欢迎,不按期分享干货,包括我整理的一份适合零基础学习Python的资料和入门教程。
网站
数据格式效果以下:
人工智能
若是要获取其余新闻资讯,也很简单:3d
df = pro.news(src='sina', start_date='20181223', end_date='20181224')
cdn
新闻源目前支持以下:
获取获取后,能够存csv也能够存Excel,或者存数据库均可以,这样就完成了原始数据准备。
分词处理
借助Python jieba分词工具,咱们能够快速的实现文本的分词功能。同时能够设置关键字黑名单和白名单,过滤不须要的,提取想要的关键词。
按日期处理分词以后,咱们能够对词频进行统计,生成一个完整的词频csv文件。
为了让你们更好地完成本次实验,咱们直接提供已经完成统计的csv文件供你们下载,请在文章末尾获取下载方式。
词频统计分析
新闻词云统计
对于最具影响力的新闻节目,可能不少人第一想到的是哪些关键词出现的次数最多?对于常见新闻词语,必定逃不出你的预料之中,下面这个词云图能够验证你的判断。
实现词云很是方便,前提是你已经准备好了词频统计。幸运的是,咱们为你提供了现成的词云统计csv文件,在下载的文件中能够找到一个all.csv的文件。
正如你所看到的,咱们借助了pyecharts这个工具来实现可视化。如下全部图形效果都是借助pyecharts来实现的,更多具体的使用能够自行学习echarts和pyecharts的知识来增强图形制做能力,这里不作太多的介绍。
新闻分类统计
除了新闻联播常见关键词,咱们可能还想知道一些特定词语出如今新闻联播的次数,以便了解该类信息受关照程度,好比在过去10年当中,哪些省份和省会城市最受新闻联播关注?
咱们将各省在新闻联播出现的数据进行分年统计,而后经过柱状图的形式展现出来。
经过上图咱们能够知道,做为首都的北京毫无疑问是关注最多的地方。而在每一年由于不一样的政治、经济或者文化事件,不一样的省出现的频次也呈现出一些差别。
好比2018年在政策上对海南的倾斜,对珠三角的关注等,而在2017年香港回归20年,河北雄安新区的提出等事件,让这些地方备受关注。
一样的方法,咱们也能够对各省会城市出现的频次进行按年份统计。
能够清楚的看到,在2009年乌鲁木齐因暴恐事件受到了极大的新闻关注,而海口在近两年开放海南的大背景下也成了新闻联播的常客。
若是柱状图看的不够清晰,咱们能够借助地图热力方式来显示各省收关注程度可能更清楚。
在热力地图上,颜色越深表示受关注越大,咱们看到北京最红,而东部沿海比西部,东北要比内蒙受关注更多。
若是想要了解各地级市或者县级在新闻联播出现的次数,咱们一样能够借助地图效果来展现,经过散点效果能够大体看出在新闻联播出现的状况。
新闻占比统计
可能有些人很想了解哪些大学在新闻联播出现的次数最多,就像北京被关注最多同样,北京的清华北大应该也是关注最多的?
咱们来经过数据统计,根据排名前30位的占比来分析一下。
咱们对清华、北大、人大等知名大学的排名可能并不会以为奇怪,但在受关注度排名前30的大学中,发现了一所国外的大学,那就是莫斯科大学,在接近10年的历史里,总共提到了31次。
经过新闻内容咱们知道,国家领导人曾经在大学演讲过,以及国家领导人勉励在莫斯科大学留学的中国学子等活动得到了关注。
而在与世界各国的往来方面,咱们一样能够借助上述的方法,统计出各国在新闻联播出现的次数来获得体现。
正如咱们所知,中国与美国的关系是中国外交关系最紧密的,而中俄,中日关系也是很是重要。但同时咱们也看到,诸如叙利亚、伊朗、朝鲜、伊拉克、巴基斯坦等战乱和动荡的国家让世界人民也让中国人民操碎了心。
新闻分时统计
在国际关系方面,咱们从上面各国出如今新闻联播的次数基本上获得了体现,但从每一年的关注状况方面,咱们能够经过折线图更加清楚的了解到一些细节。
在其余新闻和经济热词方面,咱们也进行了一些检验,好比人工智能、智能制造和5G等近年来愈来愈多的被提到,而在提到“金融风险”的次数也伴随说起“金融”二字出现的愈来愈多。
另外,咱们也跟踪了一带一路、自贸区、雄安新区等热词的频次,好比雄安新区,在2017年4月1日首次出现以后,也是常常出如今新闻联播里,一般快要到事件或概念提出的周年的时候,出现的频次会更多。
总结
对于新闻等非结构化数据的统计分析,是一个颇有意思的过程,也许你会发现一些意外的惊喜。尤为是结合互联网社区的数据,好比微信微博等,能够从中挖掘出颇有价值的信息。
本次实验过程只是一个简单的开始,还有不少更值得分析的角度和方法,只为抛砖引玉,但愿对你们有所助益。