这篇文章用pandas
对全球的人口数据作个简单分析。我收集全球各国1960-2019年人口数据,包含男女和不一样年龄段,共6个文件。web
pop_total.csv: 各国每一年总人口 pop_female.csv:各国每一年女性人口 pop_male.csv: 各国每一年男性人口 pop_0_14.csv: 各国每一年0-14岁人口 pop_15_64.csv: 各国每一年15-64岁人口 pop_65up.csv:各国每一年65岁以上人口 复制代码
先用pandas
读取文件数据echarts
import pandas as pd
pop_total = pd.read_csv('./data/pop_total.csv', skiprows=4) pop_total.info() 复制代码
pop_total.csv
文件存放各国每一年总人口数据,格式以下编辑器
pop_total.head(2)
复制代码
一样的方式,咱们读取剩下的5个文件,对应的DataFrame
分别是pop_female
、pop_male
、pop_0_14
、pop_15_64
、pop_65up
。flex
为了直观观察全球人口分布,咱们用pyecharts
绘制2019年全球人口分布地图spa
from pyecharts import options as opts
from pyecharts.charts import Timeline, Map pop_total_2019 = pop_total[['Country Name', '2019']] # 修改俄罗斯的英文名以便pyecharts能识别 pop_total_2019.loc[200, 'Country Name'] = 'Russia' pop_world_map = ( Map() .add("2019年", pop_total_2019.values, "world", is_map_symbol_show=False) .set_series_opts(label_opts=opts.LabelOpts(is_show=False)) .set_global_opts( title_opts=opts.TitleOpts(title="全球人口"), visualmap_opts=opts.VisualMapOpts(max_=100000000), # 超过1亿人口颜色最深(红色) ) ) pop_world_map.render_notebook() 复制代码
由于咱们有50年的数据,因此咱们还能够绘制一个全球人口分布变化的动图,相似以前写的全球疫情变化趋势图。由于代码跟上面相似,这里就不贴,源码包里能找到。3d
上面的图里咱们只能定性的看到人口分布,下面咱们定量地看看2019年全球人口top10的国家。code
# 2019年人口top10的国家
pop_total_2019_ordered = pop_total_2019.sort_values(by="2019" , ascending=False) pop_total_2019_ordered.head() 复制代码
排序后发现Country Name
这列不仅是单个国家,还包括了地区概念,这并非咱们想要的。记得以前作疫情地图的时候有一份国家中英文对应关系的名单,拿到这里用一下。cdn
from countries_ch_to_en import countries_dict
pop_top10 = pop_total_2019_ordered[pop_total_2019_ordered['Country Name']\ .isin(countries_dict.keys())][:10] pop_top10 复制代码
这样看起来就正常了,用seaborn
将其绘制出来blog
import seaborn as sns
sns.barplot(y=pop_top10['Country Name'], x=pop_top10['2019']) 复制代码
能够看到,中国人口仍然位居全球第一,紧随其后的是印度,三哥也是拼了。令我惊讶的是巴基斯坦那么小的国土,人口超2亿,全球排第五,真是方方面面都要跟三哥死磕。排序
看完人口绝对值的排行,咱们再来看看从2000年值2019年近20年时间各国人口增加率
pop_tmp = pop_total[pop_total['Country Name']\
.isin(pop_top10['Country Name'])][['Country Name', '2000', '2019']] pop_tmp['growth(%)'] = (pop_tmp['2019'] / pop_tmp['2000'] - 1) * 100 pop_tmp.sort_values(by="growth(%)" , ascending=False) 复制代码
能够看到,中国虽然人口基数比较大,但近20年人口增加率确比较低,增长最快的top3分别是尼日利亚、巴基斯坦和印度。
看完总人口数据后,咱们再看看性别分布,仍是以2019年为例
columns = ['Country Name', '2019']
# 抽数据,关联 pop_sex_2019 = pop_total[columns].merge(pop_male[columns], on = 'Country Name') # 列名重命名 pop_sex_2019.rename(columns={'2019_x': 'total', '2019_y': 'male'}, inplace=True) # 筛选出国家 pop_sex_2019 = pop_sex_2019[pop_sex_2019['Country Name'].isin(countries_dict.keys())] # 计算女性人口 pop_sex_2019['female'] = pop_sex_2019['total'] - pop_sex_2019['male'] # 女性占比与男性占比的差值 pop_sex_2019['diff'] = (pop_sex_2019['female'] - pop_sex_2019['male']) / pop_sex_2019['total'] * 100 # 男性人口占比高于女性的 top15 sex_diff_top15 = pop_sex_2019.sort_values(by='diff')[0:15] sns.barplot(y=sex_diff_top15['Country Name'], x=sex_diff_top15['diff']) 复制代码
第一名是卡塔尔,男性人口比女性高50%,我们中国男女比例也是失衡的,男性人口占比比女性高2%。
再来看看女性占比比男性高的国家
sex_diff_top15 = pop_sex_2019.sort_values(by='diff', ascending=False)[0:15]
sns.barplot(y=sex_diff_top15['Country Name'], x=sex_diff_top15['diff']) 复制代码
这个相差的幅度明显没那么大,top1也就差了8%,而且这些国家都不是人口大国。那咱们来看看人口超过1亿的国家有哪些是女性占比超过男性
pop_sex_2019[pop_sex_2019['total'] > 100000000].sort_values(by='diff', ascending=False)[0:5]
复制代码
能够看到日本、墨西哥、巴西和美国这四我的口大国女性占比超过了男性。
性别也了解的差很少了,咱们再来看看年龄分布。由于我比较关注各国年轻人群的占比,因此咱们先对各国0-14岁人口占比进行排序。
pop_0_14_2019 = pop_total[columns].merge(pop_0_14[columns], on = 'Country Name')
pop_0_14_2019.rename(columns={'2019_x': 'total', '2019_y': '0_14'}, inplace=True) pop_0_14_2019['0_14_r(%)'] = pop_0_14_2019['0_14'] / pop_0_14_2019['total'] * 100 # 咱们仍然只看大于1亿人的国家 pop_0_14_top = pop_0_14_2019[pop_0_14_2019['Country Name'].isin(countries_dict.keys())][pop_0_14_2019['total'] > 100000000]\ .sort_values(by='0_14_r(%)', ascending=False)[:15] sns.barplot(y=pop_0_14_top['Country Name'], x=pop_0_14_top['0_14_r(%)']) 复制代码
能够看到菲律宾、孟加拉国、印尼和印度等东南亚国家0-14岁人口占比远超中国,甚至美国也比咱们要高。咱们只有17%,这也是近几年世界工厂在往东南亚迁移的缘由。
最后,咱们再看看中国从1960年至2019年中国各年龄段人口占比的变化趋势
# 筛选咱们须要的列
pop_0_14_ch = pop_0_14[pop_0_14['Country Name'] == 'China'].drop(['Country Name', 'Country Code', 'Indicator Name', 'Indicator Code',\ 'Unnamed: 64'], axis=1) #列(年份)转行 pop_0_14_ch_unstack = pop_0_14_ch.unstack() # 从新构造DateFrame pop_0_14_ch = pd.DataFrame(pop_0_14_ch_unstack.values, \ index=[x[0] for x in pop_0_14_ch_unstack.index.values], columns=['0_14']) pop_0_14_ch.head() 复制代码
一样的方式,处理一下其余两个年龄段
# 15-64岁
pop_15_64_ch = pop_15_64[pop_15_64['Country Name'] == 'China'].drop(['Country Name', 'Country Code', 'Indicator Name', 'Indicator Code',\ 'Unnamed: 64'], axis=1) pop_15_64_ch_unstack = pop_15_64_ch.unstack() pop_15_64_ch = pd.DataFrame(pop_15_64_ch_unstack.values,\ index=[x[0] for x in pop_15_64_ch_unstack.index.values], columns=['15_64']) # 65岁以上 pop_65up_ch = pop_65up[pop_65up['Country Name'] == 'China'].drop(['Country Name', 'Country Code', 'Indicator Name', 'Indicator Code',\ 'Unnamed: 64'], axis=1) pop_65up_ch_unstack = pop_65up_ch.unstack() pop_65up_ch = pd.DataFrame(pop_65up_ch_unstack.values, \ index=[x[0] for x in pop_65up_ch_unstack.index.values], columns=['65up']) 复制代码
将各年龄人口按照年份关联起来,而后计算总人口以及各年龄段人口占比
pop_age_level = pop_0_14_ch.merge(pop_15_64_ch.merge(pop_65up_ch, left_index=True, right_index=True), left_index=True, right_index=True)
pop_age_level['total'] = pop_age_level['0_14'] + pop_age_level['15_64'] + pop_age_level['65up'] pop_age_level['0_14(%)'] = pop_age_level['0_14'] / pop_age_level['total'] * 100 pop_age_level['15_64(%)'] = pop_age_level['15_64'] / pop_age_level['total'] * 100 pop_age_level['65up(%)'] = pop_age_level['65up'] / pop_age_level['total'] * 100 pop_age_level.head() 复制代码
最后咱们来画一个堆叠柱状图展现
pop_age_level['year'] = pop_age_level.index
pop_age_level.plot.bar(x='year', y=['0_14(%)', '15_64(%)', '65up(%)'], stacked=True, figsize=(15,8), fontsize=10, rot=60) 复制代码
能够放大后看看,蓝色的是0-14岁人口,六七十年代,中国0-14岁人口占比40%多,算是挺高的了,随着80年代实行计划生育,0-14岁人口开始降低,一直降到如今的17%,少的有点可怜了。如今国家放开二胎,也是但愿将来咱们能有更多的年轻人,这样才能加强咱们的国际竞争力。
个人分析就到这里了,有兴趣的朋友能够自行探索,数据和源码已经打包,公众号回复关键字人口便可。
欢迎公众号 「渡码」,输出别地儿看不到的干货。