图 by:石头@泸沽湖python
关于做者: 程序猿石头(ID: tangleithu),现任阿里巴巴技术专家,清华学渣,前大疆后端 Leader。 欢迎关注,交流和指导!
背景
就在昨天,一年一度的北京积分落户结果出来了,咱们照旧来看看今年(2020年)的数据状况。git
在看这篇文章以前,你能够经过以下文章来获得石头是如何快速拿到这些数据分析结果的:程序员
数据能够经过北京市人力资源和社会保障局官方网站下载获取,关于2020年积分落户公示及落户办理有关工做的通告。公示名单 形如:web
点击每一项明细能够得到积分具体数值,以最高分为例:面试
而后,稍微动点小技巧便可获取完整的 6032 条记录。若你想获取石头初步处理后的 excel 数据,可直接后台回复 “2020积分落户” 取得。编程
数据分析
输入就是下载处理后的 csv,每行分别为“姓名、出生年月、单位名称、积分分值”。json
本文将从 积分分数分布、公司分布、年龄分布 等几个方面作简单分析。后端
分数分布
咱们来看看积分分布状况,大部分人积分分布在 97~102 分之间。这个分数虽然没有高考相差那么夸张,但一个 0.01 也能相差很多人,好比有 98 人都得了 97.5 分。98.17 有 39 人,少 0.01 的 98.16 有 21 人。
➜ 积分落户2020数据分析 git:(master) ✗ awk '{print $5}' 10000.csv |sort | uniq -c | sort -nr -k 1 | head -n 10
98 97.50
84 97.25
80 97.33
73 97.17
72 97.21
67 98.50
66 98.00
61 97.46
57 98.46
54 97.13
➜ 积分落户2020数据分析 git:(master) ✗ awk '{print $5}' 10000.csv |sort | uniq -c | sort -nr -k 1 | grep 98.17
39 98.17
➜ 积分落户2020数据分析 git:(master) ✗ awk '{print $5}' 10000.csv |sort | uniq -c | sort -nr -k 1 | grep 98.16
21 98.16
➜ 积分落户2020数据分析 git:(master) ✗
按照上次首批积分落户数据分析 的老规矩,拿到这个文件,好比但愿你用最快的方法得到如下信息,你将会怎么作?
-
获取取得户口名额最多的top10公司 -
获取取得户口名额的人中姓氏最多的 -
获取年龄分布
固然,方法有不少,好比熟悉各类编程语言的,例如 python, php, java
等等写个简单的脚本程序,也能比较快获取答案。或者把相应的数据提取出来,放到 excel 中也能够。
若是你对 Shell 很熟悉,那真的是分分钟,应该是秒秒钟就能获取答案。本文不对 Shell 具体每一个命令作过多的解释,不熟悉的同窗能够直接 man $cmd
或者 $cmd --help
等等查看。
以前我也写过一篇名叫 Shell 助力开发效率提高 的文章,算是给经常使用的命令的经常使用参数作了一个解释和示例,有兴趣的同窗能够前往查阅。显然此次的输入数据比上次 首批的 json 数据 更简单。
获取取得户口名额最多的top10公司
直接awk
获得公司名字,对结果进行sort
排序进行去重uniq
统计获得重复次数,次时结果为重复次数 公司名
,再对第一列-k 1
重复数字进行按照数字排序逆序-nr
即 sort -nr -k 1
,最后取结果的前10行 head -n 10
。
➜ 首批积分落户 > grep 'unit' jifenluohu.json| cut -f2 -d: | sort | uniq -c | sort -nr -k 1 | head -n 10
137 "北京华为数字技术有限公司"
73 "中央电视台"
57 "北京首钢建设集团有限公司"
55 "百度在线网络技术(北京)有限公司"
48 "联想(北京)有限公司"
40 "北京外企人力资源服务有限公司"
40 "中国民生银行股份有限公司"
39 "国际商业机器(中国)投资有限公司"
29 "中国国际技术智力合做有限公司"
27 "华为技术有限公司北京研究所"
➜ 积分落户2020数据分析 git:(master) ✗ awk '{print $4}' 10000.csv |sort | uniq -c | sort -nr -k 1 | head -n 10
112 北京华为数字技术有限公司
71 中央电视台
28 北京外企人力资源服务有限公司
28 华为技术有限公司北京研究所
27 中国石油自然气股份有限公司管道北京输油气分公司
27 北京首钢建设集团有限公司
24 中国建筑第二工程局有限公司
24 腾讯科技(北京)有限公司
24 联想(北京)有限公司
23 中国新华航空集团有限公司
对比上次的结果看, “华为” 又是榜首,中央电视台又位列第二,百度下去了,腾讯起来了。(“北京外企人力资源服务有限公司”)挂靠在 FESCO 下的外企,仍然挤进前 10 了。
如下是有户口指标前 50 的公司分布,快看看你的公司是否在榜(完整公司排名名单请后台回复“2020积分落户”获取)。
获取取得户口名额的人中姓氏最多的
看看想经过积分落户,最好是姓啥,哈哈。
看结果仍是姓 "张, 王" 之类的最有戏。😁
➜ 首批积分落户 > grep '"name":' jifenluohu.json| sed 's|"name": "||g' | sed 's| ||g' | cut -c 1 | sort | uniq -c | sort -nr -k 1 | head -n 10
541 张
531 王
462 李
376 刘
205 陈
193 杨
166 赵
132 孙
95 郭
95 徐
➜ 积分落户2020数据分析 git:(master) ✗ awk '{print $2}' 10000.csv |cut -c 1 | sort | uniq -c | sort -nr -k 1 | head -n 10
553 王
477 李
457 张
369 刘
173 陈
168 杨
165 赵
126 孙
114 周
100 吴
对比这个数据,才发现真的是很牛 X,前 10 名的姓氏中,只有两个不同。估计这是否也符合整个中国的姓氏?哪里能拿到这部分数据?能够验证一下。
为了把石头的姓氏“唐”找出来,取了前 50 个,发现像平时不怎么常见的姓氏还能入围前 50,仍是颇有意思的呢。好比“于”、“丁”等。
获取户口名字中叫啥名最流行
这个数据没啥有意思的结论就不给了,看看重名的数据吧。
➜ 积分落户2020数据分析 git:(master) ✗ awk '{print $2}' 10000.csv | sort | uniq -c | sort -nr -k 1 | head -n 10
9 王鹏
6 王伟
6 张颖
5 赵静
5 石磊
5 王琳
5 王燕
5 王涛
5 王勇
5 孙涛
做为码农,必须得养成对本身获得结果进行自测的习惯,因此若是对本身的结果不够自信,能够正向去计算一下最终的结果。
例如能够简单grep
一下进行验证,叫 "王鹏" 的是否是9个。
➜ 积分落户2020数据分析 git:(master) ✗ grep '王鹏' 10000.csv
202000543 王鹏飞 1979-02 北京航天发射技术研究所 104.09
202001150 王鹏 1980-03 中国扶贫基金会 101.80
202001449 王鹏 1972-10 北京汇众博思信息科技有限公司 101.25
202002088 王鹏 1977-11 银河航天(北京)通讯技术有限公司 100.42
202002114 王鹏 1977-05 《中国经济周刊》杂志社 100.38
202002753 王鹏 1976-11 北京睿驰青果科技有限公司 99.66
202003455 王鹏 1983-04 北京独创股份有限公司 98.96
202003514 王鹏飞 1980-07 云粒智慧科技有限公司 98.92
202003694 王鹏 1976-05 上海创景计算机系统有限公司北京办事处 98.75
202003763 王鹏 1980-01 北京兴庆房地产土地评估有限公司 98.71
202004190 王鹏 1980-09 北京欧拓技术有限公司 98.34
获取年龄分布
# 拿到出生年后, 直接经过 awk 计算结果输出
➜ 首批积分落户 > grep '"idCard":' jifenluohu.json| cut -f2 -d: | cut -c 9-12 |awk '{print 2019-$1}' | sort | uniq -c
3 34
13 35
39 36
109 37
162 38
302 39
507 40
773 41
799 42
813 43
757 44
586 45
507 46
378 47
238 48
4 49
9 50
1 51
4 52
3 53
2 54
5 55
1 56
1 58
1 59
1 60
1 61
➜ 积分落户2020数据分析 git:(master) ✗ awk '{print $3}' 10000.csv | cut -f1 -d"-" |awk '{print 2020-$1}' | sort | uniq -c
1 32
3 35
30 36
83 37
290 38
468 39
644 40
741 41
808 42
751 43
636 44
507 45
365 46
329 47
108 48
107 49
85 50
27 51
6 52
10 53
9 54
8 55
6 56
5 57
3 58
2 59
上次数据最大 61 岁,最小 34 岁,今年最新的数据最小 32 岁,最大 59 岁。这个 32 岁的看来很牛 X。看看是谁?1988年出生。
➜ 积分落户2020数据分析 git:(master) ✗ grep '1988' 10000.csv
202004964 XX磊 1988-07 中煤北京煤矿机械有限责任公司 97.71
这位 XX 磊同窗确实优秀,(太具体了不太好,隐藏部分吧),看详细得分,由于有荣誉表彰 20 加分,查了下荣誉表彰指标里的“省部级及以上劳模”分为四类:全国劳模、享受全国劳模待遇人员、省部级劳模、享受省部级劳模待遇人员。
年龄分布以下所示,主要仍是集中在 38 ~ 47 岁之间。
其余
此次的数据就先分享到这里,若是你有兴趣,能够到网站上采集更多数据(例如各项分数的明细,例如教育背景、合法稳定就业住所等)进行分析。
另外,若是你想计算一下本身能得到多少分,能够直接到官网网站进行计算,地址为:http://fuwu.rsj.beijing.gov.cn/integraltool/tool/simulation
后记
以为本号分享的文章有价值,记得添加星标哦。周更很累,不要白 piao,须要来点正反馈,安排个 “一键三连”(点赞、在看、分享)如何?😝 这将是我持续输出优质文章的最强动力。

快快加入咱们——“阿里云-ECS/神龙计算平台” 招人啦
没想到 Shell 命令居然还能这么玩?| Shell 玩转大数据分析
程序猿石头
程序猿石头(ID: tangleithu),现任阿里巴巴技术专家,清华学渣,前大疆后端 Leader。用不一样的视角分享高质量技术文章,以每篇文章都让人有收获为目的,欢迎关注,交流和指导!扫码回复关键字 “1024” 获取程序员大厂面试指南。
本文分享自微信公众号 - 程序猿石头(tangleithu)。
若有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一块儿分享。