作者
石头哥
来源
程序猿石头(id:tangleithu)
图by:石头
泸沽湖背景
就在昨天,一年一度的北京积分落户结果出来了,我们照旧来看看今年(年)的数据情况。
在看这篇文章之前,你可以通过如下文章来得到石头是如何快速拿到这些数据分析结果的:
优秀的程序员是如何利用工具来提升工作效率的?Shell助力开发效率提升提升开发效率N倍的20+命令行神器!(附demo)数据可以通过北京市人力资源和社会保障局官方网站下载获取,关于年积分落户公示及落户办理有关工作的通告。公示名单形如:
年积分落户公式名单
点击每一项明细可以获得积分具体数值,以最高分为例:
积分落户最高分明细
然后,稍微动点小技巧即可获取完整的条记录。
数据分析
输入就是下载处理后的csv,每行分别为“姓名、出生年月、单位名称、积分分值”。
本文将从积分分数分布、公司分布、年龄分布等几个方面做简单分析。
年积分落户数据CSV
分数分布
我们来看看积分分布情况,大部分人积分分布在97~分之间。这个分数虽然没有高考相差那么夸张,但一个0.01也能相差不少人,比如有98人都得了97.5分。98.17有39人,少0.01的98.16有21人。
1积分落户数据分析git:(master)awk{print$5}.csv
sort
uniq-c
sort-nr-k1
head-n9897..........积分落户数据分析git:(master)awk{print$5}.csv
sort
uniq-c
sort-nr-k1
grep98..积分落户数据分析git:(master)awk{print$5}.csv
sort
uniq-c
sort-nr-k1
grep98..积分落户数据分析git:(master)
年北京积分落户积分分布
按照上次《首批积分落户数据分析》的老规矩,拿到这个文件,比如希望你用最快的方法获得以下信息,你将会怎么做?
获取取得户口名额最多的top10公司获取取得户口名额的人中姓氏最多的获取年龄分布当然,方法有很多,比如熟悉各种编程语言的,例如Python,Php,Java等等写个简单的脚本程序,也能比较快获取答案。或者把相应的数据提取出来,放到Excel中也可以。
如果你对Shell很熟悉,那真的是分分钟,应该是秒秒钟就能获取答案。本文不对Shell具体每个命令做过多的解释,不熟悉的同学可以直接man$cmd或者$cmd--help等等查看。
之前我也写过一篇名叫《Shell助力开发效率提升》的文章,算是给常用的命令的常用参数做了一个解释和示例,有兴趣的同学可以前往查阅。显然这次的输入数据比上次《首批的json数据》更简单。
获取取得户口名额最多的top10公司
直接awk得到公司名字,对结果进行sort排序进行去重uniq统计得到重复次数,次时结果为重复次数公司名,再对第一列-k1重复数字进行按照数字排序逆序-nr即sort-nr-k1,最后取结果的前10行head-n10。
1首批积分落户grepunitjifenluohu.json
cut-f2-d:
sort
uniq-c
sort-nr-k1
head-n137北京华为数字技术有限公司中央电视台北京首钢建设集团有限公司百度在线网络技术(北京)有限公司联想(北京)有限公司北京外企人力资源服务有限公司中国民生银行股份有限公司国际商业机器(中国)投资有限公司9中国国际技术智力合作有限公司华为技术有限公司北京研究所积分落户数据分析git:(master)awk{print$4}.csv
sort
uniq-c
sort-nr-k1
head-n北京华为数字技术有限公司中央电视台北京外企人力资源服务有限公司华为技术有限公司北京研究所中国石油天然气股份有限公司管道北京输油气分公司北京首钢建设集团有限公司中国建筑第二工程局有限公司腾讯科技(北京)有限公司联想(北京)有限公司中国新华航空集团有限公司
对比上次的结果看,“华为”又是榜首,中央电视台又位列第二,百度下去了,腾讯起来了。(“北京外企人力资源服务有限公司”)挂靠在FESCO下的外企,仍然挤进前10了。
以下是有户口指标前50的公司分布,快看看你的公司是否在榜(完整公司排名名单请后台回复“积分落户”获取)。
年北京积分落户公司分布
获取取得户口名额的人中姓氏最多的
看看想通过积分落户,最好是姓啥,哈哈
。
看结果还是姓张,王之类的最有戏。
1首批积分落户grepname:jifenluohu.json
seds
name:
g
seds
g
cut-c1
sort
uniq-c
sort-nr-k1
head-n541张王李刘陈杨赵孙郭徐积分落户数据分析git:(master)awk{print$2}.csv
cut-c1
sort
uniq-c
sort-nr-k1
head-n王李16张刘陈杨赵孙周吴
对比这个数据,才发现真的是很牛X,前10名的姓氏中,只有两个不一样。估计这是否也符合整个中国的姓氏?哪里能拿到这部分数据?可以验证一下。
北京积分落户姓氏分布
为了把石头的姓氏“唐”找出来,取了前50个,发现像平时不怎么常见的姓氏还能入围前50,还是很有意思的呢。比如“于”、“丁”等。
获取户口名字中叫啥名最流行
这个数据没啥有意思的结论就不给了,看看重名的数据吧
。
1积分落户数据分析git:(master)awk{print$2}.csv
sort
uniq-c
sort-nr-k1
head-n9王鹏36王伟46张颖55赵静65石磊75王琳85王燕95王涛王勇孙涛
作为码农,必须得养成对自己得到结果进行自测的习惯,所以如果对自己的结果不够自信,可以正向去计算一下最终的结果。
例如可以简单grep一下进行验证,叫王鹏的是不是9个。
1积分落户数据分析git:(master)grep王鹏.csv200543王鹏飞-02北京航天发射技术研究所.09300王鹏-03中国扶贫基金会.80401449王鹏-10北京汇众博思信息科技有限公司.25502088王鹏-11银河航天(北京)通信技术有限公司.42602114王鹏-05《中国经济周刊》杂志社.38702753王鹏-11北京睿驰青果科技有限公司99.66803455王鹏-04北京首创股份有限公司98.96903514王鹏飞-07云粒智慧科技有限公司98.923694王鹏-05上海创景计算机系统有限公司北京办事处98.751103763王鹏-01北京兴庆房地产土地评估有限公司98.711204190王鹏-09北京欧拓技术有限公司98.34
获取年龄分布
1#拿到出生年后,直接通过awk计算结果输出2首批积分落户grepidCard:jifenluohu.json
cut-f2-d:
cut-c9-12
awk{print-$1}
sort
uniq-c38830239950107734111732542425131积分落户数据分析git:(master)awk{print$3}.csv
cut-f1-d-
awk{print-$1}
sort
uniq-c303635836652513529545384656575635857
1积分落户数据分析git:(master)grep.csv204964XX磊-07中煤北京煤矿机械有限责任公司97.71
年积分落户指标年龄最小者
年龄分布如下所示,主要还是集中在38~47岁之间。
积分落户年龄分布
其他
这次的数据就先分享到这里,如果你有兴趣,可以到网站上采集更多数据(例如各项分数的明细,例如教育背景、合法稳定就业住所等)进行分析。
另外,如果你想计算一下自己能获得多少分,可以直接到