通过大数据发现正在恶化的中国人口结构

近些年来,总有媒体报道,中国在养老、医疗、教育各个行业出现的巨大的人力需求缺口,2017年左右,中国的“光棍危机”开始爆发,小编希望能够通过数据分析的方式搞清楚产生这系列问题的原因。

小编作为亿信华辰一家知名的BI产商的数据分析师,手边正好有很多可以利用的资源,数据全生命周期的产品均是唾手可得。

我先利用亿信i@Report的“数据抓取”功能,从国家统计局公开的数据中抓取了“全国分年龄、性别的人口”数据。

i@Report数据抓取方案

有了这份数据,离真相又近了一步,小编甚是开心~

数据抓取完成后全部存放在数据库中了。

i@Report数据抓取结果图

虽然从统计局抓取过来的数据信息非常完整,但我发现,抓取过来的数据包含特殊字符,比如空格;或者含有多余的信息,比如总计行,0-4岁,5-9岁等。这样的数据是一个汇总数据,而我需要的是明细数据,我需要对这份数据进行清洗、过滤。

我选择了亿信数据工厂产品,它是一款敏捷型数据处理工具,可以快速帮助用户处理、整合数据。

现在需要将特殊字符和合计行数据处理掉,数据工厂清洗、过滤组件正好可以利用上。

先新建一个ETL过程

数据工厂中的组件多达几十种,完全可以满足我的清洗、处理数据的需求。

再添加清洗、过滤规则

将“总 计”及“x-x岁”中的特殊字符清理。

处理规则也非常多,设置方式也很简单,还蛮容易上手的!

最后预览处理结果

数据工厂数据处理结果与源数据对比

看得出来A3字段的数据被处理干净,正是我想要的效果。

由于数据工厂和亿信BI进行过高度集成,数据工厂处理好数据可以直接输出一份方便亿信BI进行分析的模型,小编可以直接使用这份模型进行分析啦~

亿信BI是亿信华辰在多年数据分析挖掘、报表处理的技术经验基础上,运用先进的数据仓库、商务智能核心理论,经过多年的潜心研发而推出的商务智能产品软件。

它可视化展示效果是蛮强大的,内置几十种统计图、每种统计图又有很多种效果,通过组合设计可以搭配出上千种视觉效果,小编此次通过亿信BI的人口金字塔图分析了中国第四次、第五次、第六次人口普查的数据。(不理解金字塔图请查看文章结尾附录)

利用亿信BI制作的人口金字塔图

从左往右对比查看,可以发现三次人口普查新生儿出生数量占人口总数的比例每次都在缩减,而60岁以上的人口比例越来越大,人才主力军20-~40岁的壮年比例不够大,人口老龄化比较严重,这样一分析,就可以解释为啥当今社会存在人力需求缺口的现象,当然也应该还有其他的原因。

不过近两年,国家也开放了二胎政策,越来越多的家庭选择再生一个宝宝,也许对人口老龄化会起到一定的缓冲作用。

今年七夕节,公司有一批同事加班,一下子暴露了不少同事的单身狗属性,一些还是大龄男青年,是不是真的如报道中所说的“中国男性比女性要多很多”,一些男青年真的就找不到对象,于是,小编选取第六次人口普查数据做了一个对比。

亿信BI多系列线状图

蓝线表示男性各年龄段占总人口的比例,红线表示女性的占比,可以发现,年纪越小,男性比女性人数越多,看来“光棍危机”爆发是必然的,小编真是为男同志们捏一把汗!

结束语

有关人口的问题小编也仅分析了冰山一角,不过只要有数据作为支撑,结合亿信全面的产品线,也完全可以剖析出我们生活中各种现象背后的原因哒~

附录:

人口金字塔解释

我来评几句
登录后评论

已发表评论数()

相关站点

+订阅
热门文章