基于 CFPS 数据的中国家庭工作性收入研究

feizhuqwq

2023 年 12 月 08 日

2093 次浏览

1 条评论

1296字数

默认分类

本文章是我学习 Stata 和 Python pandas, matplotlib 以及一些统计原理的笔记，是我的个人观点，仅供参考
本文作者 : 肥猪qwq 转载请注明出处

本次统计使用了 CFPS2020(China Family Panel Studies) 中的家庭经济库(cfps2020famecon_202306)，样本有限，仅供参考

本文仅用到了 fo3n 这个变量，即工作收入总额（元/年），将来可能进行更详细的研究

这次使用了 Python 的 pandas 和 plt，代码如下

# 处理数据：移除非数值型数据
data_cleaned = pd.to_numeric(data['fo3n'], errors='coerce')

# 移除NaN值（代表原来的非数值型数据）
data_cleaned = data_cleaned.dropna()

# 绘制直方图
plt.figure(figsize=(10, 6))
plt.hist(data_cleaned, bins=30, color='blue', edgecolor='black')
plt.title('收入分布直方图')
plt.xlabel('收入')
plt.ylabel('频数')
plt.grid(True)
plt.show()

从图像来看，一些极端值影响了图像的可读性

data_filtered = data_cleaned[data_cleaned.between(0, 500000)]

我们利用这行代码只保留工资在 0-500000 元的数据，这一举措变相减小了直方图每个 bin 的宽度

现在看起来好得多，但是大部分数据堆积在了 0-20 万的位置
我们继续缩小范围到 20 万

收入在 0 到 20 万之间的平均收入为 56,415 元，中位数为 48,000 元，即 4,701.25 元每月和 4000 元每月

本文作者 : 肥猪qwq 转载请注明出处

基于 CFPS 数据的中国家庭工作性收入研究

feizhuqwq • 2023 年 12 月 08 日

发表评论 取消回复 我们使用全局缓存来缓解 DDoS 攻击，您的评论会被延迟显示，并且你不会收到发送成功的提示。

1 条评论

基于 CFPS 数据的中国家庭工作性收入研究

发表评论取消回复
我们使用全局缓存来缓解 DDoS 攻击，您的评论会被延迟显示，并且你不会收到发送成功的提示。