本文章是我学习 Stata 和 Python pandas, matplotlib 以及一些统计原理的笔记,是我的个人观点,仅供参考
本文作者 : 肥猪qwq 转载请注明出处

本次统计使用了 CFPS2020(China Family Panel Studies) 中的 家庭经济库(cfps2020famecon_202306),样本有限,仅供参考

本文仅用到了 fo3n 这个变量,即 工作收入总额(元/年),将来可能进行更详细的研究

这次使用了 Python 的 pandas 和 plt,代码如下

# 处理数据:移除非数值型数据
data_cleaned = pd.to_numeric(data['fo3n'], errors='coerce')

# 移除NaN值(代表原来的非数值型数据)
data_cleaned = data_cleaned.dropna()

# 绘制直方图
plt.figure(figsize=(10, 6))
plt.hist(data_cleaned, bins=30, color='blue', edgecolor='black')
plt.title('收入分布直方图')
plt.xlabel('收入')
plt.ylabel('频数')
plt.grid(True)
plt.show()


从图像来看,一些极端值影响了图像的可读性

data_filtered = data_cleaned[data_cleaned.between(0, 500000)]

我们利用这行代码只保留工资在 0-500000 元的数据,这一举措变相减小了直方图每个 bin 的宽度

现在看起来好得多,但是大部分数据堆积在了 0-20 万的位置
我们继续缩小范围到 20 万

收入在 0 到 20 万之间的平均收入为 56,415 元,中位数为 48,000 元,即 4,701.25 元每月 和 4000 元每月

本文作者 : 肥猪qwq 转载请注明出处

让我们陷入困境的不是无知,而是看似正确的谬误论断。