随笔——身边统计学和统计学

少于 1 分钟阅读时长

发布时间： April 05, 2026

身边统计学可以说是时时刻刻发生在身边的「盲人摸象」：每个人都摸到了大象的一部分，也就是自己的生活碎片，却都坚称自己掌握了整头大象的样子。

样本（sample）

指的是总体中抽取的一部分元素构成的集合。

假设某县人口数1919810人，不重复抽样114514人的话，那么你会有

\[C_{1919810}^{114514} = \frac{1919810!}{114514!\times(1919810-114514)!}\]

种方法进行抽样。

样本统计量（statistics）

样本数据计算出来的一些量，是样本的函数

包括但不限于

$\bar{x}$（平均值）
$S$、 SD 或者 $\sigma$（标准差）
$n$ 样本量

等……

平均数

平均数分为两种：

第一种：算术平均数，就是大众理解的平均数

\[\bar{x} = \frac{x_1+x_i..+x_n}{n}\]

第二种：加权平均数

相较于前者，它更考虑每个数据所占的权重。就像我们的部分大学的考试，会分为平时分和考试分。一般不会直接按照第一种方法直接计算平均值，而是会加权平均计算其平均数

计算方法

\[\bar{x}_w = \frac{x_1w_1+x_iw_i+......x_nw_n}{w_1+w_i......+w_n}\]

方差

衡量一组数据离散程度或波动大小的统计指标，一般记为或者。

样本方差计算方法

\[S^2 = \frac{\sum{(x_i-\bar{x}})^2}{n-1}\]

总体方差的计算

\[\sigma^2=\frac{\sum{(x_i-\bar{x}})^2}{n}\]

标准差

和方差的作用一致，记为$S$或者$\sigma$

计算方法

\[s=\sqrt{s^2}\]

（样本标准差）

和

\[\sigma=\sqrt{\sigma^2}\]

（总体标准差）

当然光看这些你也许还不懂，仔细观察这个表格中的数据你就懂了

^{▲Fig1.左列大学生收入，差别很大，所以得出的标准差也大，右列企业员工收入基本集中于3000左右，因此标准差小}

标准误

与标准差的区别是，标准误说的是：「样本统计量（如均值）的离散程度」

公式则是

\[\sigma_{\bar{x}} = \frac{\sigma}{\sqrt{n}}\]

或者

\[SE=\frac{s}{\sqrt{n}}\]

当总体标准差 $\sigma$未知时，我们用 $s$作为估计值，此时计算出的 $SE$是估计的标准误。

中位数

一组数据中按大小排序取最中间的值，一般记为$m_{50}$ 分位数，类似的还有$m_{75}$（位于一组从小到大排序的75%大小位置）和$m_{25}$分位数

和平均数的区别？

中位数相较于平均数来说不容易受到极端值影响。如下图，左列大学生收入可以看见明显低于D企业，只有少数样本收入极高（你是一个一个一个大学生啊恼），得到的平均值也很高，然而中位数确很难看，而D企业的收入平均值就正常很多，中位数和平均数一样。

样本量

指的是什么不用我多说了，一般记为$n$，重点来到了样本量的计算

一般情况下，样本量可以这么计算

\[n = \frac{(Z_{\alpha/2})^{2}\sigma^{2}}{E^2}\]

其中： $Z$对应的就是置信区间，这个值一般是1.96（对应95%的置信区间）， $\sigma$则是总体标准差（如果这个值不知道可以用$s$代替）， $E$则是允许存在的误差。 $\alpha$ 则是估计总体参数时，置信区间不包含真实参数的概率，也就是犯第一类错误（弃真错误）的概率。

置信区间和$Z$的对照表：

置信度	置信水平（Z）	α/2	对应的值
95%	0.05	0.025	1.96
99%	0.01	0.005	2.576
99.9%	0.001	0.0005	3.291

当然也有特例可以这么计算

\[n = \frac{Z^2p\cdot(1-p)}{E^2}\]

当研究的变量是“成功/失败”时（例如：合格率、支持率、患病率），常用 1 表示“成功”，0 表示“失败”。设总体成功比例为 $p$，则这个二元变量的总体方差为：

\[\sigma^{2} = p(1-p)\]

这就是这个「特例」的由来

身边统计学

一般情况下，普通人（包括我自己也可能会犯类似错误）在日常生活、网络讨论中，如何不自觉地使用“伪抽样调查”得出荒谬结论。

先从随机抽样谈起

按照随机的原则，即保证总体中每一个对象都有已知的、非零的概率被选入作为研究的对象，保证样本的代表性
——摘自百度百科

随机抽样的第一步是定义总体，然后建立抽样框¹ ，此时我们需要解答一个问题——身边统计学是否能够满足具有清晰的总体？

答案显而易见：没有

你身边的人是谁？总体是谁？全中国网民吗？还是你所在城市？你根本不知道。你的身边只是全国社交网络的一小部分。你甚至无法描述你的样本代表了哪一群人，更谈不上「推论总体」

同时，随机抽样要求使用随机数表、抽签、计算机生成随机数等工具。然而身边统计学一般会存在以下情形

自愿响应抽样——调查者发出号召，让个体主动决定是否参与。然而这种抽样方式参与与否由受访者自己决定，而不是由调查者随机抽取。只有对话题有强烈兴趣、有极端观点、或者闲着没事干的人才会响应。这相当于你只听到了“嗓门大的人”的声音，而沉默的大多数被你自动忽略。² 前几年微博就有人用这种错误的调查方法得出了「85%的女性遭遇过性骚扰」的离谱结论，如果这还不够的话——

1936年《文学文摘》总统选举预测。该杂志寄出1000万份明信片，收回230万份，预测兰登胜选。结果罗斯福以压倒性优势获胜。为什么？因为明信片只寄给了该杂志的读者、电话用户、汽车注册者——这些人在大萧条时期属于相对富裕阶层，政治倾向偏共和党。而穷人、民主党支持者根本没有机会被“邀请”。这就是自愿响应（虽然这里是邮寄，但本质是“只有愿意回寄的人”才进入样本，且邀请框本身就有偏差）。

滚雪球抽样——先找到少数几个“种子”受访者，然后请他们介绍更多的人，如此层层扩散。样本依赖社交网络，而社交网络是高度同质化的。你的朋友的朋友，大概率和你朋友观点相似（物以类聚）。初始“种子”的选择本身就是非随机的，后续所有样本都带有初始偏差的“遗传基因”。

而还有更阴的——无应答率

你明明按照随机抽样的方法发出了邀请，但有一部分人死活不搭理你，而你假装他们不存在，直接拿回答者的数据当全体。简单说：你问的是随机抽的100个人，但只有30个人回了你。你用这30个人的答案去代表那100个人，甚至代表整个总体——这就是无应答偏差。

无应答不是随机的，它往往与调查的核心变量相关。你越想知道的事，不回答的人可能越有“秘密”。

假设总体真实支持率是50%，无应答者的支持率与应答者相差d（例如应答者支持率70%，无应答者30%，则d=40%）。那么不同应答率下，你观测到的支持率会是多少？公式：真实总体支持率 = 应答率×70% + (1-应答率)×30%

应答率90%：真实=0.9×70%+0.1×30%=66% → 偏差+4%

应答率70%：真实=0.7×70%+0.3×30%=58% → 偏差+12%

应答率50%：真实=0.5×70%+0.5×30%=50% → 偏差+20%

应答率30%：真实=0.3×70%+0.7×30%=42% → 偏差+28%

应答率越低，同样的无应答差异导致的偏差越大。身边统计学的典型应答率（10%~30%）下，偏差可以大到完全颠倒结论。

有些人发了个问卷，回收率15%，然后自信满满地写「调查显示……」。我问他：那85%没填的人呢？

他说：

他们不填关我屁事

——关你的事大了。那85%可能恰恰是因为太不满意懒得说、太忙没空理你、太穷没网上。你把他们的沉默当成赞成，把他们的缺席当成弃权，把他们的不回答当成不存在。

统计学里有一条铁律：

沉默的数据往往比说话的数据更重要。

下次做调查，先问问自己：如果那80%没回我的人都和回了的人意见相反，我的结论还站得住脚吗？如果站不住，那就别发出来误导人了。

说完了这些，我还没说最要命的

样本量

你身边调查的结果真的有可能有足够的样本量吗？回顾前文——标准误的公式

\[SE=\frac{s}{\sqrt{n}}\]

其中$n$是样本量，依据除法的基本性质可得，当$s$不变，$n$缩小时，带来的误差就会越来越大。你的样本均值离总体均值可能差出十万八千里。

注释

抽样框又称“抽样框架”、“抽样结构”，是指对可以选择作为样本的总体单位列出名册或排序编号，以确定总体的抽样范围和结构。 ↩
微博[@梁钰stacey](https://weibo.com/u/1306934677)在2019年主持的调查，这是[相关截图](https://pica.zhimg.com/v2-61c34e7fe2b5a497b02e13f68c71d974_r.jpg) ↩

分享到

Bluesky Facebook LinkedIn Mastodon X (formerly Twitter)

mxkkkk

随笔——身边统计学和统计学

样本（sample）

样本统计量（statistics）

平均数

方差

标准差

标准误

中位数

样本量

身边统计学

注释

分享到

你可能感兴趣的

出生性别比的最新数据

分性别死亡年龄中位数变化趋势

女权本质是畸形的父权

K228次列车月经弄脏卧铺事件研究

mxkkkk

样本（sample）

样本统计量（statistics）

平均数

方差

标准差

标准误

中位数

样本量

身边统计学

注释

分享到

你可能感兴趣的

出生性别比的最新数据

分性别 死亡年龄中位数变化趋势

女权本质是畸形的父权

K228次列车月经弄脏卧铺事件研究

分性别死亡年龄中位数变化趋势