随笔——身边统计学和统计学

少于 1 分钟阅读时长

发布时间:

身边统计学可以说是时时刻刻发生在身边的「盲人摸象」:每个人都摸到了大象的一部分,也就是自己的生活碎片,却都坚称自己掌握了整头大象的样子。

样本(sample)

指的是总体中抽取的一部分元素构成的集合。

假设某县人口数1919810人,不重复抽样114514人的话,那么你会有

\[C_{1919810}^{114514} = \frac{1919810!}{114514!\times(1919810-114514)!}\]

种方法进行抽样。

样本统计量(statistics)

样本数据计算出来的一些量,是样本的函数

包括但不限于

  • $\bar{x}$(平均值)

  • $S$、 SD 或者 $\sigma$(标准差)

  • $n$ 样本量

等……

平均数

平均数分为两种:

第一种:算术平均数,就是大众理解的平均数

\[\bar{x} = \frac{x_1+x_i..+x_n}{n}\]

第二种:加权平均数

相较于前者,它更考虑每个数据所占的权重。就像我们的部分大学的考试,会分为平时分和考试分。一般不会直接按照第一种方法直接计算平均值,而是会加权平均计算其平均数

计算方法

\[\bar{x}_w = \frac{x_1w_1+x_iw_i+......x_nw_n}{w_1+w_i......+w_n}\]

方差

衡量一组数据离散程度或波动大小的统计指标,一般记为 或者 。

样本方差计算方法

\[S^2 = \frac{\sum{(x_i-\bar{x}})^2}{n-1}\]

总体方差的计算

\[\sigma^2=\frac{\sum{(x_i-\bar{x}})^2}{n}\]

标准差

和方差的作用一致,记为$S$或者$\sigma$

计算方法

\[s=\sqrt{s^2}\]

(样本标准差)

\[\sigma=\sqrt{\sigma^2}\]

(总体标准差)

当然光看这些你也许还不懂,仔细观察这个表格中的数据你就懂了

▲Fig1.左列大学生收入,差别很大,所以得出的标准差也大,右列企业员工收入基本集中于3000左右,因此标准差小

标准误

与标准差的区别是,标准误说的是:「样本统计量(如均值)的离散程度」

公式则是

\[\sigma_{\bar{x}} = \frac{\sigma}{\sqrt{n}}\]

或者

\[SE=\frac{s}{\sqrt{n}}\]

当总体标准差 $\sigma$未知时,我们用 $s$作为估计值,此时计算出的 $SE$是估计的标准误。

中位数

一组数据中按大小排序取最中间的值,一般记为$m_{50}$ 分位数,类似的还有$m_{75}$(位于一组从小到大排序的75%大小位置)和$m_{25}$分位数

和平均数的区别?

中位数相较于平均数来说不容易受到极端值影响。如下图,左列大学生收入可以看见明显低于D企业,只有少数样本收入极高(你是一个一个一个大学生啊恼),得到的平均值也很高,然而中位数确很难看,而D企业的收入平均值就正常很多,中位数和平均数一样。

样本量

指的是什么不用我多说了,一般记为$n$,重点来到了样本量的计算

一般情况下,样本量可以这么计算

\[n = \frac{(Z_{\alpha/2})^{2}\sigma^{2}}{E^2}\]

其中: $Z$对应的就是置信区间,这个值一般是1.96(对应95%的置信区间), $\sigma$则是总体标准差(如果这个值不知道可以用$s$代替), $E$则是允许存在的误差。 $\alpha$ 则是估计总体参数时,置信区间不包含真实参数的概率,也就是犯第一类错误(弃真错误)的概率。

置信区间和$Z$的对照表:

置信度置信水平(Z)α/2对应的值
95%0.050.0251.96
99%0.010.0052.576
99.9%0.0010.00053.291

当然也有特例可以这么计算

\[n = \frac{Z^2p\cdot(1-p)}{E^2}\]

当研究的变量是“成功/失败”时(例如:合格率、支持率、患病率),常用 1 表示“成功”,0 表示“失败”。设总体成功比例为 $p$,则这个二元变量的总体方差为:

\[\sigma^{2} = p(1-p)\]

这就是这个「特例」 的由来

身边统计学

一般情况下,普通人(包括我自己也可能会犯类似错误)在日常生活、网络讨论中,如何不自觉地使用“伪抽样调查”得出荒谬结论。

先从随机抽样谈起

按照随机的原则,即保证总体中每一个对象都有已知的、非零的概率被选入作为研究的对象,保证样本的代表性

——摘自百度百科

随机抽样的第一步是定义总体,然后建立抽样框1 ,此时我们需要解答一个问题——身边统计学是否能够满足具有清晰的总体?

答案显而易见:没有

  • 你身边的人是谁?总体是谁?全中国网民吗?还是你所在城市?你根本不知道。你的身边只是全国社交网络的一小部分。你甚至无法描述你的样本代表了哪一群人,更谈不上「推论总体」

同时,随机抽样要求使用随机数表、抽签、计算机生成随机数等工具。然而身边统计学一般会存在以下情形

  1. 自愿响应抽样——调查者发出号召,让个体主动决定是否参与。然而这种抽样方式参与与否由受访者自己决定,而不是由调查者随机抽取。只有对话题有强烈兴趣、有极端观点、或者闲着没事干的人才会响应。这相当于你只听到了“嗓门大的人”的声音,而沉默的大多数被你自动忽略。2 前几年微博就有人用这种错误的调查方法得出了「85%的女性遭遇过性骚扰」的离谱结论,如果这还不够的话——

1936年《文学文摘》总统选举预测。该杂志寄出1000万份明信片,收回230万份,预测兰登胜选。结果罗斯福以压倒性优势获胜。为什么?因为明信片只寄给了该杂志的读者、电话用户、汽车注册者——这些人在大萧条时期属于相对富裕阶层,政治倾向偏共和党。而穷人、民主党支持者根本没有机会被“邀请”。这就是自愿响应(虽然这里是邮寄,但本质是“只有愿意回寄的人”才进入样本,且邀请框本身就有偏差)。

  1. 滚雪球抽样——先找到少数几个“种子”受访者,然后请他们介绍更多的人,如此层层扩散。样本依赖社交网络,而社交网络是高度同质化的。你的朋友的朋友,大概率和你朋友观点相似(物以类聚)。初始“种子”的选择本身就是非随机的,后续所有样本都带有初始偏差的“遗传基因”。

而还有更阴的——无应答率

  • 你明明按照随机抽样的方法发出了邀请,但有一部分人死活不搭理你,而你假装他们不存在,直接拿回答者的数据当全体。简单说:你问的是随机抽的100个人,但只有30个人回了你。你用这30个人的答案去代表那100个人,甚至代表整个总体——这就是无应答偏差。

无应答不是随机的,它往往与调查的核心变量相关。 你越想知道的事,不回答的人可能越有“秘密”。

假设总体真实支持率是50%,无应答者的支持率与应答者相差d(例如应答者支持率70%,无应答者30%,则d=40%)。那么不同应答率下,你观测到的支持率会是多少?公式:真实总体支持率 = 应答率×70% + (1-应答率)×30%

应答率90%:真实=0.9×70%+0.1×30%=66% → 偏差+4%

应答率70%:真实=0.7×70%+0.3×30%=58% → 偏差+12%

应答率50%:真实=0.5×70%+0.5×30%=50% → 偏差+20%

应答率30%:真实=0.3×70%+0.7×30%=42% → 偏差+28%

应答率越低,同样的无应答差异导致的偏差越大。身边统计学的典型应答率(10%~30%)下,偏差可以大到完全颠倒结论。

有些人发了个问卷,回收率15%,然后自信满满地写「调查显示……」。我问他:那85%没填的人呢?

他说:

他们不填关我屁事

——关你的事大了。那85%可能恰恰是因为太不满意懒得说、太忙没空理你、太穷没网上。你把他们的沉默当成赞成,把他们的缺席当成弃权,把他们的不回答当成不存在。

统计学里有一条铁律:

沉默的数据往往比说话的数据更重要。

下次做调查,先问问自己:如果那80%没回我的人都和回了的人意见相反,我的结论还站得住脚吗?如果站不住,那就别发出来误导人了

说完了这些,我还没说最要命的

样本量

你身边调查的结果真的有可能有足够的样本量吗?回顾前文——标准误的公式

\[SE=\frac{s}{\sqrt{n}}\]

其中$n$是样本量,依据除法的基本性质可得,当$s$不变,$n$缩小时,带来的误差就会越来越大。你的样本均值离总体均值可能差出十万八千里。

注释

  1. 抽样框又称“抽样框架”、“抽样结构”,是指对可以选择作为样本的总体单位列出名册或排序编号,以确定总体的抽样范围和结构。 

  2. 微博[@梁钰stacey](https://weibo.com/u/1306934677)在2019年主持的调查,这是[相关截图](https://pica.zhimg.com/v2-61c34e7fe2b5a497b02e13f68c71d974_r.jpg)