随笔——身边统计学和统计学
发布时间:
身边统计学可以说是时时刻刻发生在身边的「盲人摸象」:每个人都摸到了大象的一部分,也就是自己的生活碎片,却都坚称自己掌握了整头大象的样子。
样本(sample)
指的是总体中抽取的一部分元素构成的集合。
假设某县人口数1919810人,不重复抽样114514人的话,那么你会有
\[C_{1919810}^{114514} = \frac{1919810!}{114514!\times(1919810-114514)!}\]种方法进行抽样。
样本统计量(statistics)
样本数据计算出来的一些量,是样本的函数
包括但不限于
$\bar{x}$(平均值)
$S$、 SD 或者 $\sigma$(标准差)
$n$ 样本量
等……
平均数
平均数分为两种:
第一种:算术平均数,就是大众理解的平均数
\[\bar{x} = \frac{x_1+x_i..+x_n}{n}\]第二种:加权平均数
相较于前者,它更考虑每个数据所占的权重。就像我们的部分大学的考试,会分为平时分和考试分。一般不会直接按照第一种方法直接计算平均值,而是会加权平均计算其平均数
计算方法
\[\bar{x}_w = \frac{x_1w_1+x_iw_i+......x_nw_n}{w_1+w_i......+w_n}\]方差
衡量一组数据离散程度或波动大小的统计指标,一般记为 或者 。
样本方差计算方法
\[S^2 = \frac{\sum{(x_i-\bar{x}})^2}{n-1}\]总体方差的计算
\[\sigma^2=\frac{\sum{(x_i-\bar{x}})^2}{n}\]标准差
和方差的作用一致,记为$S$或者$\sigma$
计算方法
\[s=\sqrt{s^2}\](样本标准差)
和
\[\sigma=\sqrt{\sigma^2}\](总体标准差)
当然光看这些你也许还不懂,仔细观察这个表格中的数据你就懂了
▲Fig1.左列大学生收入,差别很大,所以得出的标准差也大,右列企业员工收入基本集中于3000左右,因此标准差小
标准误
与标准差的区别是,标准误说的是:「样本统计量(如均值)的离散程度」
公式则是
\[\sigma_{\bar{x}} = \frac{\sigma}{\sqrt{n}}\]或者
\[SE=\frac{s}{\sqrt{n}}\]当总体标准差 $\sigma$未知时,我们用 $s$作为估计值,此时计算出的 $SE$是估计的标准误。
中位数
一组数据中按大小排序取最中间的值,一般记为$m_{50}$ 分位数,类似的还有$m_{75}$(位于一组从小到大排序的75%大小位置)和$m_{25}$分位数
和平均数的区别?
中位数相较于平均数来说不容易受到极端值影响。如下图,左列大学生收入可以看见明显低于D企业,只有少数样本收入极高(你是一个一个一个大学生啊恼),得到的平均值也很高,然而中位数确很难看,而D企业的收入平均值就正常很多,中位数和平均数一样。
样本量
指的是什么不用我多说了,一般记为$n$,重点来到了样本量的计算
一般情况下,样本量可以这么计算
\[n = \frac{(Z_{\alpha/2})^{2}\sigma^{2}}{E^2}\]其中: $Z$对应的就是置信区间,这个值一般是1.96(对应95%的置信区间), $\sigma$则是总体标准差(如果这个值不知道可以用$s$代替), $E$则是允许存在的误差。 $\alpha$ 则是估计总体参数时,置信区间不包含真实参数的概率,也就是犯第一类错误(弃真错误)的概率。
置信区间和$Z$的对照表:
| 置信度 | 置信水平(Z) | α/2 | 对应的值 |
|---|---|---|---|
| 95% | 0.05 | 0.025 | 1.96 |
| 99% | 0.01 | 0.005 | 2.576 |
| 99.9% | 0.001 | 0.0005 | 3.291 |
当然也有特例可以这么计算
\[n = \frac{Z^2p\cdot(1-p)}{E^2}\]当研究的变量是“成功/失败”时(例如:合格率、支持率、患病率),常用 1 表示“成功”,0 表示“失败”。设总体成功比例为 $p$,则这个二元变量的总体方差为:
\[\sigma^{2} = p(1-p)\]这就是这个「特例」 的由来
身边统计学
一般情况下,普通人(包括我自己也可能会犯类似错误)在日常生活、网络讨论中,如何不自觉地使用“伪抽样调查”得出荒谬结论。
先从随机抽样谈起
按照随机的原则,即保证总体中每一个对象都有已知的、非零的概率被选入作为研究的对象,保证样本的代表性
——摘自百度百科
随机抽样的第一步是定义总体,然后建立抽样框1 ,此时我们需要解答一个问题——身边统计学是否能够满足具有清晰的总体?
答案显而易见:没有
- 你身边的人是谁?总体是谁?全中国网民吗?还是你所在城市?你根本不知道。你的身边只是全国社交网络的一小部分。你甚至无法描述你的样本代表了哪一群人,更谈不上「推论总体」
同时,随机抽样要求使用随机数表、抽签、计算机生成随机数等工具。然而身边统计学一般会存在以下情形
- 自愿响应抽样——调查者发出号召,让个体主动决定是否参与。然而这种抽样方式参与与否由受访者自己决定,而不是由调查者随机抽取。只有对话题有强烈兴趣、有极端观点、或者闲着没事干的人才会响应。这相当于你只听到了“嗓门大的人”的声音,而沉默的大多数被你自动忽略。2 前几年微博就有人用这种错误的调查方法得出了「85%的女性遭遇过性骚扰」的离谱结论,如果这还不够的话——
1936年《文学文摘》总统选举预测。该杂志寄出1000万份明信片,收回230万份,预测兰登胜选。结果罗斯福以压倒性优势获胜。为什么?因为明信片只寄给了该杂志的读者、电话用户、汽车注册者——这些人在大萧条时期属于相对富裕阶层,政治倾向偏共和党。而穷人、民主党支持者根本没有机会被“邀请”。这就是自愿响应(虽然这里是邮寄,但本质是“只有愿意回寄的人”才进入样本,且邀请框本身就有偏差)。
- 滚雪球抽样——先找到少数几个“种子”受访者,然后请他们介绍更多的人,如此层层扩散。样本依赖社交网络,而社交网络是高度同质化的。你的朋友的朋友,大概率和你朋友观点相似(物以类聚)。初始“种子”的选择本身就是非随机的,后续所有样本都带有初始偏差的“遗传基因”。
而还有更阴的——无应答率
- 你明明按照随机抽样的方法发出了邀请,但有一部分人死活不搭理你,而你假装他们不存在,直接拿回答者的数据当全体。简单说:你问的是随机抽的100个人,但只有30个人回了你。你用这30个人的答案去代表那100个人,甚至代表整个总体——这就是无应答偏差。
无应答不是随机的,它往往与调查的核心变量相关。 你越想知道的事,不回答的人可能越有“秘密”。
假设总体真实支持率是50%,无应答者的支持率与应答者相差d(例如应答者支持率70%,无应答者30%,则d=40%)。那么不同应答率下,你观测到的支持率会是多少?公式:真实总体支持率 = 应答率×70% + (1-应答率)×30%
应答率90%:真实=0.9×70%+0.1×30%=66% → 偏差+4%
应答率70%:真实=0.7×70%+0.3×30%=58% → 偏差+12%
应答率50%:真实=0.5×70%+0.5×30%=50% → 偏差+20%
应答率30%:真实=0.3×70%+0.7×30%=42% → 偏差+28%
应答率越低,同样的无应答差异导致的偏差越大。身边统计学的典型应答率(10%~30%)下,偏差可以大到完全颠倒结论。
有些人发了个问卷,回收率15%,然后自信满满地写「调查显示……」。我问他:那85%没填的人呢?
他说:
他们不填关我屁事
——关你的事大了。那85%可能恰恰是因为太不满意懒得说、太忙没空理你、太穷没网上。你把他们的沉默当成赞成,把他们的缺席当成弃权,把他们的不回答当成不存在。
统计学里有一条铁律:
沉默的数据往往比说话的数据更重要。
下次做调查,先问问自己:如果那80%没回我的人都和回了的人意见相反,我的结论还站得住脚吗?如果站不住,那就别发出来误导人了。
说完了这些,我还没说最要命的
样本量
你身边调查的结果真的有可能有足够的样本量吗?回顾前文——标准误的公式
\[SE=\frac{s}{\sqrt{n}}\]其中$n$是样本量,依据除法的基本性质可得,当$s$不变,$n$缩小时,带来的误差就会越来越大。你的样本均值离总体均值可能差出十万八千里。
.jpg)