既然是「方差」,所以很自然要计算一个「差」,然后计算一个「方」,「差」就是数据跟平均值的差,然后对它求平方。
把这样一个平方看成是与平均值之间的某种距离,然后对它求一个平均就可以了。
你可能马上就会意识到,上面的这个说法似乎有不严格的地方。
例如,在「样本方差公式」里,最引人注目的,就是这个公式里的「平均」不是简单去除以样本量,而是要去除以样本量减去1这样一个奇怪的数字。
这其实是这个问题的关键。
为什么会出现这样奇怪的情况呢?如果我就是要用数据量 n,那么会造成怎样的后果呢?这就要仔细来看看有关的推导了,注意看下面的一个推导(引用自维基百科):在这个推导里,我们就直接用的是除以 n,然而在推导下来之后我们会发现,除非是在统计估计中,估计的 X 平均跟真实的平均值完全相等时,我们才能得到正确的方差,否则,如果我们除以 n,得到的方差总比真实的方差小那么一点点,这一点点差别就是「偏差」。
使用 n-1,就意味着我们在进行的是「无偏估计」。
还有一种更直观的理解,因为在计算方差的时候我们用到了平均值,而一旦有了平均值,原始数据的 n 个数就不再独立了,例如我知道,两个数字的平均值是 60,然后我又知道了其中一个数字是 58,另一个数字我不看就知道肯定是 62。
如果原始数据有 n 个,在计算的时候还知道了(估计的)平均值,那么这 n 个数据里,真正独立的只有 n - 1 个,所以应该用 n - 1。
先回答问题。
样本方差是为无偏估计总体方差而提出来的一个纯统计量。
从总体抽取的样本由n个观察值组成,显然所由观察值∑/n即为样本平均数。
然实验科学家並末停止于样本平均数,直觉告诉贫道样本平均数只描述了样本的一个平均水平,或者说是趋中心的状态,而不能揭示离异程度。
举个例子,3,4和5这个样本平均数为4。
另一样本1,4和7平均数也为4。
直观给我们的印象是后面这个样本代表的总体离散程度显然大于苐一样本所代表的总体。
这说明用样本平均数不能描述一个总体,必须要有一个表示离开平均数的趋势的统计量。
苐一人选就是离差,即距离平均数之差。
这个量是切题的,问题是平均数居中,各观察值与平均数之差有正有负,而这产生一个,样本离均差差之和为零,游戏规则的零和问题,数学上处理这类问题是将离差,放大为方善(道人提醒世人注意,这里顺便回答一个潜在的悟空问题,为什么不用离均差,而用方差,即方善为离均差的平方),由于在避免零和时施行丁平方处理,故需要用开方还原,道人自以为是已经尾尾道出样本方差公式的全过程和逻辑关系。
这是西方方法论最引为骄傲的观念,而更是道人更引以自豪的强势,因为成道以前在下野地,老炮台,为了练出一枝之长,完全靠悟性悟透了这些统计数理逻辑思维,才得以从戈壁滩到悟出第一本油印版的在职博士论文《单一自由度方差背景的优化决策分析》,方差问题的关健不在计算公式,其思过半者为入统计物理,统计实验设计聖殿的敲门砖,如杨振宁,李政道吳健雄联手为国家争得的一块诺贝尔奖。
道人年轻盛气自以为是可用古代中国传统思维的智慧挑战西方方法论的集大成者Fisher立于百年不败的方差分析。
这个目标一直在鼓动脑海中这初衷情结,英国人已经全盘照搬中国



