统计学入门(18): 方差齐性及其作用

罗纳德·费舍尔于1918年提出了方差(variance )的概念。方差是衡量一组数据点围绕其平均值的分散程度的指标,它量化了每个数据点与数据集平均值的偏离程度。

方差可分为总体方差和样本方差。总体方差是针对整个数据集的方差。对于总体方差,我们考虑的是整个数据集中所有数据点相对于总体均值的偏离程度。总体方差的计算公式如下:

其中,N 是总体数据点的数量,μ 是总体均值。

样本方差是从整体数据集中抽取的一部分数据计算得到的方差。样本方差是从样本数据中计算得到的,通常用于估计总体方差。样本方差的计算公式如下:

其中n是样本数据点的数量,x(上面还有一横)是样本均值。

总体方差和样本方差之间的区别在于计算公式中的除数。总体方差的除数是总体数据点的数量N,而样本方差的除数是样本数据点的数量n−1。因为样本方差要对总体方差进行估计,所以需要考虑样本数据与总体的差异性,使用n−1作为除数进行修正,这种修正称为自由度调整。

方差齐性指在不同的组或条件下,观测值的方差是否大致相等。例如,在下图中,黑线较尖,数据分布更靠近均值,方差较小;红线较平,数据分布更分散,方差较大。

图1 不同的方差

理想情况下,当我们比较多组数据是否有明显差异时,我们希望分布基本一致,即方差大致相等。换成数学术语来说,即方差齐性。在下图中,我们可以看到这三个曲线除了均值之外,分布基本一致(曲线的形状)。

图2 多组方差基本一致

当然,现实生活中没有那么完美。通常情况下,我们可以用小提琴图+箱图+散点图观察数据分布情况。

图3 小提琴图+箱图+散点图

在上图中,我们可以看出这两个分布不一致,左侧宽,右边较窄,不符合方差齐性的要求。下面让我们再来看两个实验。