什么是方差

方差(Variance) 是统计学中的一个重要概念,用来度量一组数据的离散程度或分散程度。具体来说,方差反映了数据点与其均值之间的偏离程度。方差越大,说明数据点越分散,方差越小,说明数据点越集中。

方差的定义

对于一组数据 x1,x2,…,xnx_1, x_2, \dots, x_nx1​,x2​,…,xn​,方差的数学定义如下:

1. 总体方差(Variance for a population):

假设我们有一个总体的数据集,包含 NNN 个数据点,那么总体方差 σ2\sigma^2σ2 的定义为:

σ2=1N∑i=1N(xi−μ)2

\sigma^2 = \frac{1}{N} \sum_{i=1}^{N} (x_i - \mu)^2

σ2=N1​i=1∑N​(xi​−μ)2

其中:

σ2\sigma^2σ2 是总体方差。NNN 是数据集中的数据点总数。xix_ixi​ 是第 iii 个数据点。μ\muμ 是数据集的均值,即 μ=1N∑i=1Nxi\mu = \frac{1}{N} \sum_{i=1}^{N} x_iμ=N1​∑i=1N​xi​。

2. 样本方差(Variance for a sample):

在实践中,我们通常只对总体中的一部分数据(即样本)进行观察。样本方差用来估计总体方差,定义如下:

s2=1n−1∑i=1n(xi−xˉ)2

s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2

s2=n−11​i=1∑n​(xi​−xˉ)2

其中:

s2s^2s2 是样本方差。nnn 是样本的数量。xix_ixi​ 是第 iii 个样本点。xˉ\bar{x}xˉ 是样本的均值,即 xˉ=1n∑i=1nxi\bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_ixˉ=n1​∑i=1n​xi​。n−1n-1n−1 是自由度,用来校正样本方差对总体方差的估计。

区别:样本方差和总体方差的主要区别在于分母。样本方差使用 n−1n-1n−1 而不是 nnn,这样做的原因是为了得到更为无偏的方差估计,因为样本均值 xˉ\bar{x}xˉ 通常是一个对总体均值 μ\muμ 的估计。

方差的直观解释

方差描述了数据点是如何围绕均值分布的。通过计算每个数据点与均值之间的差,然后将这些差值平方,再求取平均值,方差提供了一种量化的方式来衡量数据的分散性。平方的目的在于避免正负差值相互抵消,使得方差始终是一个非负值。

方差较小:如果数据点都集中在均值附近,方差值会比较小,说明数据的波动性较小。方差较大:如果数据点分布得较分散,远离均值,方差值会比较大,说明数据的波动性较大。

方差的意义

度量数据的离散程度:方差反映了数据的分散程度,方差越大,数据的波动性就越大。模型评估中的应用:在机器学习中,方差用于评估模型的拟合程度。例如,在回归问题中,模型的误差可以通过方差来衡量,误差的方差越小,模型的拟合效果就越好。特征选择中的应用:在特征选择中,特征的方差可以作为选择标准。高方差的特征可能包含更多的区分信息,而方差过小的特征可能对模型影响不大。偏差-方差权衡(Bias-Variance Tradeoff):在机器学习中,方差和偏差的权衡是评估模型的一项重要指标。模型的方差过大可能意味着模型过拟合,而方差过小可能意味着模型欠拟合。

举例说明

假设我们有一组数据:[2,4,4,4,5,5,7,9][2, 4, 4, 4, 5, 5, 7, 9][2,4,4,4,5,5,7,9]。

计算均值:

μ=2+4+4+4+5+5+7+98=5

\mu = \frac{2 + 4 + 4 + 4 + 5 + 5 + 7 + 9}{8} = 5

μ=82+4+4+4+5+5+7+9​=5

计算方差:

σ2=18((2−5)2+(4−5)2+(4−5)2+(4−5)2+(5−5)2+(5−5)2+(7−5)2+(9−5)2)

\sigma^2 = \frac{1}{8} \left( (2-5)^2 + (4-5)^2 + (4-5)^2 + (4-5)^2 + (5-5)^2 + (5-5)^2 + (7-5)^2 + (9-5)^2 \right)

σ2=81​((2−5)2+(4−5)2+(4−5)2+(4−5)2+(5−5)2+(5−5)2+(7−5)2+(9−5)2)

σ2=18(9+1+1+1+0+0+4+16)

\sigma^2 = \frac{1}{8} \left( 9 + 1 + 1 + 1 + 0 + 0 + 4 + 16 \right)

σ2=81​(9+1+1+1+0+0+4+16)

σ2=18×32=4

\sigma^2 = \frac{1}{8} \times 32 = 4

σ2=81​×32=4

因此,这组数据的总体方差是 4。

方差和标准差的关系

标准差(Standard Deviation) 是方差的平方根。标准差和方差都用来度量数据的离散程度,但标准差的单位与原数据相同,因此在解释数据的分散性时,标准差比方差更直观。公式如下:

σ=σ2

\sigma = \sqrt{\sigma^2}

σ=σ2​

对于上面的例子,方差是 4,那么标准差为:

σ=4=2

\sigma = \sqrt{4} = 2

σ=4​=2

总结

方差 是用于度量数据集离散程度的统计量,反映了数据与均值之间的偏离程度。方差越大,数据越分散;方差越小,数据越集中。方差在机器学习、数据分析、金融等多个领域中有着广泛的应用,特别是在模型评估、特征选择等方面。方差的平方根是 标准差,它更加直观,常用于描述数据的波动性。