1
平均?/p>
(Mean)
、方?/p>
(Variance)
、标准差
(Standard Deviation)
对于一维数据的分析,最常见的就是计算平均?/p>
(Mean)
、方?/p>
(Variance)
和标准差
(Standard Deviation)
?/p>
平均?/p>
平均值的概念很简单:所有数据之和除以数据点的个数,以此表示数据集的平均大小?/p>
其数学定义为?/p>
以下?/p>
10
个点?/p>
CPU
使用率数据为例,其平均值为
17.2
?/p>
14 31 16 19 26 14 14 14 11 13
方差、标准差
方差
这一概念的目的是为了
表示
数据集中
数据点的离散程度
;其数学定义为:
标准?/p>
与方差一样,
表示
的也?/p>
数据点的离散程度
;其在数学上定义为方差的平方根:
为什么使用标准差?/p>
与方差相比,使用标准差来表示数据点的离散程度?/p>
3
个好处:
表示离散程度的数字与样本数据点的
数量级一?/p>
?/p>
更适合对数据样本形成感性认知?/p>
?/p>
然以上述
10
个点?/p>
CPU
使用率数据为例,
其方差约?/p>
41
?/p>
而标准差则为
6.4
?/p>
两者相比较?/p>
标准差更适合人理解?/p>
表示离散程度的数字单位与样本数据?/p>
单位一?/p>
,更方便做后续的分析运算?/p>
在样本数据大致符合正态分布的情况下,标准差具?/p>
方便估算
的特性:
66.7%
的数据点
落在平均值前?/p>
1
个标准差的范围内?/p>
95%
的数据点落在平均值前?/p>
2
个标准差的范围内?/p>
?/p>
99%
的数据点将会落在平均值前?/p>
3
个标准差的范围内?/p>
贝赛尔修?/p>
在上面的方差公式和标准差公式中,存在一个值为
N
的分母,其作用为将计算得到的
累积偏差进行平均?/p>
从而消除数据集大小对计算数据离散程度所产生的影响。不过,使用
N
所计算得到的方差及标准差只能用来表示该数据集本?/p>
(population)
的离散程度;
如果数据?/p>
是某个更大的研究对象的样?/p>
(sample)
,那么在计算该研究对象的离散程度时,就需要对?/p>
述方差公式和标准差公式进行贝塞尔修正,将
N
替换?/p>
N-1
?/p>
经过贝塞尔修正后的方差公式:
经过贝塞尔修正后的标准差公式?/p>