第五章 离中趋势测量法
平均指标对总体的共性和一般水平作了概括,以此来说明总体标志值分布的集中趋势。但是总体作为统计对象,还有其变异性的一面。变异指标用以反映总体各单位标志值的变动范围或参差程度,与平均指标相对应,从另一个侧面反映了总体的特征。变异指标不仅可以综合地显示变量值的离中趋势,还可以用来判别平均数的代表性。
所谓离中趋势,是指数列中各变量值之间的差距和离散程度。离势小,平均数的代表性高;离势大,平均数代表性低。例如有A、B、C、D四组学生各5人的成绩如下:
A组:60,60,60,60,60 B组:58,59,60,61,62 C组:40,50,60,70,80 D组:80,80,80,80,80
A组、B组、C组的平均成绩均为60分,D组的平均成绩为80分。就平均数而言,A、B、C三组相同,D组的平均数高于前三组。就离势而言,A,D两组一样,都为0;C组的离势最大,B组次之。所以,平均数不同,离势可能相同;平均数相同.离势可能不同;平均数不同,当然离势也可能不同。可见,要掌握总体资料中各标志值的离散、参差或分布情况,测定离中趋势也是必不可少的。
变异指标的种类较多,如按计算的基准来分有以下两类: (1)以两数之差来表达的有全距和四分位差等。 (2)以对平均数偏差来表达的有平均差、标准差等。 变异指标如按数量关系来分有以下两类;
(1)凡用绝对数来表达的变异指标,统称绝对离势,主要有极差、平均差、四分位差、标准差等。 (2)凡用相对数来表达的变异指标,统称相对离势,主要有异众比率、标准差系数、平均差系数和一些常用的偏态系数。
第一节 全距与四分位差
关于变异指标,前面其实我们已有所接触,第三章讨论统计分组时谈到的全距便是。全距是测定离中趋势最简单的一种指标。它和四分位差一样,是以两数之差来表达的。
1.全距
全矩是最大变量值与最小变量值之差,用R来表示。对未分组资料,计算全距用原始式。由于全距是一组数据中两个极端值之差,所以它又称极差。
R=XN—X1 (5.1)
其中:XN是全部数据中最大的标志值,X1是最小的标志值。
1
[例5.1.1] 求74,84,69,91,87,74,69这些数字的全距。 [解] 把数字按顺序重新排列:69,69,74,74,84,87,91,显然有
R=XN—X1=91—69=22
对于分组资料,在第三章我们已经知道,由于不能确知变量实际的最大值和最小值,因而求全距有以下三种方法:
(1)用组值最大组的组中值减去组值最小组的组中值,此法求出的全距一般比实际上的全距要小些。 (2)用组值最大组的上限减去组值最小组的下限,此法求出的全距一般比实际上的全距要大些。 (3)用组值最大组的组中值减去组值最小组下限;或用组值最大组上限减去组值最小组的组中值。此法求出的全距多接近于实际上的全距。
全距的最大优点是:计算简单,便于直观。缺点是;①受极端值影响大,遇含开口组的资料时将无法计算;②由于没有量度中间各个单位间的差异性,所以数据利用率很低,信息丧失严重;③受抽样变动影响很大。一般说来,大样本全距要比小样本全距大些,因为大样本有较多的机会包含最极端的变量值。
2.四分位差
在第四章,我们已经了解了四分位数的计算。它的一个用途就是,用第三四分位数和第一四分位数的半距作为测定离中趋势的一种变异指标,以避免全距测量离中趋势受极端值影响大这个缺点。四分位差就是第三四分位数和第一四分位数的半距,用Q·D表示
Q·D =
Q3?Q1 (5.2) 2四分位差优点是避免了极端值变动的影响,但由于它仅以两数之差为基准,全距的另两个缺点依然无法避免。
第二节 平均差
要测定变量值的离中趋势,尤其是要测定各变量值相对于平均数的差异情况,一个很自然的想法就是计算各变量值与算术平均数的离差。但由于算术平均数的性质,各变量值与其算术平均数离差的代数和恒为零,所以用这个性质无法构造出能够测定离中趋势的变异指标。为此,我们采取处理离差绝对值的办法,如此构造出来的变异指标,称为平均差,用A·D表示。
1.对于未分组资料
平均差被定义为各变量值对其算术平均数(或中位数)离差绝对值的算术平均数。对于未分组资料,求平均差用原始式,即
X?X? A·D =
N (5.3)
[例5.2.1] 试分别以算术平均数为基准,求85,69,69.74,87,91,74这些数字的平均差。 [解] 先用求平均指标的公式求出这些数字的算术平均数,得
2
X= 78.4
再利用表5.1,以算术平均数为基准求出
X?X? A·D =
N 表5.1
=
55.4 = 7.91 7X 69 69 74 74 85 87 91 549
2.对于分组资料
对于分组资料,计算平均差需用加权式
X?X 9.4 9.4 4.4 4.4 6.6 8.6 12.6 55.4 f? A·D =
X?X?f (5.4)
[例5.2.2] 试以算术平均数为基准,求表3.10所示数据的平均差。 [解] 先算出算术平均数 X=
?fX=9829=3.06(人) =
?f3211X?X再利用表5.2算出
f? A·D =
?f=
2418.38 = 0.75(人)
3227由此可见,2002年天津市家庭以户均人口3.06人为基准,家庭人口的平均差是0.75人。
3