第一章 统计数据的收集与整理
1.1 算术平均数是怎样计算的?为什么要计算平均数?
答:算数平均数由下式计算:
y??yi?1nin,含义为将全部观测值相加再被观测值的个数除,所得之商称为
算术平均数。计算算数平均数的目的,是用平均数表示样本数据的集中点,或是说是样本数据的代表。 1.2 既然方差和标准差都是衡量数据变异程度的,有了方差为什么还要计算标准差?
答:标准差的单位与数据的原始单位一致,能更直观地反映数据地离散程度。
1.3 标准差是描述数据变异程度的量,变异系数也是描述数据变异程度的量,两者之间有什么不同?答:变异系数可以说是用平均数标准化了的标准差。在比较两个平均数不同的样本时所得结果更可靠。 1.4 完整地描述一组数据需要哪几个特征数?答:平均数、标准差、偏斜度和峭度。
1.5 下表是我国青年男子体重(kg)。由于测量精度的要求,从表面上看像是离散型数据,不要忘记,体重是通过度量得到的,属于连续型数据。根据表中所给出的数据编制频数分布表。
66
70 60 67 64 59 66 62 66 62 64 59 38 66 69
69 64 66 68 66 66 68 69 65 67 67 67 62 63 70
64 58 65 62 68 65 64 70 67 71 66 61 67 65 63
65 67 61 63 64 63 65 68 66 69 64 68 65 63 64
64 66 61 70 63 56 71 65 74 65 60 69 65 67 65
66 66 66 65 60 66 61 63 64 65 61 66 69 68 64
68 67 67 64 64 63 63 65 69 75 68 64 65 66 67
65 66 62 65 69 63 61 66 65 62 67 69 67 62 67
62 66 65 62 65 66 64 64 64 69 63 65 65 63 65
64 62 65 66 66 67 64 68 65 68 59 68 72 61 66
69 66 61 62 67 63 67 69 65 68 65 67 66 66 62
61 66 64 63 67 70 69 65 68 65 60 64 67 61 61
61 64 62 68 67 67 70 63 67 63 64 64 64 63 65
68 62 64 65 65 70 66 67 65 66 63 66 61 68 65
66 62 65 68 67 62 64 63 65 66 69 69 64 65 60
57 65 62 57 67 64 65 70 66 65 62 73 66 66 63
66 64 65 67 66 72 64 65 67 62 71 68 63 69 65
69 65 68 66 68 69 63 68 72 61 69 60 63 64 62
66 66 68 68 64 67 70 67 65 68 60 60 66 66 66
65 72 65 63 67 67 64 69 67 65 63 63 66 70 64
答:首先建立一个外部数据文件,名称和路径为:E:\\data\\exer1-5e.dat。所用的SAS程序和计算结果如下:
proc format; value hfmt
56-57='56-57' 58-59='58-59' 60-61='60-61' 62-63='62-63' 64-65='64-65' 66-67='66-67' 68-69='68-69' 70-71='70-71' 72-73='72-73' 74-75='74-75'; run;
data weight;
infile 'E:\\data\\exer1-5e.dat'; input bw @@; run; proc freq; table bw; format bw hfmt.; run;
The SAS System
Cumulative
Cumulative
BW Frequency Percent Frequency
Percent
-----------------------------------------------------
56-57 3 1.0 3
1.0
58-59 4 1.3 7
2.3
60-61 22 7.3 29
9.7
62-63 46 15.3 75
25.0
64-65 83 27.7 158
52.7
66-67 77 25.7 235
78.3
68-69 45 15.0 280
93.3
70-71 13 4.3 293
97.7
72-73 5 1.7 298
99.3
74-75 2 0.7 300
100.0
1.6 将上述我国男青年体重看作一个有限总体,用随机数字表从该总体中随机抽出含量为10的两个样本,分别计算它们的平均数和标准差并进行比较。它们的平均数相等吗?标准差相等吗?能够解释为什么吗?答:用means过程计算,两个样本分别称为y1和y2,结果见下表:
Dev 3.5039660 3.1780497
The SAS System
Variable N Mean Std ---------------------------------------- Y1 10 64.5000000 Y2 10 63.9000000 ----------------------------------------
随机抽出的两个样本,它们的平均数和标准差都不相等。因为样本平均数和标准差都是统计量,统计量有自己的分布,很难得到平均数和标准差都相等的两个样本。
1.7 从一个有限总体中采用非放回式抽样,所得到的样本是简单的随机样本吗?为什么?本课程要求
的样本都是随机样本,应当采用哪种抽样方法,才能获得一随机样本?
答:不是简单的随机样本。从一个有限总体中以非放回式抽样方法抽样,在前后两次抽样之间不是相互独立的,后一次的抽样结果与前一次抽样的结果有关联,因此不是随机样本。应采用随机抽样的方法抽取样本,具体说应当采用放回式抽样。 1.8 证明等?
答:(1)令 yi??yi?C
则 y??y?C 平均数特性之③。
2????y?y?ii?1nn??y??y?????y2ii?1i?1nni?y?,2y其中yi??yi?C。yi??iC或yi??Cyi编码时,前式是否仍然相若用
????yi?C???y?C??i?1n2
(2) 令 则
yi?????yi?y?i?12yiC
y??yC 平均数特性之②。
??y??y??ii?1nn2y??y???i??C?i?1?C?2??y?y?ii?12n2C
用第二种编码方式编码结果,两式不再相等。
1.9 有一个样本:y1,y2,?,yn,设B为其中任意一个数值。证明只有当B?y时,
n??y?B?i?12最小。这是平均数的一个重要特性,在后面讲到一元线型回归时还会用到该特性。
2???y?B?2?0??p?y?B??B答:令 , 为求使p达最小之B,令
则
2??y?B??0y?B??yn 。
1.10 检测菌肥的功效,在施有菌肥的土壤中种植小麦,成苗后测量苗高,共100株,数据如下[1]:
10.0
9.3
7.2
9.
1
8.5
9.6 10.1
8.0 10.5 10.6
7.0 10.0 10.0 8.3
6.7 7.5 9.9
9.5 7.2 7.5
8.6 10.0
6.6 10.0 6.5 6.5 7.8
8.0 7.6 7.8 6.9
8.4 8.6 5.0 3.5
10.5 4.6
7.10.5 7.9 8.1 9.6 7.6 9.4 8
5.7.3 8.7 7.1 6.1 5.2 6.8 0
4.7.6 7.0 9.7 6.2 8.0 6.9 5
4.4.9 7.0 8.3 8.4 7.8 7.5 8 9.8.5 11.0 9.7 6.6 10.0 5.0 5
8.7.4 7.4 8.1 7.7 7.5 7.1 3
6.7.0 6.4 6.7 6.3 6.4 11.0 0
8.7.0 7.4 5.2 6.7 9.0 8.6 0
6.9.7 6.4 5.8 6.4 9.3 6.4 2
编制苗高的频数分布表,绘制频数分布图,并计算出该样本的四个特征数。
答:首先建立一个外部数据文件,名称和路径为:E:\\data\\exr1-10e.dat。SAS程序及结果如下:
options nodate;
proc format; 3.5-4.4='3.5-4.4' 4.5-5.4='4.5-5.4' 5.5-6.4='5.5-6.4' 6.5-7.4='6.5-7.4' 7.5-8.4='7.5-8.4' 8.5-9.4='8.5-9.4' 9.5-10.4='9.5-10.4' 10.5-11.4='10.5-11.4'; run;
value hfmt
data wheat;
infile 'E:\\data\\exr1-10e.dat'; run;
input height @@;
proc freq;
table height; run;
proc capability graphics noprint; var height;
histogram/vscale=count;
inset mean var skewness kurtosis; run;
The SAS System
The FREQ Procedure
format height hfmt.;
Cumulative
height Frequency Percent Frequency Percent
---------------------------------------------------------------------
3.5-4.4 1 1.00 1 1.00
4.5-5.4 9 9.00 10 10.00
5.5-6.4 11 11.00 21 21.00
6.5-7.4 23 23.00 44 44.00
7.5-8.4 24 24.00 68 68.00
8.5-9.4 11 11.00 79 79.00
9.5-10.4 15 15.00 94 94.00
10.5-11.4 6 6.00 100 100.00
Cumulative
1.11 北太平洋宽吻海豚羟丁酸脱氢酶(HDBH)数据的接收范围频数表[2]如下:(略作调整)
HDBH数据的接收范
围/(U ·L-1) <214 <245.909 1 <277.818 2 <309.727 3 <341.636 4 <373.545 5 <405.454 5 <437.363 6 <469.272 7 <501.181 8
频 数 1 3 11 19 26 22 11 13 6 3