非参数统计部分课后习题参考答案 下载本文

课后习题参考答案

第一章p23-25

2、(2)有两组学生,第一组八名学生的成绩分别为x1:100,99,99,100,99,100,99,99;第二组三名学生的成绩分别为x2:75,87,60。我们对这两组数据作同样水平a=0.05的t检验(假设总体均值为u):H0:u=100 H1:u<100。第一组数据的检验结果为:df=7,t值为3.4157,单边p值为0.0056,结论为“拒绝H0:u=100。”(注意:该组均值为99.3750);第二组数据的检验结果为:df=2,t值为3.3290,单边p值为0.0398;结论为“接受H0:u=100。”(注意:该组均值为74.000)。你认为该问题的结论合理吗?说出你的理由,并提出该如何解决这一类问题。 答:这个结论不合理(6分)。因为,第一组数据的结论是由于p-值太小拒绝零假设,这时可能犯第一类错误的概率较小,且我们容易把握;而第二组数据虽不能拒绝零假设,但要做出“在水平a时,接受零假设”的说法时,还必须涉及到犯第二类错误的概率。(4分)然而,在实践中,犯第二类错误的概率多不易得到,这时说接受零假设就容易产生误导。实际上不能拒绝零假设的原因很多,可能是证据不足(样本数据太少),也可能是检验效率低,换一个更有效的检验之后就可以拒绝了,当然也可能是零假设本身就是对的。本题第二组数据明显是由于证据不足,所以解决的方法只有增大样本容量。(4分)

第三章p68-71

3、在某保险种类中,一次关于1998年的索赔数额(单位:元)的随机抽样为(按升幂排列): 4632,4728,5052,5064,5484,6972,7596,9480,14760,15012,18720,21240,22836,52788,67200。已知1997年的索赔数额的中位数为5064元。

(1)是否1998年索赔的中位数比前一年有所变化?能否用单边检验来回答这个问题?(4分) (2)利用符号检验来回答(1)的问题(利用精确的和正态近似两种方法)。(10分) (3)找出基于符号检验的95%的中位数的置信区间。(8分)

解:(1)1998年的索赔数额的中位数为9480元比1997年索赔数额的中位数5064元是有变化,但这只是从中位数的点估计值看。如果要从普遍意义上比较1998年与1997年的索赔数额是否有显著变化,还得进行假设检验,而且这个问题不能用单边检验来回答。(4分)

(2)符号检验(5分)

设假设组:H0:M=M0=5064

H1:M≠M0=5064

符号检验:因为n+=11,n-=3,所以k=min(n+,n-)=3

精确检验:二项分布b(14,0.5),

n??0?b(14,1/2)?0.02873,双边p-值为0.0576,大于a=0.05,

所以在a水平下,样本数据还不足以拒绝零假设;但假若a=0.1,则样本数据可拒绝零假设。查二项分布表得a=0.05的临界值为(3,11),同样不足以拒绝零假设。

正态近似:(5分)

np=14/2=7,npq=14/4=3.5

z=(3+0.5-7)/3.5≈-1.87>Za/2=-1.96

仍是在a=0.05的水平上无法拒绝零假设。说明两年的中位数变化不大。 (3)中位数95%的置信区间:(5064,21240)(8分)

7、一个监听装置收到如下的信号:0,1,0,1,1,1,0,0,1,1,0,0,0,0,1,1,1,1,1,1,1,1,1,0,1,0,0,1,1,1,0,1,0,1,0,1,0,0,0,0,0,0,0,0,1,0,1,1,0,0,1,1,1,0,1,0,1,0,0,0,1,0,0,1,0,1,0,1,0,0,0,0,0,0,0,0。能否说该信号是纯粹随机干扰?(10分)

1

解:建立假设组: H0:信号是纯粹的随机干扰

H1:信号不是纯粹的随机干扰(2分)

游程检验:因为n1=42,n2=34,r=37。(2分)根据正态近似公式得:

2?42?342?42?34(2?42?34?42?34)?1?38.58   ???18.33(2分)U=42?342(42?34)(42?34?1)Z?37?38.58??0.08(62分)

18.33取显著性水平a=0.05,则Za/2=-1.96,故接受零假设,可以认为信号是纯粹的随机干扰的。(2分)

第四章p91-94

1、在研究计算器是否影响学生手算能力的实验中,13个没有计算器的学生(A组)和10个拥有计算器的学生(B组)对一些计算题进行了手算测试.这两组学生得到正确答案的时间(分钟)分别如下:

A组:28, 20,20,27,3,29,25,19,16,24,29,16,29 B组:40,31, 25,29,30,25,16,30,39,25

能否说A组学生比B组学生算得更快?利用所学的检验来得出你的结论.(12分)

解、利用Wilcoxon两个独立样本的秩和检验或Mann-Whitney U检验法进行检验。建立假设组:H0:两组学生的快慢一致;

H1:A组学生比B组学生算得快。(2分) 两组数据混合排序(在B组数据下划线):

3,16,16,16,19,20,20,24,25,25,25,25,27,28,29, 29, 29, 29,30, 30,31,39,40(2分)

A组秩和RA=1+3*2+5+6.5*2+8+10.5+13+14+16.5*3=120; B组秩和RB=3+10.5*3+16.5+19.5*2+21+22+23=156(2分) A组逆转数和UA=120-(13*14)/2=29

B组逆转数和UB=156-(10*11)/2=101(2分)

当nA=13,nB=10时,样本量较大,超出了附表的范围,不能查表得Mann-Whitney秩和检验的临界值,所以用正态近似。计算

Z??UA?nAnB/2nAnB(nA?nB?1)/12260??29?13*10/213*10*(13?10?1)/12(2分)

?36?36??2.232616.1245当显著性水平a取0.05时,正态分布的临界值Za/2=-1.96(1分) 由于Z

4、在比较两种工艺(A和B)所生产的产品性能时,利用超负荷破坏性实验。记下损坏前延迟的时间名次(数目越大越耐久)如下:

方法:A B B A B A B A A B A A A B A B A A A A 序: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

用Mann-Whitney秩和检验判断A工艺是否比B工艺在提高耐用性方面更优良?(10分)

解、设假设组:H0:两种工艺在提高耐用性方面的优良性一致;

H1:A工艺比B工艺更优良(1分,假设也可用符号表达式)

2

根据样本数据知nA=13;nB=7(1分),计算

A工艺的秩和RA=1+4+6+8+9+11+12+13+15+17+18+19+20=153;(1分) B工艺的秩和RB=2+3+5+7+10+14+16=57(1分)

A工艺的Mann-Whitney秩和UA=RA-nA(nA+1)/2=153-(13*14)/2=62(1分) B工艺的Mann-Whitney秩和UB=RB-nB(nB+1)/2=57-(7*8)/2=29(1分)

当nA=13,nB=7时,样本量较大,超出了附表的范围,不能查表得Mann-Whitney秩和检验的临界值,所以用正态近似。计算

Z??UA?nAnB/2nAnB(nA?nB?1)/1216.5159.25??62?13*7/213*7*(13?7?1)/12(2分)

16.5?1.307512.6194当显著性水平a取0.05时,正态分布的临界值Za/2=1.96(1分)

由于Z

第五章p118-121

2

1、对5种含有不同百分比棉花的纤维分别做8次抗拉强度试验,试验结果如表4所示(单位:g/cm):

表4

15 抗拉强度 411 705 493 634 634 846 564 705 棉花纤维百分比(%) 20 1268 846 1057 916 1057 1127 775 634 25 1339 1198 1339 1198 1339 916 1480 1268 30 1480 1198 1268 1480 1268 986 1127 1480 35 986 775 493 775 352 352 564 423 试问不同百分比纤维的棉花其平均抗拉强度是否一样,利用Kruskall—Wallis 检验法。(14分) 解:建立假设组:

H0:不同百分比纤维的棉花其平均抗拉强度一样; H1:不同百分比纤维的棉花其平均抗拉强度不一样。(2分) 已知,k=5,n1= n2= n3= n4= n5=8(2分)。混合排序后各观察值的秩如表4所示:

表4

15 抗拉强度 3 12.5 5.5 10 10 17.5 7.5 12.5 棉花纤维百分比(%) 20 31.5 17.5 23.5 19.5 23.5 25.5 15 10 25 35 28 35 28 35 19.5 38.5 31.5 30 38.5 28 31.5 38.5 31.5 21.5 25.5 38.5 35 21.5 15 5.5 15 1.5 1.5 7.5 4 3