如有你有帮助,请购买下载,谢谢!
实验4 区间估计与假设检验
利用样本对总体进行统计推断,主要有两类问题:一类是估计问题,另一类是检验问题。参数估计是根据样本的统计量来对总体的参数进行估计,假设检验则是利用样本的统计量来检验事先对总体参数或分布特性所作的假设是否正确。
利用SAS软件中的INSIGHT模块和“分析家”功能以及编程的方法,均可以在不同的置信水平下求出总体参数的置信区间,在不同的检验(显著)水平下对总体的参数和分布特性进行检验。
在对总体参数作区间估计和假设检验之前,常常需要判断总体分布是否为正态分布。检验数据是否来自正态分布总体,应用中常用分布拟合图、QQ图、分布检验等方法。
4.1 实验目的
掌握使用SAS对总体参数进行区间估计与假设检验方法,掌握使用SAS对总体分布情况进行判断以及正态性检验的方法。
4.2 实验内容
一、用INSIGHT对总体参数进行区间估计与假设检验 二、用“分析家”对总体参数进行区间估计与假设检验
三、编程对总体参数进行区间估计与假设检验
四、在INSIGHT和“分析家”模块中研究分布并使用UNIVARIATE过程对总体分布进行正态性检验
4.3 实验指导
一、用INSIGHT对总体参数进行区间估计与假设检验
【实验4-1】已知某种灯泡的寿命服从正态分布,现从一批灯图4-1 数据集Mylib.sy4_1 泡中抽取16只,测得其寿命如表4-1(sy4_1.xls)所示:
表5-1 某种灯泡的寿命(单位:小时)
1510 1480 1450 1510 1480 1530 1460 1470 1520 1500 1480 1520 1490 1510 1460 1470 95%及99%的置信区间,求该灯泡平均使用寿命90%、并指出置信区间长度与置信水平的关系。
假设上述数据已存放于数据集Mylib.sy4_1中,如图4-1所示,变量sm表示灯泡寿命。 实验步骤如下:
(1) 启动INSIGHT模块,并打开数据集Mylib.sy4_1。 (2) 选择菜单“Analyze(分析)”→“Distribution(Y)(分布)”。在打开的“Distribution(Y)”对话框中选定分析变量:sm,如图4-2左所示。
(3) 单击“Output”按钮,在打开的对话框中选中“Basic Confidence interval(基本置信
1页
如有你有帮助,请购买下载,谢谢!
区间)”复选框,如图4-2右。两次单击“OK”按钮,得到结果,如图4-3所示。
图4-2 区间估计的设置
结果包括一个名为“95%Confidence Intervals(95%置信区间)”的图4-3 95%置信区间 列表,表中给出了均值(Mean)、标准差(Std Dev)、方差(Variance)的估计值(Estimate)、置信下限(LCL)和置信上限(UCL)。结果表明,根据抽样样本,灯泡平均使用寿命的置信水平为95%的置信区间为(1476.8034,1503.1966)。 (4) 选择菜单“Tables(表)”→“Basic Confidence Interval(基本置信区间)”→“Others(其他)”,在打开的“Basic Confidence Interval”对话框中修改置信水平,如图4-4所示。
图4-4 90%、97.5%置信区间
可以看到,由于置信水平的提高,置信区间的长度在增加。
【实验4-2】正常人的脉搏平均每分钟72次,某医生测得10例“四乙基铅中毒”患者的脉搏数如表4-2(sy4_2.xls)所示:
表4-2 “四乙基铅中毒”患者的脉搏数(次/min)
54 67 68 78 70 66 67 65 69 70 已知人的脉搏次数服从正态分布,试问“四乙基铅中毒”患者的脉搏和正常人的脉搏有无显著差异(? = 0.05)?
这是一个单样本均值的双边检验问题。若μ为“四乙基铅中毒”患者脉搏数的均值,需要通过样本数据检验如下假设: H0:μ =72, H1:μ ? 72。
假定上述数据存放在数据集Mylib.sy4_2中,如图4-5所示,脉图4-5 数据集Mylib.sy4_2 搏次数用变量cs表示。
使用INSIGHT对均值进行检验的步骤如下:
(1) 首先启动INSIGHT,并打开数据集Mylib.sy4_2,选择菜单“Analyze(分析)”→“Distribution(Y)(分布)”。
(2) 在打开的“Distribution(Y)”对话框中选定分析变量:选择变量cs,单击“Y”按钮,将变量移到右上方的列表框中。单击“OK”按钮,得到变量的描述性统计量。 (3) 选择菜单“Tables(表)”→“Tests for Location(位置检验)”;在弹出的“Tests for Location”对话框中输入72,单击“OK”按钮得到输出结果,如图4-6所示。
图4-6 位置检验
结果显示,不等于72的观测有10个,其中有1个观测值大于72。 图中第一个检验为t检验(Student's t),需要假定变量服从正态分布,检验的p值为0.0366,这个检验在0.05水平下是显著的,可认为均值与72有显著差异。第二个检验(Sign)是叫做符号检验的非参数检验,其p值为0.0215,在0.05水平下是显著的,第三个检验(Sgned Rank)是叫做符号秩检验的非参数检验,其p值为0.0410,在0.05水平下也是显著的。
由于这三个检验的结论中的p值均小于0.05,所以应拒绝原假设,即总体的均值与72有显著差异。因此,可认为“四乙基铅中毒”患者的脉搏和正常人的脉搏有显著差异。
二、用“分析家”对总体参数进行区间估计与假设检验
【实验4-3】用数据集SASUSER.GPA,求总体中女生比例的95%的置信区间(? = 0.05)。
步骤如下: (1) 在“分析家”中打开数据集SASUSER.GPA,选择菜单“Statistics(统计)”→“Hypothesis Tests(假设检验)”→“One Sample Test for a Proportion(单样本比例检验)”。 (2) 在打开的“One Sample Test for a Proportion”对话框中选择变量sex,单击“Variable”,
2页
如有你有帮助,请购买下载,谢谢!
将其移到“Variable”中,单击“Level of Interest”下拉框右侧的下拉箭头,选“female”,如图4-7左所示。
(3) 单击“Intervals”按钮,在打开的对话框中选定置信估计类型和置信水平,如图4-7右所示。两次单击“OK”按钮,得到结果,如图4-8所示。
图4-7 设置比例的置
信区间
结果显示:变量图4-8 比例的置信区间 sex取值为“female”的比例的95%置信区间为(0.585,0.710)。
【实验4-4】生产工序的方差是工序质量的一个重要度量。当方差较大时需要对工序进行改进以减小方差,现测得两部机器生产的部分袋茶重量如表4-3(sy4_4.xls)所示,设两个总体为正态总体,求两个总体方差比的95%的置信区间(? = 0.01)。
表4-3 两部机器生产的袋茶重量(单位:克)
机器1 3.45 3.20 3.22 3.50 2.95 3.16 3.20 3.22 2.98 3.75 3.38 3.45 3.48 3.18 3.90 3.70 3.28 3.35 3.20 3.12 3.25 机器2 3.22 3.38 3.30 3.30 3.34 3.28 3.30 3.28 2.19 3.29 3.20 3.35 3.16 3.34 3.35 3.30 3.05 3.33 3.27 3.28 3.25 步骤如下: (1) 首先,将表中的数据生成数据集mylib.sy4_4,如图4-9所图4-9 数据集Mylib.sy5_4 示,两部机器生产的袋茶重量分别用两个变量jq1和jq2表示。 (2) 在分析家中打开数据集mylib.sy4_4后,选择菜单“Statistics(统计)”→“Hypothesis Tests(假设检验)”→“Two-Sample Test for Variance(双样本方差检验)”,打开“Two-Sample Test for Variance”对话框。
(3) 在“Groups are in”栏中选择“Two variables”选项,并将变量jq1和jq2分别移至“Group1”和“Group2”框中;如图4-10左所示。
(4) 单击“Intervals”按钮,在打开的对话框中选定置信估计类型和置信水平,如图4-10右所示。两次单击“OK”按钮,得到分析结果,如图4-11所示。
图4-10 设置方差比检验
结果显示,在95%的置信水平下,两个总体方差比的置图4-11 双样本方差比的置信区间 信区间为(0.3827,2.3244)。
【实验4-5】某种电子元件的寿命(以小时记)服从正态分布。现测得16只元件的寿命如表4-4(sy4_5.xls)所示:
表4-4 某种电子元件的寿命
159 222 280 362 101 168 212 250 224 149 379 260 179 485 264 170 问是否有理由认为元件的平均寿命显著地大于225小时(? = 0.05)? 图4-12 数据集 这是一个单样本均值的单边检验问题。若μ为元件的平均寿命,需
Mylib.sy4_5 要通过样本数据检验如下假设:
H0:μ >= 225, H1:μ < 225。
由于此时的方差未知,所以使用t检验法。 假定上述数据存放在数据集mylib.sy4_5中, 灯泡寿命用变量sm表示,如图4-12所示。
3页