医学统计学样题及答案 下载本文

无题y = 1.07x700R2 = 0.642量600酸含500400系列1抗坏血300线性 (系列1)200整个腺10000200400600800半个腺抗坏血酸含量

表二,因为第八组数据离直线太远,故舍去。 半个(x) 371

592 464 519 470 528 整个(y) 381

627

485

546

500

546

对应拟和直线图

580 563 595

595

700整个腺抗坏血酸含量60050040030020010000200400600半个腺抗坏血酸含量800y = 1.0463x2R = 0.9907系列1线性 (系列1)

2. 求出方程(计算回归系数b和截距a)。 注意因为从以上作图可知舍去了第八组数据,所以计算时也不予考虑。老师上课讲过异常值应该舍,但没有讲如何检验异常值。本人在北大时好像学过,但已经忘记,且觉得不必要,大家谁要是觉得必要,请看以前的统计书,如果有人会,请上传21题补丁,谢谢了! 半个(x)

371 592 464 519 470 528 580 563

∑Xi=4087 X平均=510.875

整个(y)

381 627 485 546 500 546 595 595

∑Yi=4275 Y平均=534.375

∑Xi2 =2125815 ∑Yi2 =2327797 ∑Xi*Yi=2224322

因为公式比较繁,大家参照课本180页自己计算: Lxy=40331.375 Lxx=37868.875

Lyy=43343.875

b=40331.375/37868.875=1.065

a=534.375-1.065*510.875=-9.707

回归方程为:y=-9.707+1.065x(注意书上的写法,这里因为本人能力不能写出)。

3. 对总体的回归系数β进行假设检验。 使用方差分析:

建立假设检验:H0:β=0,即半个腺和整个腺的抗坏血酸含量有关 H1:β≠0, 无关 计算统计量F值 回归分析 残差 总计

22、相关系数和回归系数的联系和区别?

区别:

在资料要求上:回归要求因变量Y服从正态分布;x是可以精确测量和严格控制的变量,一般称为一型回归。相关要求两个变量x、y服从双变量正态分布。这种资料若进行回归分析称为II型回归。

在应用上:说明两变量间依存变化的数量关系用回归,说明变量间的相关关系用

相关。

联系:

1、 对同一组数据同时计算r和b,它们的正负号是一致的。r 为正号说明两变量间的相互关系是同向变化的。b为正, 说明X增(减)一个单位,Y平均增(减)b个单位。

2、 r 和 b 的假设检验是等价的,即对同一样本,两者的t值相等。由于r的假设检验可直接查表, 而b的假设检验计算较繁。故在实际应用中常以前法代替后法。

3、 r与b值可相互换算 r? b ?rlXYlXXlYYlYYlXX?lXYlXXlXXlYY?blXXlYYdf

1 SS

42954 MS F 42954 661.0495

P <0.01

6 389.871 64.97849 7 43343.88

根据上表P值,认为不能拒绝H0

4、 用回归解释相关 相关系数的平方r2 称为决定系数(coefficient of determination):

r?2lXYlXXlYY2?lXY/lXXlYY2?SS回SS总此式说明当SS总不变时,回归平方和的大小取决于r2。回归平方和是由于引入了相关变量而使总平方和减小的部分。回归平方和越接近总平方和,则r2 越接近1,说明

引入相关的效果越好。例如r=0.20, n=100 时,可按检验水准0.05拒绝H0, 接受H1 ,认为两变量有相关关系。但 r2 = (0.20)2 =0.04, 表示回归平方和在总平和中仅占4%,说明两变量间的相关关系实际意义不大。

23、剩余标准差的意义和用途?

SSY。X为剩余标准差,是指将X固定为某一确定值以后,Y的标准差。Sy.x 越小,说明用回归方程所作的估计的误差越小。剩余标准差 Sy.x 可由下式求得:

Sy.x???2(Y?Y)n?2?Sy(n?1)(1?r)n?22

式中Sy为变量Y的标准差,r为相关系数,n为样本例数。

它直接反映观察值y对估计值的平均离差。就回归直线来说,其平均离差值愈小,则所有观察点平均地愈靠近回归线,即关系程度愈密切;而当其平均离差值愈大,则所有观察点平均地离回归线愈远,即关系愈不密切。可见这个指标是从另一侧反映关系密切程度的。它是以回归直线为中心反映各观察值与估计值平均数之间离差程度的大小,从另一方面看,也就是反映着估计值平均数的代表性的可靠程度。

24、拟做动物实验,设实验和对照组的差别x1-x2=1.5克,标准差为2.5克,显著性水平

为0.05,实验的成功率为90%,试求出所需动物数?

解:见书P343。本题属于两样本均数比较,所需样本量的计算公式是: N1=N2=2×〔(tα/2+tβ)S/δ〕2

N1=N2=2×〔(1.96+1.282) ×2.5/1.5〕2=58.4,取整59。 实验组合对照组各需59只动物,总共需118只。

25、用中药治疗慢性肾炎的近控率为30%,现试验新药的疗效,要求新药的近控率达到50%,

才能推广使用,?=0.05,成功率为0.90,问每组需多少人?

解:见书P343。本题属于两组样本率比较,本题采用单侧检验(个人认为如此,大家说呢?),所以公式为:

N1=N2=0.5×〔(uα+uβ)/(sin-1√p1-sin-1√p2)〕2

-1-12

N1=N2=0.5×〔(1.645+1.282)/(sin√0.3-sin√0.5)〕=101.2,取整102。

旧药和新药各需102人。 26、欲了解某地菜农钩虫感染率是否高于粮农,估计两总体率约20%及10%,今指定?=0.05, ?=0.10,问需查多少人?

两样本率的比较 双侧检验:

p1=0.2,p2=0.1,双侧u0.05/2=1.96,单侧u0.1=1.282

用途:回归系数的t检验,uy的区间估计,个体Y值的容许区间

按照p343公式26-2计算可得: n1=n2=261.0

每组需要262例,两组共需524例。

27、几种基本的抽样方法的优缺点和适用场合是什么?

老师的ppt上提到的是单纯随机抽样、系统抽样和整群抽样

我查到的是四种:简单随机抽样、系统抽样、分层抽样和整群抽样(分层抽样很重要啊~老师应该是忘了讲吧)

(另注:这几种方法都属于概率抽样,另外还有非概率抽样,应该不会考)

概率抽样的原则:(随机性原则)

总体中的每一个样本被选中的概率相等。概率抽样之所以能够保证样本对总体的代表性,其原理就在于它能够很好的按总体内在结构中所蕴含的各种随机事件的概率来构成样本,使样本成为总体的缩影。

简单随机抽样:

按照等概率的原则,直接从含有N个元素的总体中抽取n个元素组成的样本(N>n)。(随机数表)

系统抽样(等距抽样或机械抽样):

把总体的单位进行排序,再计算出抽样距离,然后按照这一固定的抽样距离抽取样本。第一个样本采用简单随机抽样的办法抽取。

K(抽样距离)=N(总体规模)/n(样本规模)

前提条件:总体中个体的排列对于研究的变量来说,应是随机的,即不存在某种与研究变量相关的规则分布。可以在调查允许的条件下,从不同的样本开始抽样,对比几次样本的特点。如果有明显差别,说明样本在总体中的分布承某种循环性规律,且这种循环和抽样距离重合。

分层抽样(类型抽样):

先将总体中的所有单位按照某种特征或标志(性别、年龄等)划分成若干类型或层次,然后再在各个类型或层次中采用简单随机抽样或系用抽样的办法抽取一个子样本,最后,将这些子样本合起来构成总体的样本。分层抽样是把异质性较强的总体分成一个个同质性较强的子总体,再抽取不同的子总体中的样本分别代表该子总体,所有的样本进而代表总体。

整群抽样:

抽样的单位不是单个的个体,而是成群的个体。它是从总体中随机抽取一些小的群体,然后由所抽出的若干个小群体内的所有元素构成调查的样本。对小群体的抽取可采用简单随机抽样、系统抽样和分层抽样的方法。

一般来说,类别相对较多、每一类中个体相对较少的做法效果较好。

#分层抽样与整群抽样的区别:

分层抽样要求各子群体之间的差异较大,而子群体内部差异较小;整群抽样要求各子群体之间的差异较小,而子群体内部的差异性很大。换句话说,分层抽样是用代表不同子群体的子样本来代表总体中的群体分布;整群抽样是用子群体代表总体,再通过子群体内部样本的分