医学统计学复习资料2 下载本文

1、t检验基本思想:是一种以 t 分布为基础,以 t 值为检验统计量的计量资料的假设检验方法,其基本思想是假设在H0成立的条件下作随机抽样,按照 t 分布的规律获得现有样本检验统计量 t 值的概率为P P值与事先设定检验水准进行比较,判断是否拒绝 h0 2、t检验应用条件(1) 计量资料(2) 样本含量较少(n<50)(3)样本来自正态总体(两样本均数比较时还要求两样本的总体方差相等)

4、方差分析后,若要进行均数的两两比较,则可选用SNK-q检验, LSD-t检验。SNK-q检验:在研究设计阶段未预先考虑到是否进行两两均数的比较,但经假设检验后得出多个总体均数不全相等的提示下才决定进行多个均数的两两事后比较。属于探索型研究。LSD-t检验:在设计阶段就已经根据研究目的或专业知识而计划好的某些均数间的两两比较。

2、非参数检验适用条件(1)不满足参数检验条件(如正态分布、方差齐同)的资料及无法经变量变换满足参数检验条件的资料(2)未加精确测量的资料,如一端或两端为不确定数值(如<0.2、>3.0等)的资料、等级资料(3)分布类型未知的资料

非参主要优点是不受总体分布的限制,适用范围广。主要缺点是符合参数检验的资料如用非参数检验,因没有充分利用资料提供的信息,检验效率降低。

5. 标准差与标准误有何区别和联系?区别:(1)含义不同: ①s描述个体变量值(x)之间的变异度大小,s越大,变量值(x)越分散;反之变量值越集中,均数的代表性越强。②标准误是描述样本均数之间的变异度大小,标准误 越大,样本均数与总体均数间差异越大,抽样误差越大;反之,样本均数越接近总体均数,抽样误差越小。(2)与n的关系不同: n增大时,①s→σ(恒定)。②标准误减少并趋于0(不存在抽样误差)。(3)用途不同: ①s:表示x的变异度大小,计算cv,估计正常值范围,计算标准误等②:参数估计和假设检验。联系: 二者均为变异度指标,样本均数的标准差即为标准误,标准差与标准误成正比。 6. 应用相对数时的注意事项有哪些? ①要注意绝对数与相对数结合应用;②要注意观察单位样本数不宜过小;③要注意分子分母正确选用;④要注意率与比的正确应用;⑤要注意平均率的计算方法;⑥要注意资料的可比性;⑦率和构成比比较时作假设检验。 10. 方差分析的基本思想是什么?你所知道的其用途有哪些?

答:方差分析的基本思想就是按研究目的和设计类型,将总变异的离均差平方和SS和自由度v分别分解成若干部分,并求得各相应部分的变异;其中的组内变异或误差主要反映个体差异或抽样误差,其它部分的变异与之比较得出统计量F值,由F值的大小确定P值,并做出推断。方差分析应用广泛,可用于:①两个或多个样本均数间的比较;②分析两个或多个因素间的交互作用;③回归方程的线性假设检验;④多元线性回归分析中偏回归系数的假设检验等。

11. X2完全随机设计的两样本率比较时,如何正确选择统计分析方法。(1)当总例数n≥40且所有格子的T≥5时,用?2检验的基本公式或四格表资料?2检验的专用公式;当P ≈α时,改用四格表资料的Fisher确切概率法。(2)当n≥40但有1≤T<5时,用四格表资料?2检验的校正公式;或改用四格表资料的Fisher确切概率法的连续性校正法:3)当n<40,或T<1时,用四格表资料的Fisher确切概率法。 12. 什么是医学参考值范围?估计医学参考值范围如何正确选用统计方法?

答:医学参考值范围是指所谓“正常人”的解剖、生理、生化等指标的波动范围,亦称正常值范围。如95%的参考值范围包括了95%的观察值,而有5%的观察值不在这一范围内。估计医学参考值范围确定方法: (1)正态分布法:适用于正态或近似正态分布的资料

(3)百分位数法:用于偏态资料,双侧界值(P2.5, P97.5);单侧上界P95;单侧上界P5 38. 什么是可信区间,可信区间有哪两个要素?

答:可信区间:按一定的概率或可信度(1-α)用一个区间估计总体参数所在范围,这个范围称作可信度1-α的可信区间(confidence interval, CI),又称臵信区间。 可信区间的两个要素:①准确性:又称可靠性,反映为可信度1-α的大小,显然可信度愈接近1愈好。②精确性:常用可信区间的长度CL-CU来衡量。当然长度愈小愈好。精确性与变量的变异程度大小、样本例数和1-α取值有关。 13. 什么是假设检验中的两类错误?什么是检验效能?

答:假设检验中的第一类错误是指“拒绝了实际上成立的H0假设”时所犯的错误,当H0成立时犯第一类错误的概率等于检验水准α。假设检验中的第二类错误是指“不拒绝实际上不成立的H0假设”时所犯的错误,其概率通常用β表示,其大小与抽样误差大小及设定的检验水准α有关。 1-β为假设检验的检验效能,也就是两个总体确实有差别时检出该差别的能力;当样本含量n确定时,α愈小,β愈大;反之,α愈大,β愈小。了解这两类错误的实际意义在于,若在应用中要重点减少α(如一般的假设检验),则取α=0.05;若在应用中重点减少β(如方差齐性检验、正态性检验或想用一种方法代替另一种方法的检验等),则取α=0.10或0.20甚至更高。

14. ?2检验的基本思想是什么?其用途主要有哪些?

答:①?2检验的基本思想:式中A代表实际频数;T代表理论频数;而?2值反映了实际频数与理论频数的吻合程度,其中(A?T)2反映了某个格子实际频数与理论频数的吻合程度。若检验假设H0成立,实际频数与理论频数的差值会小,则?2值也会小;反之,若检验假设H0不成立,实际频数与理论频数的差值会大,T22

则?值也会大。②?检验的用途:①推断两个总体率或构成比之间有无差别;②推断多个总体率或构成比之间有无差别;③多个样本率的?2分割;④两个分类变量之间有无关联性;⑤频数分布拟合优度的?2检验。

20. 能否说假设检验的p值越小,比较的两个总体指标间差异越大?为什么?

答:不能,因为P值的大小与总体指标间差异大小不完全等同。P值的大小除与总体差异大小有关,更与抽样误差大小有关,同样的总体差异,抽样误差大小不同,所得的P也会不一样,抽样误差大小实际工作中主要反映在样本量大小上。 26. 何谓假设检验?可以举例说明。(5分)

首先建立检验假设,然后在该假设下进行随机抽样,计算得到该统计量及其极端情形的概率,如果概率较小,则拒绝该假设,如果概率不是小概率,则接受该假设,这个过程称为假设检验。

31. 简述怎样描述一组计量资料的集中趋势和离散趋势 描述集中位臵的指标:①均数:适用于正态或近似正态分布;②几何均数:适用于等比数列或对数正态分布资料;③中位数:适用于资料是偏态分布的;分布不规则;一端或两端有不确定数据(开口资料)时。

描述离散趋势的指标:①极差(Range):记为R,又称全距,指一组数据中最大值和最小值之差。极差大,说明资料的离散程度大。②四分位数(quartile):记为Q,四分位数间距大,说明变异度大;反之,说明变异度小。③方差:离均差的平方和除以N得总体方差。离均差:数据集中各个观察值与均数之差。④标准差是描述个体值变异程度的指标,为方差的算术平方根,该变异不能通过统计方法来控制。全面反映了一组观察值的变异程度。⑤变异系数:标准差与均数之比,用百分数表示。

33. 试比较完全随机设计和随机区组设计资料的方差分析基本思想。

(1)完全随机设计资料的方差分析完全随机设计:亦称成组设计。该设计仅涉及一个研究因素,k个不同的水平(k个分组)。用单因素方差分析。三种变异:SS总=SS组间+SS组内(2)随机区组设计资料的方差分析

随机区组设计:又称配伍设计,是配对设计的扩展。四种变异:SS总= SS处理+ SS区组+ SS误差,ν总=n-1 43. 简述假设检验的注意事项。

答:假设检验的注意事项:①假设检验时可能犯两类错误;②选择检验方法要注意符合其应用条件;③正确理解假设检验的结论;④当差别无显著性时,有两种可能;⑤统计学的显著性与否和日常生活中的显著性概念不同;⑥单侧检验与双侧检验。 45. 简述频数表的主要用途。

答:(1)通过频数表了解数据的分布特征。①X值分布情况:偏态或正态分布;②取值情况:变量值取值范围;③集中趋势:变量值集中位臵。(2)便于发现资料中的可疑值。(3)组段的频率作为概率的估计。 46. 简述t分布的特征。

答:(1)一簇单峰分布曲线;(2)以0为中心,左右对称;(3)与自由度有关,①自由度越小,t分布的峰越低,而两侧尾部翘得越高;②自由度逐渐增大时,t分布逐渐逼近标准正态分布;③当自由度为无穷大时,t分布就是标准正态分布。 17. 统计表和统计图的用途是什么?

统计工作中,用统计表和统计图的形式说明资料在数量方面的大小,变动趋势,分布情况以及相互关系,以代替冗长的文字叙述,使结果一目了然,便于阅读,便于分析和比较。

49. 绘制统计表、统计图的原则和基本要点是什么?

答:编制统计表的原则:①重点突出,一张表只表达一个中心内容。②主语在左,宾语在右,从左至右构成一句完整而通顺的话。③简单明了,文字、数字与线条尽量简洁。编制统计表的要求:①标题:概括说明表的内容,必要时注明时间和地点,字数一般不超过20个。绘制统计图的原则:①标题:。②标目:横标目;纵标目—③刻度。④图例:

绘制统计图的要求:①按资料的性质和分析目的选用适合的图形:间断性资料 — 条图、圆图、百分条图;连续性资料 — 线图、直方图。②要有标题,扼要说

?明资料的内容,必要时注明时间、地点,一般写在图的下面。③条图、线图和直方图都有纵轴与横轴。纵横坐标长度的比例一般约5:7为宜。④比较不同事物时,用不同的线条或颜色表示,要附图例说明。

49. 在统计描述中,统计表和统计图分别起着什么作用

答:在统计描述过程中,统计表展示统计数据的结构、分布和主要特征,便于在进一步分析中选择和计算统计量。在学术报告和论文中常用统计表代替冗长的文字叙述,表达主要的研究结果、数据、指标和统计量,方便读者作比较和掌握主要研究结果。统计图将统计数据形象化,让读者更易于领会统计资料的核心内容,易于做分析比较,并且可以给读者留下深刻的印象。

1. 总体(:根据研究目的所确定的同质观察单位的全体。只包括(确定的时间和空间范围内)有限个观察单位的总体,称为有限总体)。假想的,无时间和空间概念的,称为无限总体

5. 变量():观察对象个体的特征或测量的结果。由于个体的特征或指标存在个体差异,观察结果在测量前不能准确预测,故称为随机变量(random variable),简称变量(variable)。变量的取值称为变量值或观察值(observation)。根据变量的取值特性,分为数值变量和分类变量。

6. 数值变量:又称为计量资料、定量资料,指构成其的变量值是定量的,其表现为数值大小,有单位。对每个观察单位用定量的方法测定某项指标的数值,组成的资料。

7. 计数资料:将全体观测单位按照某种性质或特征分组,然后再分别清点各组观察单位的个数。分类变量(categorical variable):或称定性变量,其取值是定性的,表现为互不相容的类别或或属性,有两种情况:1)无序分类(unordered categories):包括①二项分类,;②多项分类, 2)有序分类(ordered categories):各类之间有程度上的差别,或等级顺序关系,有“半定量”的意义,亦称等级变量。等级资料:介于计量资料和计数资料之间的一种资料,通过半定量方法测量得到。 11. 可信区间(confidence interval, CI):按一定的概率或可信度(1-α)用一个区间估计总体参数所在范围,这个范围称作可信度1-α的可信区间,又称臵信区间。 13. 变异(variation):同质事物间的差别。由于观察单位通常即为观察个体,故变异亦称为个体变异(individual variation)。

14. 组间变异(variation between group):用各组均数与总均数的离均差平方和表示ν组间=k-1,k为实验分组数,组间均方为MS组间=SS组间/( k-1) 15. 组内变异(variation within group):用各组均数与总均数的离均差平方和表示 ,各组自由度为ni-1,则组内自由度为ν组内=N-k,组内均方为MS组内=SS组内/( N-k) 16. 平均数(average):也叫平均值,是一组(群)数据典型或有代表性的值。这个值趋向于落在根据数据大小排列的数据的中心,包括算术平均数(arithmetic mean)、几何平均数(geometric mean)、中位数(median)等。 17. 中位数(median):将一组观察值按升序或降序排列,位次居中的数,常用M表示。适用于偏态分布资料或不规则分布资料和开口资料。当n为奇数时,M=X(n+1)/2;当n为偶数时,M=[Xn/2+ Xn/2+1]/2。

18. 百分位数(percentile):是一种位臵指标,以Px表示,一个百分位数Px将全部观察值分为两个部分,理论上有x%的观察值小于Px小,有(1-x%)的观察值大于Px。

19. 变异系数(CV):亦称离散系数,为标准差与均数之比,常用百分数表示。, 变异系数没有度量衡单位,常用于比较度量单位不同或均数相差悬殊的两组或多组资料的离散程度。

24. 相关系数(correlation coefficient):用以说明具有直线关系的两个变量间相关关系的密切程度和相关方向的指标,称为相关系数,又称为积差相关系数,总体相关系数用希腊字母ρ表示,而样本相关系数用r表示,取值范围均为[-1, 1]。

?= a+bX的系数b称为回归系数,也就是回归直线的斜率,表示X 每增加一个单位,Y 平均改变 b 个单25. 回归系数(regression coefficient):直线回归方程Y位。

32. 区间估计):按一定的概率或可信度(1-α)用一个区间估计总体参数所在范围,这个范围称作可信度1-α的可信区间,又称臵信区间。

33. 95%可信区间含义:如果重复若干次样本含量相同的抽样,每个样本均按同一方法构建95%可信区间,则在这些可信区间中,理论上有95个包含了总体参数,还有5个未估计到总体均数。

37. 参数检验:总体分布已知,对其中一些未知参数进行估计或检验。这类统计推断的方法叫参数统计或参数检验。t、u检验、方差分析

38. 非参数检验:适用于任意分布(distribution free)的统计方法,这种方法称为非参数统计。这种假设检验方法,比较的是分布而不是参数,故称为非参数检验。 非参数检验:是指在统计检验中不需要假定总体分布形式和用参数估计量,直接对比较数据的分布进行统计检验的方法,称为非参数检验.

3.说明频数分布表的用途:频数分布表的用途是:(1)描述频数分布的类型;(2)描述频数分布的特征;(3)便于发现一些特大或特小的可疑值;(4)便于进一步做统计分析和处理。

4.变异系数的用途是什么?答:变异系数的用途:常用于①观察指标单位不同时,如身高与体重的变异程度的比较;②均数相差较大时,如儿童身高与成人身高变异程度的比较。

9. 假设检验时,一般当P<0.05时,则拒绝H0,理论根据是什么?P值是指从H0规定的总体随机抽得等于及大于(或/和等于及小于)现有样本获得的检验统计量值(如t值或u值)的概率。当P<0.05时,说明在H0成立的条件下,得到现有检验结果的概率小于通常确定的小概率事件标准0.05。因小概率事件在一次试验中几乎不可能发生,现的确发生了,说明现有样本信息不支持H0,所以怀疑原假设H0不成立,故拒绝H0。在下“有差别”的结论的同时,我们能够知道可能犯Ⅰ型错误的概率不会大于0.05(即通常的检验水准),这在概率上有了保证。 10. 假设检验中?和P的区别何在?

答:?和P均为概率,其中?是指拒绝了实际上成立的H0所犯错误的概率,是进行统计推断时预先设定的一个小概率事件标准。P值是由实际样本获得的,在H0成立的前提条件下,出现等于及大于(或/和等于及小于)现有样本获得的检验统计量值的概率。在假设检验中通常是将P与?对比来得到结论,若P≤?,则拒绝H0,接受H1,有统计学意义,可以认为……不同或不等;若P>?,则不拒绝H0,无统计学意义,还不能认为……不同或不等。 11.怎样正确选用单侧检验和双侧检验?

答:单双侧检验首先应根据专业知识来确定,同时也应考虑所要解决的问题的目的。若从专业知识判断一种方法的结果可能低于或高于另一种方法的结果,则用单侧检验;在尚不能从专业知识判断两种结果谁高谁低时,用双侧检验。若研究者对低于或高于两种结果都关心,则用双侧检验;若仅关心其中一种可能,则取单侧检验。一般认为双侧检验较保守和稳妥,单侧检验由于充分利用了另一侧的不可能性,故更易得出有差别的结论,但应慎用。 14. 假设检验和区间估计有何联系?

答:假设检验用于推断质的不同即判断两个(或多个)总体参数是否不同,而可信区间用于说明量的大小即推断总体参数的范围。两者既相互联系,又有区别。假设检验与区间估计的联系在于可信区间亦可回答假设检验的问题,若算得的可信区间包含了H0,则按α水准,不拒绝H0;若不包含H0,则按α水准,拒绝H0,接受H1。也就是说在判断两个(或多个)总体参数是否不等时,假设检验和可信区间是完全等价的。

15. 为什么假设检验的结论不能绝对化?因为通过假设检验推断作出的结论具有概率性,其结论不可能完全正确,有可能发生两类错误。拒绝H0时,可能犯Ⅰ型错误;“接受” H0时可能犯Ⅱ型错误。无论哪类错误,假设检验都不可能将其风险降为0,因此在结论中使用绝对化的字词如“肯定”、“一定”、“必定”就不恰当。

17.在完全随机设计方差分析中SS组间、SS组内各表示什么含义?

答:SS组间表示组间变异,指各处理组样本均数大小不等,是由处理因素作用(如果有)和随机误差造成的;SS组内表示组内变异,指各处理组内变量值大小不等,是由随机误差造成的。

26.简述二项分布的应用条件。

答:二项分布的应用条件:①每次试验只会发生两种互斥的可能结果之一,即两种互斥结果的概率之和恒等于1;②每次试验产生某种结果(如“阳性”)的概率固定不变;③重复试验是互相独立的,即任何一次试验结果的出现不会影响其它试验结果出现的概率。 27.简述Poisson分布的性质特征。

答:Possion分布的性质特征:①总体均数λ与总体方差σ2相等;②当n很大,而π很小,且nπ=λ为常数时,Possion分布可看作是二项分布的极限分布;③当λ增大时,Possion分布渐近正态分布。一般而言,λ≥20时,Possion分布资料可作为正态分布处理;④Possion分布具备可加性。 30.简述二项分布、Poisson分布和正态分布间的联系。

答:二项分布、Possion分布和正态分布间的联系为:①在n很大,而π很小,且nπ=λ为常数时,二项分布的极限分布为Possion分布;②在n较大,π不接近0也不接近1时,二项分布B(n, π)近似正态分布N(nπ, n?(1??)),而相应的样本率p的分布也近似正态分布N(π, σp);③当λ增大时,Possion分布渐近正态分布。一般二言,λ≥20时,Possion分布资料可作为正态分布处理。 33. 对于四格表资料,如何正确选用检验方法?

答:(1)应分清是两样本率比较的四格表资料还是配对设计的四格表资料。(2)对于两样本率比较的四格表资料,应根据各格的理论值T和总例数n的大小选择不

同的?2计算公式:①当n≥40且所有的T≥5时,用?2检验的基本公式或四格表资料?2检验的专用公式,②n≥40,且任一理论频数T有1≤T<5,用四格表资料?2检验的校正公或或用四格表资料的Fisher确切概率法;③当n<40,或T<1时,用四格表资料的Fisher确切概率法。若资料满足两样本率u检验的条件,也可用u检验。(3)对于配对设计的四格表资料,若检验两种方法的检测结果有无差别时:①(b+c) ≥40,;②(b+c) <40,。 34. 说明行?列表资料?2检验应注意的事项。

答:(1)行×列表中的理论频数不应小于1,或1≤T<5的格子数不宜超过格子总数的1/5。(2)多个样本率比较,若所得统计推断为拒绝H0,接受H1时,只能认为各总体率之间总的来说有差别,但不能说明任两个总体率之间皆有差别。要进一步推断哪两个总体率之间有差别,需进一步做多个样本率的?2分割或多重比较(3)对于有序的R×C表资料不宜用?2检验。对于R×C表的资料要根据其分类类型和研究目的选用恰当的检验方法。 35. 说明R×C表的分类及其检验方法的选择。

答:(1)分类:R×C表可以分为双向无序、单向有序、双向有序属性相同和双向有序属性不同4类。

(2)检验方法的选择:①双向无序R×C表:若研究目的为多个样本率(或构成比)的比较,可用行×列表资料的?2检验;若研究目的为分析两个分类变量之间有无关联性以及关系的密切程度时,可用行×列表资料的?2检验以及Pearson列联系数进行分析。②单向有序R×C表:若R×C表中的分组变量是有序的,而指标变量是无序的,此种单向有序R×C表资料可进行行×列表资料的?2检验分析其构成情况;若R×C表中的分组变量为无序的,而指标变量是有序的,此种单向有序R×C表资料宜用秩和检验分析。③双向有序属性相同的R×C表:宜用一致性检验分析两种检测方法的一致性。④双向有序属性不同的R×C表:若研究目的如为分析不同年龄组患者疗效之间有无差别时,可把它视为单向有序R×C表资料,选用秩和检验;若研究目的为分析两有序分类变量间是否存在线性变化趋势,宜用有序分组资料的线性趋势检验。

37.什么叫做秩转换的非参数检验?它适用于哪些情况?答:秩转换的非参数检验是先将数值变量从小到大或等级从弱到强转换成秩后,再计算检验统计量,其特点是假设检验的结果对总体分布的形状差别不敏感,只对总体分布的位臵差别敏感。它适用于:不满足正态或(和)方差齐性的小样本计量资料;分布不知是否正态的小样本资料;一端或两端是不确切数值的资料;等级资料。

38.两组或多组等级资料的比较,为什么不能用?2检验,而用秩转换的非参数检验?答:若选行×列表资料的?2检验,只能推断两个或多个总体的等级构成比差别,这一般不是推断目的;而选秩转换的非参数检验,可推断两个或多个总体的等级强度差别,这是推断目的。 45.直线回归分析中应注意哪些问题?

答:(1)两个变量的选择一定要结合专业背景,不能把毫无关联的两种现象勉强作回归分析, (2)进行直线回归分析前应绘制散点图(3)对结果应有正确解释。反映两变量间数量上影响大小的统计量应该是回归系数的绝对值,而不是假设检验的P值。P值越小只能说越有理由认为变量间的直线关系存在,而不能说关系越密切或越 “显著”。直线回归用于预测时应尽量避免不合理的外延。结果中的决定系数可表示两变量关系的实际效果。 46.简述直线回归与直线相关的区别与联系。

答:两者的联系:①对于既可以作相关又可作回归分析的同一组数据,计算出的b与r正负号一致。②相关系数与回归系数的假设检验等价,即对于同一样本,tb=tr。③同一组数据的相关系数和回归系数可以相互换算:r=bY·SX/SY。④用回归解释相关:由于决定系数r2=SS回/SS总,当总平方和固定时,回归平方和的大X×

小决定了相关的密切程度,回归平方和越接近总平方和,则r2越接近1,说明相关的效果越好。

两者的区别:①资料要求上:相关要求X、Y服从双变量正态分布,这种资料进行回归分析称为Ⅱ型回归;回归要求Y在给定某个X值时服从正态分布,X是可以精确测量和严格控制的变量,称为Ⅰ型回归。②应用上:说明两变量间相互关系用相关,此时两变量的关系是平等的;而说明两变量间依存变化的数量关系用回归,用以说明Y如何依赖于X而变化。③意义上:r说明具有直线关系的两变量间相互关系的方向和密切程度;b表示X每变化一个单位所导致Y的平均变化量。④计算上:,。⑤取值范围:-1≤r≤1,- ∞<b<∞。⑥单位:r没有单位,b有单位。 47.简述直线相关与秩相关的区别与联系。

答:二者的联系:①两者所解决的应用问题相同,都可用来表示两个数值变量之间关系的方向和密切程度。②两个相关系数都没有单位,取值范围都在(-1,1)之间。③计算上,用秩次作积差相关,得到的就是秩相关系数。二者的区别:①资料要求不同:积差相关要求X、Y服从双变量正态分布,秩相关可以是任意分布。②由于资料要求不同,二者属于参数统计与非参数统计方法,所以符合分布条件时,积差相关的效率高于秩相关。③二者假设检验方法不同。