《医学统计学》复习题 下载本文

医学统计学复习题

一、名词解释

1.总体:根据研究目的确定的同质的观察单位的全体,更确切的说,是同质的所有观察单位某种观察值(变量值)的集合。总体可分为有限总体和无限总体。总体中的所有单位都能够标识者为有限总体,反之为无限总体。

2.样本:从总体中随机抽取部分观察单位,其测量结果的集合称为样本(sample)。样本应具有代表性。所谓有代表性的样本,是指用随机抽样方法获得的样本。

3.随机抽样:随机抽样(random sampling)是指按照随机化的原则(总体中每一个观察单位都有同等的机会被选入到样本中),从总体中抽取部分观察单位的过程。随机抽样是样本具有代表性的保证。

4.变异:在自然状态下,个体间测量结果的差异称为变异(variation)。变异是生物医学研究领域普遍存在的现象。严格的说,在自然状态下,任何两个患者或研究群体间都存在差异,其表现为各种生理测量值的参差不齐。

5.计量资料:对每个观察单位用定量的方法测定某项指标量的大小,所得的资料称为计量资料(measurement data)。计量资料亦称定量资料、测量资料。.其变量值是定量的,表现为数值大小,一般有度量衡单位。如某一患者的身高(cm)、体重(kg)、红细胞计数(1012/L)、脉搏(次/分)、血压(KPa)等。

6.计数资料:将观察单位按某种属性或类别分组,所得的观察单位数称为计数资料(count data)。计数资料亦称定性资料或分类资料。其观察值是定性的,表现为互不相容的类别或属性。如调查某地某时的男、女性人口数;治疗一批患者,其治疗效果为有效、无效的人数;调查一批少数民族居民的A、B、AB、O四种血型的人数等。

7.等级资料:将观察单位按测量结果的某种属性的不同程度分组,所得各组的观察单位数,称为等级资料(ordinal data)。等级资料又称有序资料。如患者的治疗结果可分为治愈、好转、有效、无效、死亡,各种结果既是分类结果,又有顺序和等级差别,但这种差别却不能准确测量。

8.概率:概率(probability)又称几率,是度量某一随机事件A发生可能性大小的一个数值,记为P(A),P(A)越大,说明A事件发生的可能性越大。0﹤P(A)﹤1。

9.频率:在相同的条件下,独立重复做n次试验,事件A出现了m次,则比值m/n称为随机事件A在n次试验中出现的频率(freqency)。当试验重复很多次时P(A)= m/n。

10. 随机误差:随机误差(random error)又称偶然误差,是指排除了系统误差后尚存的误差。它受多种因素的影响,使观察值不按方向性和系统性而随机的变化。误差变量一般服从正态分布。随机误差可以通过统计处理来估计。

11.系统误差:是指由于仪器未校正、测量者感官的某种偏差、医生掌握疗效标准偏高或偏低等原因,使观察值不是分散在真值的两侧,而是有方向性、系统性或周期性地偏离真值。系统误差可以通过实验设计和完善技术措施来消除或使之减少。

12.参数:指总体的统计指标,如总体均数、总体率等。总体参数是固定的常数。多数情况下,总体参数是不易知道的,但可通过随机抽样抽取有代表性的样本,用算得的样本统

计量估计未知的总体参数。

13.统计量:是指样本的统计指标,如样本均数、样本率等。样本统计量可用来估计总体参数。总体参数是固定的常数,统计量是在总体参数附近波动的随机变量。

14.频数表(frequency table)用来表示一批数据各观察值或在不同取值区间的出现的频繁程度(频数)。对于离散数据,每一个观察值即对应一个频数,如某医院某年度一日内死亡0,1,2?20个病人的天数。对于散布区间很大的离散数据和连续型数据,数据散布区间由若干组段组成,每个组段对应一个频数。

15.算术均数(arithmetic mean)描述一组数据在数量上的平均水平。总体均数用μ表示,样本均数用 表示。

16.几何均数(geometric mean)用以描述对数正态分布或数据呈倍数变化资料的水平。记为G。

17.中位数(median)将一组观察值由小到大排列,n为奇数时取位次居中的变量值;为偶数时,取位次居中的两个变量的平均值。

18.极差(range)亦称全距,即最大值与最小值之差,用于资料的粗略分析,其计算简便但稳定性较差。

19.百分位数(percentile)是将n 个观察值从小到大依次排列,再把它们的位次依次转化为百分位。百分位数的另一个重要用途是确定医学参考值范围。

20.四分位数间距(inter-quartile range)是由第3四分位数和第1四分位数相减计算而得,常与中位数一起使用,描述偏态分布资料的分布特征,较极差稳定。

21.方差(variance):方差表示一组数据的平均离散情况,由离均差的平方和除以样本个数得到。

22.标准差(standard deviation)是方差的正平方根,使用的量纲与原量纲相同,适用于近似正态分布的资料,大样本、小样本均可,最为常用。

23.变异系数(coefficient of variation)用于观察指标单位不同或均数相差较大时两组资料变异程度的比较。用CV表示。

24.正态分布:若指标X的频率曲线对应于数学上的正态曲线,则称该指标服从正态分布(normal distribution)。通常用记号N(?,?)表示均数为?,标准差为?的正态分布。

25.标准正态分布:均数为0、标准差为1的正态分布被称为标准正态分布(standard normal distribution),通常记为N(0,1)。

26.抽样误差:抽样研究中,由抽样引起的样本统计量与总体参数间的差别称为抽样误差(sampling error)。统计上用标准误(standard error,SE)来衡量抽样误差的大小。其产生的本质原因是由于个体间存在变异。

27.可信区间:按预先给定的概率确定的包含未知总体参数的可能范围。该范围称为总体参数的可信区间(confidence interval,CI)。它的确切含义是:可信区间包含总体参数的可能性是1-?,而不是总体参数落在该范围的可能性为1-?。

28.相对数(relative number)是两个有联系的指标之比,是分类变量常用的描述性统计指标,常用相对数有率、构成比、比等。

29.率(rate)又称频率指标,说明一定时期内某现象发生的频率或强度。

30.构成比(proportion)又称构成指标,说明某一事物内部各组成部分所占的比重或分

22布。

31.标准化法(standardization method)是常用于内部构成不同的两个或多个率比较的一种方法。标准化法的基本思想就是指定一个统一“标准”(标准人口构成比或标准人口数),按指定“标准”计算调整率,使之具备可比性以后再比较,以消除由于内部构成不同对总率比较带来的影响。

32.统计表:将统计资料及其指标以表格形式列出,称为统计表(statistical table)。狭义的统计表只表示统计指标。

33.统计图(statistical graph):是将统计指标以点的位置、线段的升降、直条的长短或面积的大小等几何图形直观的表示事物间的数量关系。

34.普通线图 适用于连续性资料。用线段的升降来表示一事物随另一事物变化的趋势。 35.散点图

以点的密集程度和趋势表示两种事物间的相关关系。

二、简答题

1. 一位研究人员欲做一项实验研究,研究设计应包括那几方面的内容?

答:一般来讲,研究设计应包括两方面的设计:专业设计和统计设计。专业设计是针对专业问题进行的研究设计,如选题、形成假说、干预措施、实验对象、实验方法等;统计设计是针对统计数据收集进行的设计,如样本来源、样本量、干预措施的分配、统计设计类型测量指标的选择等。统计设计是统计分析的基础,任何设计上的缺陷,都不可能在统计分析阶段弥补和纠正。

2.试述极差、四分位数间距、标准差及变异系数的适用范围。

答:这三个指标均反映计量资料的离散程度。极差与四分位数间距可用于任何分布,后者较前者稳定,但均不能综合反映各观察值的变异程度;标准差最为常用,要求资料近似服从正态分布;变异系数可用于多组资料间度量衡单位不同或均数相差悬殊时的变异程度比较。

3.简述医学中参考值范围的涵义及制定参考值范围的一般步骤。

医学中常把绝大多数正常人的某指标范围称为该指标的参考值范围,也叫正常值范围。所谓“正常人”不是指完全健康的人,而是指排除了所研究指标的疾病和有关因素的同质人群。

制定参考值范围的一般步骤: (1)定义“正常人”,不同的指标“正常人”的定义也不同。 (2)选定足够数量的正常人作为研究对象。 (3)用统一和准确的方法测定相应的指标。

(4)根据不同的用途选定适当的百分界限,常用95%。

(5)根据此指标的实际意义,决定用单侧范围还是双侧范围。

(6)根据此指标的分布决定计算方法,常用的计算方法:正态分布法、百分位数法。 4.正态分布的特征:

服从正态分布的变量的频数分布由均数、标准差 完全决定。

(1) 是正态分布的位置参数,描述正态分布的集中趋势位置。正态分布以 为对称轴,左右完全对称。正态分布的均数、中位数、众数相同,均等于 。

(2) 描述正态分布资料数据分布的离散程度, 越大,数据分布越分散, 越小,数据分布越集中。 也称为是正态分布的形状参数, 越大,曲线越扁平,反之, 越小,曲线越瘦高。 5. 四格表资料卡方检验校正条件: