第五章 概率与概率分布
学习要点
第一节 概率的基本概念
第二节 随机变量及其概率分布 第三节 相对差异量表 第四节 SPSS实验——标准分数 本章小结
学习要点
1.熟练掌握百分等级与标准分数的意义及分析方法 2.应用百分等级与标准分数解释实际问题
3.了解分数的意义及其他的相对指标在实际工作中的应用
第一节 概率的基本概念
在语言实验研究中,我们通常选取研究对象的一部分(即样本)加以研究, 在此基础上, 通过推断统计对所有的研究对象 (即总体) 的情况作出推断。在进行这种推断时,我们不仅要指出总休可能是什么情况,而且还要指出我们进行这种推断的把握程度有多大,或者总体出现这种情况的可能性有多大, 这个 “可能性” 就是概率。 因此, 要学好推断统计, 就要对概率这一概念有所了解。
后验概率(或统计概率)是指通过实际观测,根据在总观测次数中某事件所出现的次数来计算该事件出现的概率,这种概率其实是一个相对频率,是实际概率的估计值。
一般用A代表随机事件 (例如 “全体学生中的男生” ) ,用P代表频率 (概率估计值) ,或用n表示观测的次数,用m表示事件出现的次数
原始分数,又称观测分数,它是观测所得的、未经任何加工的分数。在生活中人们时常用这种分数来评价他人,却不知由于原始分数本身的固有的缺陷造成使用和评价上的失误。原始分析的缺陷主要表现在三个方面。
一、原始分数无明确的意义
在考试或测验中,人们习惯用“分”作为分数的单位,然而“1分”究竟表示什么?其价值是多少?这在传统考试中并无科学的界定,就是说在传统的考试中对“分”的概念并无严格的定义。
二、原始分数的单位不等值
由于原始分数缺乏明确的定义,造成其单位的不等值。众所周知,相同的单位在人们的心目中都有相等的价值。譬如1
公斤,在每个人心目中的认识都是一样的。不过,在传统的考试中却并非如此,譬如语文考试中的“1分”与数学考试中的“1分”就不见得等值。同是语文测验,不同的阅卷者因评分的宽严不一致,嗜好不同,看问题的角度不同等等,所给出的“1分”也不尽相同。因此,某考生语文得80分,数学也得80分,我们并不能确定该生的语文学习水平和数学学习水平相同。有人在某次全国统一高考的语文试卷中随机抽取了一名考生的作文,连同教育部规定的评分标准,分别请中学语文教师评阅,在67位评阅者中,给分最高的是25分,给分最低的是6分。可见,在这些人的以上中,“分”的价值是不同的。所以说,原始分数的“1分”实际上是不等值的。
三、原始分数不具可比性
由于原始分数缺乏明确的定义,单位不等值,因此也就不具有可比性。绝对数或绝对统计量不能说明其在整个观测中的相对地位,最多只能表示观测值的高低或大小,却不能说明它在团体中的地位情况。而等级顺序只能表示一个分数的高低次序,不也不能表示它在团体中的地位,更不能与其他团体的分数或等级进行比较。这是因为它们的比较尺度不一样。因此,对分数意义的无知,往往会错怪一个人,甚至还会酿成大错。如青海一九岁学生的母亲,见孩子的两门功课都在90分以下,便认为成绩差了,一气之下,竟将孩子打死。事实上,该生的一门功课名列全班第一,另一门名列第二。又如某生名列第15名,是难以评价其成绩是优、良,还是中、差的,因这与他所处团体的人数多少有直接关系。
四、四、原始分数没有可加性
众所周知,80米是不能与80尺直接相加来计算长度,因为两者的单位不等值。同样,观测所得的原始分数因其单位不等值,也是不能直接相加的。然而,在传统成绩评价中,人们不仅把内容、题量、难度等各不相同,而且各科满分值也不尽相同的试卷得分直接相加以来求总成绩,这无异于把不同测量单位的事物相加的做法。由此可见,将各学科分数直接相加计算总分的方法是很不科学的。
此外,当测量单位不同或均数相差悬殊时,绝对数或绝对统计量也是无法直接进行对比。譬如,比较一个人身高和体重,或是田赛与径赛成绩时,因其测量单位不同是无法比较的。若要进行这类比较分析,必须将绝对数或绝对统计量进行转换,使其变换成为一种可比较的相对量数。
相对量数包括相对地位量数和相对差异量数。前者用于说明一个绝对数在某一团体中所处的相对位置的高低,后者则用于比较各列数据分布的差异程度的大小。
第二节 随机变量及其概率分布
随机变量是指在实验中受随机(或偶然)因素的影响,其取值无法进行准确预测的变量。譬如,我们要随机选取一些学生,来调查其家庭的人口数, “人口数” 是一个随机变量, 因为它可以取这一个值, 也可以取那一个值, 究竟取哪一个值完全是偶然的, 无法碗切地预测, 这要等到实验 (实际抽取)之后才能得知。我们可以用某种方法对随机变量可取数值的概率分布进行描述,这就是随机变量的概率分布。
相对地位量数是就某一特质来描述个体在团体中所占的地位的量数。这里所指的相对地位是指与某一参照点比较起来,这一个体是占在什么地位,是在此参照点以上多少,或是在此参照点以下多少。常用的相对地位量数的主要是百分等级和标准分数。
一、百分等级(PR) (一)百分等级的定义
如前所述,当一个体的等级为15时,我们无法评价其在团体中位置高低。因为这与团体的人数有密切关系。若该团体只有20人,他的成绩属中下水平;若该团体有30人,他的成绩属中等水平,若该团体有200人,他的成绩则属优秀水平。可见,普通的等级顺序是难以看出成绩优劣的。百分等级不同,它能表示一个学生的成绩在他所属的团体中的相对地位。
百分等级(percentile rank)是指把一组观测值先按高低次序排列起来,然后计算出某个个体的分数在百分位上超出多少人,或是在此分数下占多少百分比的一种量数,用符号PR表示。百分等级是将全体人数作为100来计算的,以确定每一个个体分数在这100中的位置如何。譬如,某一个体的百分等级为70,则表明该生的成绩超过他所在团体70%的人,就是说比他差的人有70%,比他好的只有30%。百分等级越大,所代表的等级越高,反之则越低。 (二)百分等级的计算
计算百分等级实际上就是求某一数(即低于给定数的分数的次数)对另一数(即总次数)的百分数,其计算方法有原始量数法和次数分布法。 1.原量数法
原量数法是直接求利用原始数据进行计算的方法,其公式为
PR?100?100R?50N
式中,R表示某一原始分数在按大小排列的数列中的顺序或名次,N表示分数的总次数。
假设某团体有5个人,依次排序(R)为1,2,3,4,5。试问每个人的百分等级是多少呢?公式的形成过程如下。
100首先,确定每一个体在100中所占的分数。以全体人数(或分数的个数)除以100,即有N,表示在百分量表上每个100?205人应占的分数。本例每一个体在该团体所占的分数为。如图5-1所示,第1名占坐标上的0~20,第2名占坐标上
的20~40,??,第5名占坐标上的80~100。
100100100100?1?2NNNN其次,确定第R名个体的百分等级。如第1名占第一个,即为,第2名占第二个,即为;??;
100100100100?1?20?2?40RN55N第R名占第R个,即有。本例中,第1名的百分等级为,第2名的百分等级为,??,100?5?100第5名的百分等级为5。
第三节 相对差异量表
作为差异量数重要指标的标准差,在进行差异程度比较时的最大缺陷就是受测量的单位的限制。典型的事例是一组物体重量的标准差为8克,长度的标准差是8厘米,虽然两个数值相等,却无法反映这些物体的重量和长度谁的差异大一些或小一些。在这种情况下,我们需要一种具有共同单位的相对差异量数来表达。
一、相对差异量的定义与公式
相对差异量数是指差异量数与集中量数的百分比,又称作差异系数(Coefficient of Variation),用符号CV表示。各种差异量,都可以用此公式求其相对差异系数,如平均差差异系数等。其中,最常用的是标准差系数,它是标准差与平均数的百分比值,用符号
CVS表示,其公式为