数据分布特征可以从三个方面进行测度和描述:一是分布的集中趋势,反映各数据向其中心值靠拢或集中的程度;二是分布的离散程度,反映各数据远离其中心值的趋势;三是分布的形状,反映数据分布的偏态和峰态。
2. 简述众数、中位数和平均数的特点和应用场合。
众数是一组数据分布的峰值,不受极端值的影响,缺点是具有不唯一性。众数只有在数据量较多时才有意义,数据量较少时不宜使用。主要适合作为分类数据的集中趋势测度值。
中位数是一组数据中间位置上的代表值,不受极端值的影响。当数据的分布偏斜较大时,使用中位数也许不错。主要适合作为顺序数据的集中趋势测度值。
平均数对数值型数据计算的,而且利用了全部数据信息,在实际应用中最广泛。当数据呈对称分布或近似对称分布时,三个代表值相等或相近,此时应选择平均数。但平均数易受极端值的影响,对于偏态分布的数据,平均数的代表性较差,此时应考虑中位数或众数。 标准分数有哪些用途?
标准分数给出了一组数据中各数值的相对位置。在对多个具有不同量纲的变量进行处理时,常需要对各变量进行标准化处理。它还可以用来判断一组数据是否有离群数据。 怎样理解置信区间?
置信区间:由样本统计量所构造的总体参数的估计区间 解释95%的置信区间。
95%的置信区间指用某种方法构造的所有区间中有95%的区间包含总体参数的真值。
Za/2的含义是什么
含义:Za/2是标准正态分布上侧面积为a/2的z值,公式是统计总体均值时的边际误差。
解释独立样本和匹配样本的含义。
独立样本:如果两个样本是从两个总体中独立抽取的,即一个样本中的元素与另一个样本中的元素相互独立。
匹配样本:一个样本中的数据与另一个样本中的数据相对应。 简述样本量与置信水平、总体方差、边际误差的关系。 样本量越大置信水平越高,总体方差和边际误差越小 什么是方差分析?它研究的是什么?
答:方差分析就是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。它所研究的是非类型自变量对数值型因变量的影响。 方差分析中有哪些基本假定? 答:方差分析中有三个基本假定: (1) 每个总体都应服从正态分布 (2) 各个总体的方差σ2必须相同 (3) 观测值是独立的
说明误差分解的基本原理
是通过计算来比较因某一特定因素带来的样本值的差异与随机偶然因素对样本值的差异的大小,从而判断该因素对总体是否有统计意义。 解释主效应和交互效应
在多因素实验研究中,主效应就是在考察一个变量是否会对因变量的变化发生影响的时候,不考虑其他研究变量的变化,或者说将其他变量的变化效应平均掉。换句话说,就是其他研究变量都不变化的情况下,单独考察一个自变量对因变量的变化效应。
交互效应,则是反映两个或两个以上自变量相互依赖、相互制约,共同对因变量的变化发生影响。换句话说,如果一个自变量对因变量的影响效应会因另一个自变量的水平不同而有所不同,则我们说这两个变量之间具有交互效应。
简述完全随机化设计、随机化区组设计、因子设计的含义和区别。
(4) 答:完全随机化设计是将k种“处理”随机地指派给试验单元的设计。
随机化区组设计是先按一定规则将试验单元划分为若干同质组,称为“区组”,然后再将各种处理随机地指派给各个区组。因子设计指考虑两个因素(可推广到多个因素)的搭配试验设计。
区间估计的基本原理是什么?
参数估计一般是指根据样本信息,对总体分布中的未知参数θ进行估计,而我们通常都是对均值或方差进行估计。区间估计是参数估计的一种,它是指对于给定的置信度1-α,总体参数θ的取值在某一区间内的概率是1-α,而这一置信区间正是我们需要求解的。
用公式表示就是:P{θ1<θ<θ2}=1-α,其中θ1、θ2是两个统计量。(θ1,θ2)就是置信区间,显然因为是来自于样本,而抽样带有随机性,所以它是一个随机区间。
置信区间代表的意义就是:样本容量固定为n,假如对总体进行N=1000次抽样,就
得到了1000个置信区间,这些区间有的包含θ的真实值,有的不包含。但假设当置信度1-α=95%时,这一千个区间就大约有1000*95%=950个包含了θ的真实值。
简述评价估计量的标准
1、无偏性:无偏性不是要求估计量与总体参数不得有偏差,因为这是不可能的,既然是抽样,必然存在抽样误差,不可能与总体完全相同。无偏性指的是如果对这同一个总体反复多次抽样,则要求各个样本所得出的估计量(统计量)的平均值等于总体参数。符合这种要求的估计量被称为无偏估计量。
2、有效性:估计量与总体之间必然存在着一定的误差,衡量这个误差大小的一个指标就是方差,方差越小,估计量对总体的估计也就越准确,这个估计量也就越有效。
3、一致性:一致性指的是当样本量逐渐增加时,样本的估计量(统计量)能够逐渐逼近总体参数。
解释置信水平的含义
置信水平是指总体参数值落在样本统计值某一区内的概率;而置信区间是指在某一置信水
平下,样本统计值与总体参数值间误差范围。置信区间越大,置信水平越高。
什么是P值?利用P值进行检验和利用统计量进行检验有什么不同
犯第I类错误的真实概率就是P值。用统计术语来说,如果原假设Ho是正确的,所得到的样本结果会像实际观测结果那么极端或更极端的概率成为P值,也称为观察到的显著性水平。
值决策优先于统计量决策。与传统的统计量相比,P值决策提供了更多的信息。 2.根据统计量决策,如果拒绝原假设,也仅仅是知道犯错误的可能性是那么大,但究竟是多少却不知道。而P值则是算出的犯第I类错误的实际概率。
在假设检验中,为什么采取 不拒绝原假设 而不采取 接受原假设
1. “接受”的说法有时会产生误导
2. 采用“不拒绝”的表述方法更合理一些,因为这种表述意味着样本提供的证据不够
强大,因而没有足够的理由拒绝,这不等于已经证明原假设正确
为什么说假设检验不能证明原假设正确
1. 假设检验的目的主要是收集证据拒绝原假设,而支持你所倾向的备择假设 2. 假设检验只提供不利于原假设的证据。因此,当拒绝原假设时,表明样本提供的证
据证明它是错误的,当没有拒绝原假设时,我们也没法证明它是正确的,因为假设检验的程序没有提供它正确的证据
样本量的大小与显著性有怎样的关系
通常在做某种统计推断时,显著性水平要求越高,要达到该显著性水平的样本量越大。 样本量越大,检验统计量的值夜就越大,P值就越小,就越有可能拒绝原假设。反之则相反。
解释原假设和备择假设
原假设:研究者想收集证据予以反对的假设。 备择假设:研究者想收集证据予以支持的假设。
什么是标准化检验统计量?为什么要对统计量进行标准化?
标准化检验统计量是根据样本观测结果计算出对原假设和备择假设作出决策的检验统计量,对样本估计量标准化的结果,它反映了点估计量与假设的总体参数相比相差多少个标准差的距离。
标准化检验统计量?点估计量—假设值点估计量的抽样标准差
没标准化的统计量不能直接作为判断的依据,只有将其标准化后,才能用于度量它与原假设的参数值之间的差异程度。
怎样理解显著性水平
通常以α表示,是一个临界概率值。它表示在“统计假设检验”中,用样本资料推断总体时,犯拒绝“假设”错误的可能性大小。α越小,犯拒绝“假设”的错误可能性越小。
6第I类错误和第II类错误分别是指什么?它们发生的概率大小之间存在怎样的关系?
第Ⅰ类错误原假设为正确时拒绝原假设所犯的错误,第Ⅰ类错误的概率记为,被称为显著性水平。
原假设是错误的却没拒绝原假设,这时所犯的错误称为第II类错误,犯第Ⅱ类错误的概率记为
,因此也成为
错误。
假设检验中犯的第I类错误的概率也称为显著性水平,记为,它是人们事先指定的犯第I类错误概率的最大允许值。显著性水平越小,犯第I类错误的可能性自然越小,但犯第II类错误的可能性则随之增大。反之相反。
怎样理解统计上是显著地?
当拒绝原假设时,我们称样本结果是统计上显著的,这样的(样本)结果不是偶然得到的,或者说,不是靠机遇能够得到的同样,结果是不显著的,则表明这样的样本结果很可能是偶然得到的。