第一章:描述性统计 统计:
描述性统计descriptive statistics 推断性统计inferential statistics
#描述性统计主要是对一组给定的测量数据进行总结的方法,而推断性统计是把对给定数据的测量结果推广到更大的潜在数据集的方法。 变量variable和常量constant 变量:
连续变量continuous variable & 离散变量discrete variable
一个具有有限水平但相邻水平之间不再可能赋值的变量被称为离散变量。一个可以无穷小精确度来测量的变量(至少在理论上,可是求两个任意小的测量水平之间的中间值)被称为连续变量。
自变量indepentent variable & 因变量dependent variable 称名/类别量尺(nominal/categorical scale):数字是强制定义的,不可计算。 顺序/等级量尺(ordinal scale):不是简单分类,而是有一定顺序。然而,这些排名数字并不能看作真正的数值,因为等级之间不是等距的。研究者在对这类的数据进行数学运算时,已经假设它们是等距数据了。
等距和等比量尺(interval and ratio scales):不但具有等距特征,而且还兼具等比特征的量尺被称之为等比量尺。尽管所有等比量尺都有等距特征,但有些量尺只有等距特征而不具备等比特征。这些量尺被称为等距量尺。等距量尺是没有真正零点的。E.g. 摄氏和华氏温度,IQ值等。
#不能混淆变量和用来测量变量的量尺。同一个变量可以用多种量尺来测量,例如:测量温度可以用顺序量尺(第一热,第二热),也可以用等距量尺(摄氏/华氏度),还可以用等比量尺(开尔文,有绝对零度)。尽管在终极意义上,所有量尺都是离散的,但是具有很多水平的量尺通常被认为是连续的,而水平相对少的量尺则当作离散处理。而用于测量离散变量的量尺总是离散的。
参数统计(parameter statistics)和非参数统计:
基于分布及其参数的统计方法叫参数统计。从等距/等比量尺获得的数据可以用光滑的分布来表示。这些数据分布有时会同一些众所周知的数学分布(如正态分布)类似,而这些分布可通过几个值(参数)来表述。
参数统计只适合用于处理等距/等比数据。如果你的所有数据都是基于称名获顺序量尺,或者你的等距/等比数据不能满足参数统计的分布假设,那么就应该采用非参数统计(第七章)。 当自变量是称名变量而因变量为等距/等比变量时就可以使用参数统计。假设自变量和因变量都是等距/等比变量,我们还是可以采用参数统计,但是是不同类型的参数统计(参见第九章)。如果两个变量都不是等距/等比变量,则该适用非参数统计的方法。
实验研究和相关研究(correlational study):
对实验和相关研究所采用的统计方法通常是一样的,不同的是相关研究不能得出因果结论。 总体population & 样本sample:样本是总体的子集。事实上,统计学家认为总体不过是数字集而已(最好是无穷大的集合)。
不论数据来自哪里,只要某些假设得到满足,用于分析数据的统计方法都是一样的。
推断统计的方法是从所抽取的样本的特质中得出有关总体的某些结论。严格来说,这些结论只有样本是随机样本(random sample)时才会有效。实际上,你几乎不可能获得真正的随
机样本,因此绝大多数研究都是利用方便样本(sample of convenience)开展研究。
统计量(statistic)指的是从一个样本而不是一个总体中所获得的关于数据的值。它可以是样本中所有数据中提取运算出来的一个值(如均数),也可以是样本中的某个数值(如最大值)。如果采用从样本数据中获取统计量的同样数学计算去分析所对应的总体,那么其结果就称为总体参数(parameter),而不叫做样本统计量。但是,样本参数常常倍用来估计或判断总体参数。
从样本统计量来估计或推断总体参数的方法被称作推断性参数统计(inferential parametric statistics)。如果变量是只有有限个值的离散变量,或者并不知道所关注变量的总体分布特征,那么最好采用分布无关性统计方法(distribution-free statistics)或非参数统计方法(non-parametric statistics)(第七章)。
如果随机变量(random variable)是连续的且总体为无穷大,那么表示数值的概率曲线就叫概率密度函数(probability density function)。
第二章:频率表、图和分布
一组以数字顺序排列的数据常常被称作数据(array)。 简单频数分布(simple frequency distribution) 分组频数分布(grouped frequency distribution) 累计频数分布(cumulative frequency distribution) 累积相对频率分布(cumulative relative frequency distribution)---累积百分比频数(cumulative percentage frequency, cpf)
cpf列有一个专有名词:百分位(PR: percentile ranks)。百分位的定义是群体中位于给定数值或低于该数值的百分比。
百分位数可被定义为某一给定的百分位所对应的分数。最令研究者感兴趣的百分位数是四分位数(quartile),即25%、50%和75%,或者十分位数(decile),即10%、20%等。 众数(mode):在一个分布中发生频数最高的那个分数被称为分布中的众数。一个分布可以有不止一个众数。 图:
条形图(bar graph):当X是离散变量而不是连续变量是,用条形图表示数据比较适合。所以说,条形图适合于称名或顺序变量。 频数直方图(frequency histogram):描述连续变量的条形图,其长条前后相连,针对每个值的长条应该足够宽使它正好处于下限和上限之间。 频数折线图(frequency polygon):由直方图的长条顶部各中心的连线组成。但是,正常情况下,绘制频数折线图时并不需要先绘制直方图。需要指出的是,频数折线图的最末端和最始端分别会通过一条执线连到X轴。众数就是在折线图上的最高点所对应的在X轴上的分数。 #频数折线图封闭的空间表示了在分布中的所有数值的个数。
累计频数折线图(cumulative frequency polygon)也叫累计曲线(ogive),有着与简单频数折线图完全不同的形态。需要指出的是,在累计频数折线图中,图上的各点并不是位于所计算的值上,而是位于每个值的上限上。
心理学研究者根据他们自己的数据完成的频数折线图通常不怎么光滑。这是由于较少测量次数以及不精确的测量量度所倒置的。另一方面,一个数学或理论分布是由一个数学方程来决定的,并且通常是一条完全光滑的曲线。最为人所知的数学分布是正态分布(normal
distribution)。
简单频数分布不适合用来表达过多的不同数值。解决办法就是把数值分组为等距的组合,即组距(class interval)。一个用来表示每一组距的频数的表格被称之为分组频数分布(grouped frequency distribution)。
表观极限(apparent limit) & 真实极限(real limit):通常来说,不管测量的单位是什么,真实极限只是比表观极限高出或低于半个单位。组距的间距用真实极限而不是表观极限来进行有关计算。
一个数值不可能同事出现在两个组距中。两个相邻组距之间没有间隔。
选择组距宽度:在缺少某些外在标准时,分组时最好至少能有10歌组距才能保证得到关于分布的详细描述。一般认为,超过20个组的组距就会因组太多而不能很好地描述分布的情况。然而在选择组距宽度时,我们至少可以遵守另外一个原则:如果可能则尽量使用5的倍数。为了避免太多组的频数为0或者很小的情况,组的个数最好不要超过样本大小的平方根。
用线性内插法(linear interpolation)求百分位数和百分位:
使用线性内插法的一个重要的前提假设就是在每个间隔内的分数都是均匀(线性)分布的。
绘制频数分布图的指导原则(只列举几条):一是你应该使X轴比Y轴长50%使得图的高度只有宽度的三分之二左右(接近这个比例可以让人更容易通过肉眼来解释数据)。四是原则上X轴和Y轴的交点必须为0,而且当向上或右移时,数值会增大。五是你应该选择一个合适的测量单位和标尺(即多大的距离代表一个测量单位),以使得你的直方图或折线图几乎充满整个图形但又不超过X轴和Y轴的范围。
为同时满足第四和第五条原则,有时候可以使用断裂量尺,即在X轴或Y轴上标记一个缺口使得0点被包括在其中但分布能基本上充满数据图(Y轴上标记缺口来表示频数都很高但彼此之间差别不大的情况)。
茎叶图:既能保持分组分布的基本优势又不损失原始数据信息的替代方法。包括前导数(leading digit)和尾数(trailing digit)。就像简单频数分布一样,一个数值段即使没有任何数值包括在其中也应该列出来。
第三章:集中趋势和变异的测量 集中趋势(central tendency) 平均数(mean/average):算术平均数(arithmetic mean)、调和平均数(harmonic mean)、几何平均数(geometric mean) 众数(mode) 中数(median):第50百分位数。 众数的优点和缺点:众数的一个缺点是它测量集中趋势时有时并不稳定。而我们希望对集中趋势的测量值能更加稳定一些。优点是,当处理等距/等比数据时,用众数来描述一个分布的集中趋势的最大有时就是区分出多峰或是单峰分布。当在处理称名数据时,其它集中趋势指标(如均数)均无法测量,众数就成为表示集中趋势的唯一指标。
#我们不能求称名数据的中数,因为这些数据(如不同的精神疾病诊断)并没有任何故有的顺序。然而,如果数据可以排列成某种有意义的序列,那么你处理的就是顺序数据,而对顺序数据则可以求众数(还有一些需要注意的方面,看P62)。当一些分数不确定时,中数比起均数可以更好地描述数据(例如,超过最大上限的反应时数据存在时,均数不能作为衡量集中趋势的最佳指标)。在频数折线图上,如果在中数位置从X轴向上画一条垂直线与频数