线性回归分析 下载本文

野外实习资料的数理统计分析

?

一元线性回归分析

一元回归处理的是两个变量之间的关系,即两个变量X和Y之间如果存在一定的关系,则通过观测所得数据,找出两者之间的关系式。如果两个变量的关系大致是线性的,那就是一元线性回归问题。

对两个现象X和Y进行观察或实验,得到两组数值:X1,X2,…,Xn和Y1,Y2,…,Yn,假如要找出一个函数Y=f(X),使它在X=X1,X2, …,Xn时的数值f(X1),f(X2), …,f(Xn)与观察值Y1,Y2,…,Yn趋于接近。

在一个平面直角坐标XOY中找出(X1,Y1),(X2,Y2),…,(Xn,Yn)各点,将其各点分布状况进行察看,即可以清楚地看出其各点分布状况接近一条直线。对于这种线性关系,可以用数学公式表示: Y = a + bX

这条直线所表示的关系,叫做变量Y对X的回归直线,也叫Y对X的回归方程。其中a为常数,b为Y对于X的回归系数。

对于任何具有线性关系的两组变量Y与X,只要求解出a与b的值,即可以写出回归方程。计算a与b值的公式为:

式中:为变量X的均值,Xi为第i个自变量的样本值,为因变量的均值,Yi为第i个

因变量Y的样本值。n为样本数。

当前一般计算机的Microsoft Excel中都有现成的回归程序,只要将所获得的数据录入就可自动得到回归方程。

得到的回归方程是否有意义,其相关的程度有多大,可以根据相关系数的大小来决定。通常用r来表示两个变量X和Y之间的直线相关程度,r为X和Y的相关系数。r值的绝对值越大,两个变量之间的相关程度就越高。当r为正值时,叫做正相关,r为负值时叫做负相关。r 的计算公式如下:

AAAAAA

式中各符号的意义同上。

在求得了回归方程与两个变量之间的相关系数后,可以利用F检验法、t检验法或r检验法来检验两个变量是否显著相关。具体的检验方法在后面介绍。 2.多元线性回归分析

一元回归研究的是一个自变量和一个因变量的各种关系。但是客观事物的变化往往受到多种因素的影响,即使其中有一个因素起着主导作用,但其它因素的作用也是不可忽视的。因此,我们还需要研究多种变量的关系,这种多个变量之间的关系就叫做多元回归问题。例如,水稻的产量不仅与生长期内的雨量有关,而且与温度也有关系。所以寻求水稻的产量不仅与生长期内的雨量之间的相互关系,就是多元回归问题。

如果假设自变量为X1,X2,…,Xm,因变量为Y,而且因变量与自变量之间是线性的关系,则因变量Y与自变量为X1,X2,…,Xm的多元线性回归方程为: Y = a+b1X1+b2X2+…+bmXm 式中:a,b1,b2,bm为常数。

因此,只要能够求出a,b1,b2,…,bm这些常数,就可以得到因变量Y与自变量为X1,X2,…,Xm之间的多元回归方程。具体的算法比较简单,但很烦琐。这里不再叙述。求解多元回归的计算机程序很多,只要将自变量的数据以及与其相对应的因变量的数据输入计算机程序中,立刻就可以求出a,b1,b2,…,bm各常数的值,从而可以获得因变量Y与自变量为X1,X2,…,Xm的多元线性回归方程。

例如,设已知因变量Y的自变量X1,X2,X3,共得18组数据,并已知Y对Xi存在着线性关系,求其回归方程。 样品 1 2 3 4 5 6 7

X1 0.4 0.4 3.1 0.6 4.7 1.7 9.4

X2 53 23 19 34 24 65 44

X3 158 163 37 157 59 123 46

Y 64 60 71 61 54 77 81

AAAAAA

8 9 10 11 12 13 14 15 16 17 18 10.1 11.6 12.6 10.9 23.1 23.1 21.6 23.1 1.9 26.8 29.9 31 29 58 37 46 50 44 56 36 58 51 117 173 112 111 114 134 73 168 143 202 124 93 93 51 76 96 77 93 95 54 168 99

通过求解,得到a=41.6516b1=1.7410b2=-0.0062b3=0.1553 所以,回归方程为

Y=41.6516+1.7410 X1 -0.0062 X2+0.1553 X3

通常可采用单相关系数、偏相关系数和复相关系数来说明这三个自变量与因变量之间是否有明显的线性关系以及它们之间相关的程度如何。单相关系数是指在不考虑其他因素影响的条件下,所求两个变量之间的相关系数。用rX1X2、rYX1和rYX2分别表示X1和X2、Y和X1以及Y与X2之间的单相关系数。偏相关系数是指在这三个变量中,将其中一个变量保持常数时,其他两个变量之间的相关系数。用rYX1X2和rYX2X1分别表示X2为常数时,Y与X1的偏相关系数和X1为常数时,Y与X2的偏相关系数。偏相关系数可以用单相关系数求得。当这三个变量中,同时考虑两个变量对另一个变量相关系数时,叫做复相关系数。用r(X1X2)Y表示X1和X2、两个自变量对于Y的复相关系数。 3.方差分析

方差分析法是分析多组平均数之间差异显著性时常用的一种统计方法。方差(或均方)是一个表示变异程度的量,它是离均差的平方和与自由度之商。在一项实验或调查中往往存在着许多造成生物形状变异的因素,这些因素有比较重要的,也有较次要的。分析时主要是把平方和与自由度按不同的变异起因分解为若干部分,从而构成来自不同起因的方差。利用它来检验各组平均数之间差异的显著性。在正态总体及方差相同的基本假定下,我们将利用方差比给出F分布的检验统计量。因此这种方法称为方差分析法。

方差分析是分析和处理试验或观测数据的主要方法之一。它首先被应用于农业试验,目前它在农业、工业、生物、医学等各部门有着广泛的应用。方差分析的方法往往与试验设计的方式紧密地联系在一起。对于从不同试验设计中得出观测资料,进行方差分析时将有不同的计算方法,类型繁多,但其基本原理却大同小异。在这里将结合一个较简单的例子介绍方差分析的数学模型和基本方法,以便于读者对方差分析的方法有一个大致的了解。

AAAAAA