Skip to content

16.3.4 相关和回归

相关分析根据试验数据确定总体两个或两个以上变量之间是否存在某种相关关系, 回归分析用于确定变量间相关关系的形式.

16.3.4.1 两个可测变量的线性相关

1. 二维随机变量

下述公式通常适用于连续随机变量, 但对离散变量, 很容易用相应公式进行替换. 设 XY 构成二维随机变量(X, Y),其联合分布函数为

(16.146a)F(x,y)=P(Xx,Yy)=xyf(x,y)dxdy,(16.146b)F1(x)=P(Xx,Y<),F2(y)=P(X<,Yy).

随机变量 XY 称为相互独立,如果

(16.147)F(x,y)=F1(x)F2(y)

成立. 由其联合密度函数 f(x,y) 确定、对应于 XY 的基本统计量如下:

(1) 期望

(16.148a)μX=E(X)=xf(x,y)dxdy,(16.148b)μY=E(Y)=yf(x,y)dxdy.

(2) 方差

(16.149a)σX2=E((XμX)2),(16.149b)σY2=E((YμY)2).

(3) 协方差

(16.150)σXY=E((XμX)(YμY)).

(4) 相关系数

(16.151)ρXY=σXYσXσY.

假定上述任一期望值都存在. 协方差也可由下述公式计算

(16.152)σXY=E(XY)μXμY, 其中 E(XY)=xyf(x,y)dxdy.

相关系数是对 XY 线性相关关系的度量,原因如下:

ρXY2=1 ,则所有的点(X, Y)以概率 1 位于一条直线上. 若 XY 是独立随机变量,则其协方差等于 0,ρXY=0 . 由 ρXY=0 ,并不能推出 XY 独立, 但当它们服从密度函数为

f(x,y)=12πσXσY1ρXY2exp[12(1ρXY2)((xμX)2σX22ρXY(xμX)(yμY)σXσY+(yμY)2σY2)]

(16.153)

的二维正态分布时,则由 ρXY=0 可得到 XY 独立.

2. 两个变量的独立性检验

在实践中经常遇到问题: 当 ρXY=0 时,随机变量 XY 是否可视为相互独立? 其中样本容量为 n ,来自于二维正态分布总体,且有测量数据 (xi,yi)(i= 1,2,,n) . 检验方式如下.

(1) 提出假设 H:ρXY=0 .

(2) 确定显著性水平 α ,由 1463 页表 21.20 查出 t 分布的分位数 tα,m ,其中 m=n2 .

(3) 计算经验相关系数 rxy 和检验统计量 (样本函数)

(16.154a)t=rxyn21rxy2

(16.154b)rxy=i=1n(xix¯)(yiy¯)i=1n(xix¯)2i=1n(yiy¯)2.

(4) 若 |t|tα,m ,则拒绝假设.

16.3.4.2 两个可测变量的线性回归

1. 确定回归直线

如果说通过相关系数可探寻变量 XY 之间的相关关系,那么,下一个问题就是寻找其函数关系式 Y=f(X) . 这时通常考虑线性关系.

在最简单的线性回归情形下,假设对于任意定值 x ,总体中随机变量 Y 服从正态分布, 且期望为

(16.155)E(Y)=a+bx

方差为 σ2 ,与 x 相互独立. (16.155) 即指随机变量 Y 的均值线性依赖于定值 x . 总体的参数 a,bσ2 通常未知,可根据样本数据 (xi,yi)(i=1,2,,n) 运用最小二乘法近似估计. 最小二乘法要求

(16.156)i=1n[yi(a+bxi)]2=min!

成立, 从而可得估计值

(16.157a)b~=i=1n(xix¯)(yiy¯)i=1n(xix¯)2,a~=y¯b~x¯,σ~2=n1n2sy2(1rxy2)

且.

(16.157b)x¯=1ni=1nxi,y¯=1ni=1nyi,sy2=1n1i=1n(yiy¯)2.

(16.154b) 给出了经验相关系数 rxy . 系数 a~b~ 称为回归系数. 直线 y(x)=a~+b~x 称为回归直线.

2. 回归系数的置信区间

当确定了回归系数 a~b~ 后,下一个问题就是,如何较好地近似估计理论值 ab . 故检验变量形如

(16.158a)tb=(b~b)sxn2sy1rxy2

(16.158b)ta=(a~a)sxn2sy1rxy2ni=1nxi2.

这是服从自由度为 m=n2t 分布的随机变量的实现. 给定显著性水平 α ,查 1463 页表 21.20 可得分位数 tα/2;m ,对于 t=tat=tb ,由于 P(|t|<tα/2;m)= 1α 成立,故

(16.159a)|b~b|<tα/2;n2sy1rxy2sxn2,(16.159b)|a~a|<tα/2;n2sy1rxy2i=1nxi2sxn2n.

回归直线 y=a+bx 的置信域,可由式 (16.159a,16.159b) 所给出的 a,b 的置信区间确定 (参见文献 [16.4], [16.26]).

16.3.4.3 多元回归

1. 函数关系

设变量 X1,X2,,XnY 之间存在函数关系,该关系可用理论回归函数

(16.160)y=f(x1,x2,,xn)=j=0sajgj(x1,x2,,xn)

描述. 函数 gj(x1,x2,,xn) 是关于 n 个独立变量的已知函数. (16.160) 中的系数 aj 是线性组合中的常数乘子. 式 (16.160) 也称为线性回归,虽然 gj 可是任意函数.

| 函数 f(x1,x2)=a0+a1x1+a2x2+a3x12+a4x22+a5x1x2 是关于两个变量的完全二次多项式,其中 g0=1,g1=x1,g2=x2,g3=x12,g4=x22,g5=x1x2 ,是理论线性回归函数的一个实例.

2. 向量形式的记法

在多元情形, 以向量

(16.161)x=(x1,x2,,xn)T

的形式记公式很方便. 此时, (16.160) 可记为

(16.162)y=f(x)=j=0sajgj(x).

3. 正则方程组及求解

由于随机测量存在误差, 理论关系式 (16.160) 不能由测量值

(16.163a)(x(i),fi)(i=1,2,,N)

确定. 以

(16.163b)y=f~(x)=j=0sa~jgj(x)

的形式求其解,系数 a~j 作为理论系数 aj 的估计值,可通过最小二乘法 (参见第 1097 页 16.3.4.2, 1.) 由方程

(16.163c)i=1N[fif~(x(i))]2=min!

确定. 引入记号

a~=(a~0a~1a~s),f=(f1f2fN),G=(g0(x(1))g1(x(1))gs(x(1))g0(x(2))g1(x(2))gs(x(2))g0(x(N))g1(x(N))gs(x(N)))

(16.163d)

由 (16.163c) 可得到所谓正则方程组

(16.163e)GTGa~=GTf

用来确定 a~ . 矩阵 GTG 对称,故楚列斯基方法 (参见第 1245 页 19.2.1.2) 特别适用于求解式 (16.163e).

根据下表中列出的样本数据, 试确定回归函数 (16.164) 的系数:

(16.164)f~(x1,x2)=a0+a1x1+a2x2.

x1

5

3

5

3

x2

0.5

0.5

0.3

0.3

f(x1,x2)

1.5

3.5

6.2

3.2

由 (16.163d) 可推出

(16.165)a~=(a~0a~1a~2),f=(1.53.56.23.2),G=(150.5130.5150.3130.3)

且 (16.163e) 式为

4a~0+16a~1+1.6a~2=14.4,a~0=7.0,(16.166)16a~0+68a~1+6.4a~2=58.6,a~1=0.25,1.6a~0+6.4a~1+0.68a~2=5.32,a~2=11.

4. 注

(1) 为确定回归系数,使用插值 f~(x(i))=fi(i=1,2,,N) ,即

(16.167)Ga~=f.

s<N 时,(16.167) 是超定方程组,可用豪斯霍尔德法求其解 (参见第 1280 页 19.6.2.2). 用 GT 乘以 (16.167) 式则得到 (16.163e),也称为高斯变换. 若矩阵 G 的列线性无关,即矩阵 G 的秩等于 s+1 ,则正则方程组 (16.163e) 有唯一解,这与由豪斯霍尔德法所得到的结果 (16.167) 一致.

(2) 在多元情形下,也可以使用 t 分布确定回归系数的置信区间,与 (16.159a , 16.159b) 类似.

(3) 借助于 F 分布 (参见第 1075 页 16.2.4.7),使用所谓等价检验分析 (16.163b) 式也是可行的. 检验可判断形如 (16.163b) 但有较少项的解是否为理论回归函数 (16.160) 的充分逼近 (参见文献 [16.9]).

version 1.24.0