在本节中, 我们均假设自变量 x 与因变量 Y 之间的确服从 (10.1.1) 给出的线性回归模型. 此外, 还假设随机误差 ε 服从正态分布 N(0,σ2), 此时即有Yi∼N(β0+β1xi,σ2).首先引入如下引理:
设线性回归模型 (10.1.1) 中的随机误差 ε 服从正态分布 N(0,σ2), 并令 σ2 为式 (10.2.7) 给出的 σ2 的点估计量. 则
1. | σ2 与 β1 相互独立, 且 σ2 也与 β0 相互独立. |
2. | σ2(n−2)σ2∼χ2(n−2). |
引理
10.3.1 的证明将放在本节最后一小节作为选读内容. 但引理中
χ2 分布的自由度
n−2 可由前面
E[SSRes] 的计算结果猜出一二.
β1 的区间估计以及假设检验
首先考虑 β1 的置信区间与假设检验. 注意到β1=Sxx1i=1∑n(xi−x)Yi可表示为相互独立的正态分布随机变量 Y1,…,Yn 的线性组合, 故 β1 也服从正态分布, 其期望为 β1, 而方差即为 σ2/Sxx, 也就是说β1∼N(β1,Sxxσ2),而引理 10.3.1 则保证了 (n−2)σ2/σ2 服从 χ2(n−2) 且与 β1 独立. 因而σ2/σ2(β1−β1)/σ2/Sxx=σ2/Sxxβ1−β1必定服从自由度为 n−2 的 t 分布, 且与 β0,β1 以及 σ2 的取值无关. 接下来我们依次处理 β 的置信区间与假设检验问题:
1. | 设置信水平取为 1−α. 由于 (β1−β1)/σ2/Sxx∼t(n−2) 对 β0,β1 与 σ2 的所有可能取值均成立, 故可将其作为枢轴量, 得P⎝⎛∣∣σ2/Sxxβ1−β1∣∣≤tα/2(n−2)⎠⎞=1−α,对上式中括号内的不等式进行等价变形, 可得P⎝⎛⎣⎡β1−tα/2(n−2)Sxxσ2,β1+tα/2(n−2)Sxxσ2⎦⎤∋β1⎠⎞=1−α.从而 β1 的一个置信水平为 1−α 的置信区间为⎣⎡β1−tα/2(n−2)Sxxσ2,β1+tα/2(n−2)Sxxσ2⎦⎤. |
2. | 考虑假设检验问题H0:β1=β1,0,H1:β1=β1,0,其中 β1,0 为事先取定的常数. 则可以取检验统计量为T=σ2/Sxxβ1−β1,0,它在原假设 H0 下服从分布 t(n−2). 故 p 值为 1p^=2⎝⎛1−Fn−2t⎝⎛σ2/Sxx∣∣β1−β1,0∣∣⎠⎞⎠⎞,其中 Fn−2t 表示分布 t(n−2) 的分布函数. 而给定显著性水平 α 后, 相应的拒绝域可由σ2/Sxx∣∣β1−β1,0∣∣>tα/2(n−2)给出. |
β0 的区间估计以及假设检验
接下来考虑 β0 的区间估计与假设检验. 与 β1 的情形类似, 可得β0∼N(β0,σ2(n1+Sxxx2)),而引理 10.3.1 保证了 (n−2)σ2/σ2 服从 χ2(n−2) 且与 β0 独立, 故σ2/σ2(β0−β0)/σ2(1/n+x2/Sxx)=σ2(n1+Sxxx2)β0−β0必定服从自由度为 n−2 的 t 分布, 且与 β0,β1 以及 σ2 的取值无关. 仿照 β1 的置信区间与假设检验过程的推导步骤, 可得到如下结论:
1. | β0 的一个置信水平为 1−α 的置信区间为[β0−tα/2(n−2)σ2(n1+Sxxx2), β0+tα/2(n−2)σ2(n1+Sxxx2)]. |
2. | 考虑假设检验问题H0:β0=β0,0,H1:β0=β0,0,其中 β0,0 为事先取定的常数. 则可以取检验统计量为T=σ2(n1+Sxxx2)β0−β0,0,p 值为p^=2⎝⎛1−Fn−2t⎝⎛σ2(n1+Sxxx2)∣∣β0−β0,0∣∣⎠⎞⎠⎞,而给定显著性水平 α 后, 相应的拒绝域可由σ2(n1+Sxxx2)∣∣β0−β0,0∣∣>tα/2(n−2)给出. |
回归函数值的区间估计
现令 x0 为任意实数, 我们考虑对回归函数在 x0 处的值 μ(x0)=β0+β1x0 进行区间估计. 为构造枢轴量, 我们首先注意到 μ(x0)=β0+β1x0 是关于 Y1,…,Yn 的线性函数, 而 Y1,…,Yn 相互独立且服从正态分布, 故 μ(x0) 也服从正态分布, 其期望为E[μ(x0)]=μ(x0)=β0+β1x0,而方差则为Var(μ(x0))====Var(β0+β1x0)Var(β0)+x02Var(β1)+2x0Cov(β0,β1)σ2(n1+Sxxx2)+x02⋅Sxxσ2−2Sxxx0xσ2σ2(n1+Sxx(x0−x)2).根据上述结果, 我们考虑构造如下枢轴量: σ2(n1+Sxx(x0−x)2)μ(x0)−μ(x0).不难基于引理 10.3.1 验证该枢轴量服从分布 t(n−2), 故P⎝⎛−tα/2(n−2)≤σ2(n1+Sxx(x0−x)2)μ(x0)−μ(x0)≤tα/2(n−2)⎠⎞=1−α,经过等价变形可得P(μl(x0)≤μ(x0)≤μu(x0))=1−α,其中μl(x0)=μu(x0)=μ(x0)−tα/2(n−2)σ2(n1+Sxx(x0−x)2),μ(x0)+tα/2(n−2)σ2(n1+Sxx(x0−x)2).故 μ(x0)=β0+β1x0 的一个置信水平为 1−α 的置信区间为 [μl(x0),μu(x0)]. 不难发现, ∣x0−x∣ 越大, 则置信区间的宽度 μu(x0)−μl(x0) 也就越大, 这意味着, 在保持置信水平为 1−α 的情况下, x0 越远离 x, 则区间估计的精度越低.
需要注意的是, [μl(x0),μu(x0)] 给出的只是单个点 x0 处回归函数值 μ(x0) 的置信区间, 我们并不能把它理解为 “回归函数 μ(x) 的图像落在 μl(x0) 与 μu(x0) 之间的概率为 1−α”.
为符号上的方便, 令β=[β0β1],β=[β0β1],X=⎣⎡1⋮1x1⋮xn⎦⎤,Y=⎣⎡Y1⋮Yn⎦⎤,ε=⎣⎡ε1⋮εn⎦⎤,e=⎣⎡e1⋮en⎦⎤.且用 Ik 表示 k×k 单位阵. 则不难验证Y=e=Xβ+ε,Y−Xβ=X(β−β)+ε,且 normal equations 可表示为如下形式: XTXβ=[n∑i=1nxi∑i=1nxi∑i=1nxi2][β0β1]=[1x1⋯⋯1xn]⎣⎡Y1⋮Yn⎦⎤=XTY,故β=(XTX)−1XTY=(XTX)−1XT(Xβ+ε)=β+(XTX)−1XTε.考虑对矩阵 X 做奇异值分解, 则由于 X 列满秩, 可得X=[UcU⊥][Σc0(n−2)×2]VT=UcΣcVT,其中 Σc 为 2×2 的对角阵且对角元均大于 0, V∈R2×2 为正交阵, 而 Uc∈Rn×2,U⊥∈Rn×(n−2) 使得 U=[Uc U⊥]∈Rn×n 为正交阵, 即[UcU⊥]T[UcU⊥]=[UcTUcU⊥TUcUcTU⊥U⊥TU⊥]=[I20(n−2)×202×(n−2)In−2]以及[UcU⊥][UcU⊥]T=UcUcT+U⊥U⊥T=In.故β−β=(XTX)−1XTε=(VΣc2VT)−1VTΣUcTε=VTΣc−1UcTε.由此可得e=X(β−β)+ε=−UcΣcVTVΣc−1UcTε+ε=(In−UcUcT)ε=U⊥U⊥Tε.由于 [Uc U⊥] 为正交阵, 而 ε 服从多元正态分布 N(0,σ2In), 故随机向量ε~=[UcU⊥]Tε=[UcTεU⊥Tε]同样服从多元正态分布 N(0,σ2In), 而该多元正态分布的协方差矩阵为对角阵, 这意味着 ε~ 的各个分量相互独立. 再注意到 β=β+VTΣc−1UcTε 是 ε~ 的前两个分量的函数, 而SSres=i=1∑nei2=eTe=εTU⊥U⊥TU⊥U⊥Tε=εTU⊥U⊥Tε是 ε~ 的后 n−2 个分量的函数, 可得 β 与 SSRes 相互独立.
为了求 SSRes 的分布, 注意到σ2SSRes=σ21εTU⊥U⊥Tε=i=1∑n−2(σ−1U⊥Tε)i2,而由于 U⊥Tε 的分量即为 ε~ 的后 n−2 个分量, 故 σ−1U⊥Tε 的各个分量相互独立且服从标准正态分布 N(0,1). 由此可得 SSRes/σ2∼χ2(n−2).
脚注