10.3. 回归系数的区间估计与假设检验

在本节中, 我们均假设自变量 与因变量 之间的确服从 (10.1.1) 给出的线性回归模型. 此外, 还假设随机误差 服从正态分布 , 此时即有首先引入如下引理:

引理 10.3.1. 设线性回归模型 (10.1.1) 中的随机误差 服从正态分布 , 并令 为式 (10.2.7) 给出的 的点估计量. 则

1.

相互独立, 且 也与 相互独立.

2.

.

引理 10.3.1 的证明将放在本节最后一小节作为选读内容. 但引理中 分布的自由度 可由前面 的计算结果猜出一二.

的区间估计以及假设检验

首先考虑 的置信区间与假设检验. 注意到可表示为相互独立的正态分布随机变量 的线性组合, 故 也服从正态分布, 其期望为 , 而方差即为 , 也就是说而引理 10.3.1 则保证了 服从 且与 独立. 因而必定服从自由度为 分布, 且与 以及 的取值无关. 接下来我们依次处理 的置信区间与假设检验问题:

1.

设置信水平取为 . 由于 的所有可能取值均成立, 故可将其作为枢轴量, 得对上式中括号内的不等式进行等价变形, 可得从而 的一个置信水平为 的置信区间为

2.

考虑假设检验问题其中 为事先取定的常数. 则可以取检验统计量为它在原假设 下服从分布 . 故 值为 1其中 表示分布 的分布函数. 而给定显著性水平 后, 相应的拒绝域可由给出.

的区间估计以及假设检验

接下来考虑 的区间估计与假设检验. 与 的情形类似, 可得而引理 10.3.1 保证了 服从 且与 独立, 故必定服从自由度为 分布, 且与 以及 的取值无关. 仿照 的置信区间与假设检验过程的推导步骤, 可得到如下结论:

1.

的一个置信水平为 的置信区间为

2.

考虑假设检验问题其中 为事先取定的常数. 则可以取检验统计量为 值为而给定显著性水平 后, 相应的拒绝域可由给出.

回归函数值的区间估计

现令 为任意实数, 我们考虑对回归函数在 处的值 进行区间估计. 为构造枢轴量, 我们首先注意到 是关于 的线性函数, 而 相互独立且服从正态分布, 故 也服从正态分布, 其期望为而方差则为根据上述结果, 我们考虑构造如下枢轴量: 不难基于引理 10.3.1 验证该枢轴量服从分布 , 故经过等价变形可得其中 的一个置信水平为 的置信区间为 . 不难发现, 越大, 则置信区间的宽度 也就越大, 这意味着, 在保持置信水平为 的情况下, 越远离 , 则区间估计的精度越低.

需要注意的是, 给出的只是单个点 处回归函数值 的置信区间, 我们并不能把它理解为 “回归函数 的图像落在 之间的概率为 ”.

() 引理 10.3.1 的证明

为符号上的方便, 令且用 表示 单位阵. 则不难验证且 normal equations 可表示为如下形式: 考虑对矩阵 做奇异值分解, 则由于 列满秩, 可得其中 的对角阵且对角元均大于 , 为正交阵, 而 使得 为正交阵, 即以及由此可得由于 为正交阵, 而 服从多元正态分布 , 故随机向量同样服从多元正态分布 , 而该多元正态分布的协方差矩阵为对角阵, 这意味着 的各个分量相互独立. 再注意到 的前两个分量的函数, 而 的后 个分量的函数, 可得 相互独立.

为了求 的分布, 注意到而由于 的分量即为 的后 个分量, 故 的各个分量相互独立且服从标准正态分布 . 由此可得 .

脚注

1.

^ 为了符号上的简便, 后文中我们经常将一个统计量 (关于 的函数) 与该统计量在某组样本观测值 上的取值用同一个符号表示, 读者需根据上下文确定指代的是前者还是后者.