10.4. 因变量的点预测与区间预测

本节中我们考虑这样一个问题: 假设基于样本 已经构造出了回归系数的点估计量 , 而我们对因变量 处的值 感兴趣, 其中 为一给定的实数且与 相异; 换句话说其中 独立且同分布, 则在尚未观测到 的值的情况下, 我们应当如何对 的值进行预测?

由于随机误差 独立, 若仅基于样本 预测, 则只能将其预测为 , 故我们可以直接用 的点估计量作为 的点预测量, 且不难看出它满足如下意义的 “无偏性”: . 但许多情况下, 仅给出单个点预测是不够的, 我们还希望对点预测的精度有定量的刻画. 具体而言, 我们希望找到一个仅依赖于 的随机区间 , 使得其中 为事先给定的常数. 我们将满足上述条件的 称为 的置信水平为 预测区间 (prediction interval).

现假设 均服从正态分布 . 为了求出 的预测区间, 这次我们从点预测误差入手. 注意到 的线性函数, 而 相互独立且服从正态分布, 故 也服从正态分布, 其期望为 , 而方差为其中第二步是因为 相互独立. 在求得 的方差后, 即可考虑构造如下枢轴量: 利用引理 10.3.1 可验证其服从分布 , 故经过等价变形并根据前述预测区间的定义可得, 若令 给出了 的一个置信水平为 的预测区间. 不难看出, 预测区间 的宽度 随着 的增大而增大, 这意味着, 在保持置信水平为 的情况下, 越远离 , 则对 进行区间预测的精度越低. 此外, 的预测区间总是宽于 的置信区间, 这是因为对 进行区间预测时需要把 上的随机误差 也考虑进来.