10.2. 未知参数的点估计

系数 的点估计

最小二乘估计 (least squares estimation, LSE) 是对线性回归模型 (10.1.1) 中的未知参数 进行点估计的经典方法. 在最小二乘估计中, 我们考虑如下最优化问题: (10.2.1)在求解 (10.2.1) 时我们把各个 看作定值, 则求得的最优解可看作 的函数. 我们将 (10.2.1) 的最优解记为 , 它们就是 最小二乘点估计量. 我们先介绍如何求解最优化问题 (10.2.1), 再对 (10.2.1) 给出的点估计的合理性进行解释.

首先注意到, 最优化问题 (10.2.1) 中对 的取值未做出其它约束, 故可以考虑对目标函数求偏导得到驻点, 再验证驻点是否是最小值点. 的偏导数由给出, 而 的海塞矩阵 (Hessian matrix) 则为而由于 不都等于同一个值, 故再注意到 的两个对角元均为正数, 可得 为正定矩阵, 因此 是一个强凸的可微函数, 由多元微积分知识可知, 仅存在唯一一个驻点, 且该驻点就是它的最小值点. 由此可得最优化问题 (10.2.1) 的最优解满足方程组(10.2.2)该方程组也被称为 normal equations 1. 解 normal equations 可得(10.2.3)其中我们记式 (10.2.3) 给出的 即为 的最小二乘估计量. 习惯上, 我们还会引入如下记号: (10.2.4) 可表示为值得注意的是, 均可看 的线性函数. 在得到回归系数的点估计值以后, 我们可以进一步对回归函数在任意 处的取值进行点估计: 特别地, 我们记此外, 我们将称为第 残差 (residual).

接下来, 我们对最小二乘估计的合理性进行解释.

最小二乘估计作为最大似然估计. 在一开始的线性回归模型 (10.1.1) 中, 我们并未指定随机误差 的分布具有怎样的形式, 而只是限定其期望为 且方差有限. 而在许多场合下, 为了方便用概率论工具对最小二乘估计进行定量研究, 我们会进一步假定 服从正态分布 , 此时可以证明, 最小二乘估计 也是 的最大似然估计: 注意到 时, 有 , 故 的联合概率密度函数为其中记 , . 而将 当中的 固定, 并把未知参数 作为自变量, 即可得到似然函数 . 相应的对数似然函数为(10.2.5)而关于 的对数似然方程则为立刻可看出上述方程组与 normal equations (10.2.2) 具有相同的形式. 由此可得如下结论: 当随机误差 服从正态分布 时, 的最大似然估计量就是最小二乘估计量.

() 最小二乘估计作为最佳无偏线性估计. 我们还可以从最佳无偏线性估计的角度解释最小二乘估计的合理性. 设 为一组样本, 考虑 的关于 具有线性形式的点估计量: 其中 为待定系数, 且要求它们具有无偏性. 我们希望在线性与无偏性的约束下, 找到使得均方误差对任意的 均能取到最小值的系数 . 为了后面推导的方便, 我们罗列如下事实:

1.

相互独立.

2.

, .

首先考虑 的最佳无偏线性估计. 的无偏性要求 的任意性, 可得到接下来我们将均方误差 进行展开, 并注意到 的无偏性, 可得因此 的最佳线性无偏估计的系数 为如下带约束最优化问题的解: 上述问题是一个典型的凸优化问题, 可以用拉格朗日乘子法求出最优解: 该问题的拉格朗日函数为故最优性条件为上述方程组的解为不难发现由上述系数 给出的线性估计量就是 的最小二乘估计量. 同理可证明 的最佳线性估计量就是最小二乘估计量, 相关的计算与验证过程交给读者完成.

注 10.2.1. () Normal equations (10.2.2) 有非常直观的几何解释. 设 为一组样本, 仍将 看作是定值, 则 可看作 当中的一个点或一个向量. 记 , 并用 表示分量均为 维向量. 令则当 的元素不全相等时, 构成了 的一个二维子空间, 而最优化问题 (10.2.1) 则可以等价表示为其中 表示欧氏空间 当中的标准 范数. 换句话说, 求解 的最小二乘估计量, 等价于在子空间 中找到一个点 (我们将其记为 ) 使得它与 的距离最小. 由欧氏空间的几何关系, 不难理解这个与 的距离最小的点 应当使得 与二维子空间 正交 (见图 1). 由于 是子空间 的一组基, 可知 正交当且仅当 均正交, 即 代入并进行化简, 可得上述方程组正是 normal equations.

Normal equations geometric.pdf
图 1. Normal equations 几何直观示意图.

最小二乘估计的偏差与均方误差

本小节中, 我们对 的最小二乘估计的偏差与均方误差进行分析. 设自变量 与因变量 之间的确服从 (10.1.1) 给出的线性回归模型. 注意到 , 可得其中利用了 , 故 的一个无偏估计量. 的均方误差也就等于其方差, 为

对于 则有其中利用了 以及 的无偏性, 故可得 是无偏的. 而 的均方误差也就等于其方差, 为

最后, 我们对 的协方差进行计算: 其中倒数第二步是由于 相互独立且 .

需要指出, 上述推导均不需要假定 服从正态分布.

方差 的点估计

为了对线性回归模型 (10.1.1) 中随机误差 的方差 进行估计, 我们注意到, 若估计量 的值与 的真值非常接近, 则直观上可以认为注意到随机误差 不可观测但 是一个可观测的统计量, 这提示着我们残差 在对 的估计中将起到关键作用. 不难看出 的期望为 , 而为了计算 的方差, 我们注意到而由于 之间相互独立, 故其中最后一步利用了 以及 . 接下来, 我们令(10.2.6)并将其称为残差平方和 (residual sum of squares), 则有由此可得 的一个无偏估计量为(10.2.7)

残差平方和 的一个更加便于计算的表达式为(10.2.8) 被称为校正平方和 (corrected sum of squares). 我们将上式的证明留作习题.

需要说明的是, 的无偏性并不需要假定 服从正态分布.

脚注

1.

^ 有的地方把 normal equations 译为 “正规方程组”, 但笔者认为这是错译, 这里的 normal 实际上是法向或正交的意思, 合适的译名应当为 “法方程组”. 感兴趣的读者可参阅注 10.2.1 的进一步解释.