7.2. 点估计方法的评价

在数理统计学中, 未知参数的统计推断理论被分为频率学派与贝叶斯学派两种. 在频率学派的理论中, 我们将总体的未知参数 作为一个确定性的量来处理, 这种观点下, 我们对未知参数推断所下的结论通常类似于 “若未知参数的取值满足某某条件, 那么相应的总体生成我们当前所观测到的样本是大概率/正常事件”. 而在贝叶斯学派的理论中, 我们将总体的未知参数 作为一个随机变量来处理, 认为它首先服从一个先验分布 (prior distribution), 这种观点下, 我们对未知参数推断所下的结论通常类似于 “在给定观测到的样本数据的条件下, 未知参数以很大的概率满足某某条件”. 本课程中, 我们将主要关注频率学派的理论.

点估计的偏差与均方误差; 无偏性与有效性

在频率学派的理论中, 对小样本情形下点估计量的评价主要是以偏差和均方误差为基础. 简单起见, 我们假设未知参数 是一个实数 (标量), 且它就是我们待估计的参数, 但相关概念不难推广到对未知参数的函数 进行估计的情况.

定义 7.2.1. 设总体的分布函数为 , 其中 为未知参数, 并设 为一个 元函数. 现任取 , 并设 为总体 的一组样本, 令我们称 为点估计量 关于 偏差 (bias), 为点估计量 关于 均方误差 (mean square error, MSE).

需要注意, 给定点估计量 后, 它的偏差 与均方误差 都与 的取值有关; 在针对给定的 计算 时, 相应的样本 则是从参数为 的总体 中抽样而来的. 之所以需要考虑任意 所对应的偏差与均方误差, 是因为我们并不知道真实的总体对应的是哪个 , 保险起见我们需要考虑所有可能的参数取值, 并希望点估计量在参数 任取的情况下都能具有较优的性能. 为了强调样本 与参数 的依赖关系, 我们有时会用如下形式的记号来强调样本 来自于参数为 的总体.

直观上看, 均方误差通常是评价点估计量好坏的一个比较恰当的定量指标; 可以认为点估计量的均方误差越小, 则给出的估计值越集中于真实值. 不难验证点估计量 的均方误差满足如下等式: 其中 表示样本 来自于参数为 的总体时 的方差. 该等式被称为均方误差的偏差—方差分解 (bias–variance decomposition). 上式意味着点估计量的均方误差由偏差与方差两部分组成. 理想情况下, 当我们设计点估计量时, 我们希望能够同时让偏差 与方差 对任意的 都取得足够小, 然而在许多实际问题中, 点估计量的偏差 与方差 之间通常会存在一定冲突, 当我们把一个量取得非常小的时候, 可能导致另一个量出现明显的增大. 这意味着, 如果我们以均方误差作为评价点估计量好坏的指标, 那么为了对每个可能的 均取得足够小的均方误差, 我们通常需要在偏差与方差之间进行权衡.

然而, 在经典的频率学派点估计理论中, 对于偏差恒为 这种情形的点估计量的研究占据了比较重要的位置.

定义 7.2.2. 考虑定义 7.2.1 的设定. 若对于任意的 , 点估计量 关于 的偏差都等于 , 即则称 的一个无偏估计量 (unbiased estimator).

例 7.2.3. 设总体的未知参数为 , 而 给出了参数为 时相应总体的方差. 现考虑样本 的样本方差则不难验证对任意 均成立. 因此样本方差 是总体方差 的一个无偏估计量.

根据均方误差的偏差—方差分解, 在限制点估计量的偏差恒为零以后, 其点估计量的方差即等于它的均方误差: 因此在对两个无偏估计量的好坏进行比较时, 我们就可以考虑以它们的方差为依据. 不过, 由于点估计量的方差依赖于参数 的值, 而参数的真实值又是未知的, 因此在比较两个点估计量的方差时, 我们通常需要考虑所有可能的参数 的取值. 这就引入了如下有效性的定义.

定义 7.2.4. 为参数 的两个无偏估计量. 我们称 有效 ( is more efficient than ), 若对任意 都成立, 且存在某个 使得上述不等式中的不等号能够取为严格不等号.

基于以上无偏估计量与有效性的定义, 频率学派的统计学家们进一步发展了一套关于一致最小方差无偏估计量 (uniformly minimum variance unbiased estimator, UMVUE) 的理论 1. 这套理论从数学的角度上看是比较优美的, 这也是无偏估计量在经典的频率学派点估计理论中占据重要位置的原因之一. 但需要指出的是, 无偏性并不是点估计量所必须满足的性质. 对于某些具体问题, 无偏性可能是必要的, 或是能带来一些额外的优势 (到底是何种优势则需要具体问题具体分析); 但对于其它一些情形, 适当程度地放弃无偏性可能会换来更小的均方误差.

例 7.2.5. () 考虑一个对总体 的未知参数 进行在线点估计的场景: 假设在每个离散时刻 , 我们能够从总体 中获取一组新的样本 . 考虑如下点估计流程: 首先构造一个 元函数 , 并做初始化 . 接下来在每个 时刻, 令并将 作为 时刻参数 的点估计结果. 不难看出上式实际上是对 在线求平均的过程, 从而 存在, 则由大数定律可得其中 相互独立且与 同分布. 不难看出在上述设定下, 的无偏性将是一个合理的要求, 否则 真值之间的差无法通过让更新轮次 足够大而接近于 .

例 7.2.6. () 设总体 服从几何分布其中 为未知参数, 其取值范围为 . 现假设 为来自该总体的一个容量为 的样本, 我们希望设计一个 的点估计量 . 由于 的取值为正整数, 我们只需考虑函数 在自变量为正整数时的取值即可.

若要求 是无偏的, 则有可以证明满足上式的 只能是因此对 的无偏估计量只可能是也就是说 时点估计的值为 , 而 取其它值时点估计的值为 , 从而无偏估计量的均方误差为

然而, 如果考虑如下点估计量则它的均方误差为上式右端的求和没有初等表达式, 需要用特殊函数来表示, 但通过理论分析可以证明, 当 时, 上式右端总是小于 . 图 1 展示了两种点估计量的均方误差在 时的值. 这说明, 若以均方误差作为点估计量优劣的评价指标, 则对于所考虑的参数范围 , 有偏的估计量 均优于无偏估计量 .

Geometric point estimator mse.pdf
图 1. 点估计量 估计几何分布参数 的均方误差曲线.

本例部分取自 [16] 的 Example 8.1.

注 7.2.7. 虽然经典的频率学派理论中关于一致最小方差无偏估计的理论方法在实际问题中应用有限, 但它们为大样本情形下点估计量的设计与分析, 特别是最大似然估计法的性能分析建立了部分基础.

点估计的相合性

点估计的相合性考虑的是样本容量逐渐增大时, 一套点估计方法能否给出收敛于真实参数值的估计量. 换句话说, 我们考虑的不再是单个点估计量 , 而是考虑一列点估计量 , 其中每个 给出的是样本容量为 时的点估计量, 我们希望 时, 点估计量 作为随机变量能够 (在某种方式下) 收敛于真实参数值 .

定义 7.2.8. 为未知参数, 为参数 的一列点估计量, 其中 . 我们称这列点估计量是相合的 (consistent), 若对任意的 , 均有 , 换句话说对任意 以及 均成立.

与无偏性不同, 相合性是对一套点估计方法 (也就是对任意样本容量 构造点估计量 的方法) 的最基本要求. 如果一套点估计方法没有相合性, 那么直观上看, 无论样本容量有多大, 我们也难以把未知参数估计到任意高的精度, 这样的点估计方法对于大多数问题都是不可取的.

脚注

1.

^ 感兴趣的读者可参阅 [14] [15][16] 等更高阶的数理统计教材.