9.2. 假设检验的 Neyman–Pearson 理论简介

假设检验的 Neyman–Pearson 理论是由统计学家 Jerzy Neyman 与 Egon Pearson 发展起来的, 是一套广为接受的频率学派的假设检验理论, 也是大多数数理统计教科书中频率学派假设检验的标准理论. Neyman–Pearson 理论的几个核心要点如下:

1.

Neyman–Pearson 理论面向的是在原假设与备择假设之间二选一的假设检验问题: 需事先设定一个显著性水平 , 当 值小于 时拒绝 而接受 , 当 值大于等于 时接受 而拒绝 .

2.

基于第 1 点, Neyman–Pearson 理论进一步引入了第 I 类错误第 II 类错误的概念, 分别对应于 成立时拒绝 , 以及 成立时接受 两种情况. 可以证明, 成立时发生第 I 类错误的概率就等于显著性水平 .

3.

在引入两类错误后, Neyman–Pearson 理论用如下方法评价检验统计量 的优劣程度: 在给定任一显著性水平 后, 考察用 进行假设检验时导致的第 II 类错误的概率; 大致来说, 这个概率越小, 则认为 是越好的检验统计量.

注 9.2.1. () 有些教材中会认为 “不拒绝 ” 并不意味着 “接受 ”, 出现这种看法主要是因为频率学派的假设检验实际上应当分为两种范式: Fisher 的显著性检验范式与 Neyman–Pearson 的假设检验范式, 其中 Fisher 显著性检验范式的目的在于用 值对样本值与原假设的不一致性进行定量的衡量, 其中备择假设只用于指导检验统计量的设计 (在 Fisher 的原始理论中甚至没有备择假设), 而 Neyman–Pearson 假设检验范式则是一个二选一的决策过程, 其中的备择假设直接与第 II 类错误及其概率的定量刻画相关. 这两套范式用到的数学理论有很明显的重叠, 但在对结果的诠释上是应当做出区分的, 然而目前的教学往往将二者混淆在一起. 笔者认为, 在 Fisher 的显著性检验范式中, 较大的 值的确不意味着可以接受 , 而只能表明现有的数据尚不能构成否定 的有力证据; 但在 Neyman–Pearson 的假设检验范式中, 由于已经将 成立时不拒绝 归类为一种错误, 并且考虑了应当如何对这种错误进行定量刻画甚至最小化, 故实际上已无必要对 “不拒绝 ” 与 “接受 ” 做出区分.

接下来我们对上述内容进行进一步展开. 为简单起见, 我们假定原假设 是一个简单假设.

假设检验的拒绝域法

当我们设定了显著性水平 , 并要求假设检验过程必须在 之间二选一时, 可以将假设检验的过程等价地用另一种流程表述. 我们用 来表示样本值 对应的 值, 则在给定显著性水平 后, 假设检验的过程可以总结为设检验统计量 是单侧的. 此时我们令(9.2.1)换句话说, 为满足不等式 的所有实数 当中最大的数. 则可以证明这意味着我们可以把假设检验的过程等价地写为也就是说, 我们只需算出样本值 所对应的检验统计量 的取值, 并将其与 比较即可判断是否应当拒绝 . 我们将式 (9.2.1) 给出的 称为 (显著性水平为 时检验统计量 的) 临界值 (critical value), 并将集合称为拒绝域 (rejection region 或 critical region).

当原假设 下检验统计量 为连续型随机变量, 且 的概率密度函数在某个开区间上恒大于 而在该开区间外恒等于 时, 单侧检验的临界值 可通过求解方程(9.2.2)得到. 在例 9.1.1 当中, 我们实际上已经求出了显著性水平为 时检验统计量 的临界值为 , 它也可直接由方程 (9.2.2) 解出:

对于双侧检验, 则需要用两个临界值来框定拒绝域: (9.2.3)此时可以证明这意味着我们可以把假设检验的过程等价地写为相应的拒绝域为而若 在原假设下还是连续型随机变量, 且概率密度函数在某个开区间上恒大于 而在该开区间外恒等于 , 则双侧检验的两个临界值可通过求解方程(9.2.4)得到.

习惯上, 我们将 (P) 给出的判断是否拒绝 的方法称为 值法, 而将 (C1) 与 (C2) 给出的方法称为临界值法拒绝域法. 值法与拒绝域法等价性的证明则作为选读内容, 感兴趣的读者可参阅附录 C.1.

第 I 类错误与第 II 类错误

在 Neyman–Pearson 理论中, 我们将假设检验发生的错误分为两类:

1.

当原假设 成立 (即总体的真实参数 属于 ) 时, 若假设检验过程给出的结论是拒绝原假设, 则称发生了第 I 类错误 (type I error).

2.

当备择假设 成立 (即总体的真实参数 属于 ) 时, 若假设检验过程给出的结论是接受原假设, 则称发生了第 II 类错误 (type II error).

在定义了两类错误以后, Neyman–Pearson 理论会进一步考察发生第 I 类错误与第 II 类错误的概率. 这里我们对 “发生错误的概率” 进行一些必要的说明与澄清: 由于 Neyman–Pearson 理论属于频率学派理论, 因而总体的未知参数 是一个确定性的未知量. 在 Neymann-Pearson 理论中, 假设检验结果的随机性来自于样本的随机性, 我们会考察

1.

当总体真实参数 属于 时, 若通过反复从总体中抽样, 大量地重复用检验统计量 进行假设检验, 则检验结果中发生第 I 类错误 (此时的错误也只能是第 I 类错误) 的频率在重复次数趋于无穷时将趋于多少;

2.

当总体真实参数 属于 时, 若通过反复从总体中抽样, 大量地重复用检验统计量 进行假设检验, 则检验结果中发生第 II 类错误 (此时的错误也只能是第 II 类错误) 的频率在重复次数趋于无穷时将趋于多少.

根据概率的频率诠释 (或者说大数定律), 可知以上两种被考察的量分别为(9.2.5)以及(9.2.6)其中 表示显著性水平为 的拒绝域. 我们将 (9.2.5) 给出的概率称作 (原假设成立时) 发生第 I 类错误的概率, 而将 (9.2.6) 给出的概率称作 (备择假设成立时) 发生第 II 类错误的概率. 这两类错误概率的值都依赖于 的值. 我们还会引入功效函数 (power function)不难看出, 时等于第 I 类错误的概率, 而在 时等于 减去第 II 类错误的概率.

可以证明, 当 仅包含单个点 (即原假设 为简单假设), 且检验统计量 为连续型随机变量时, 有 1也就是说, 显著性水平 就等于第 I 类错误的概率. 一般来说, 在样本容量固定的情况下, 我们不可能同时让第 I 类错误的概率与第 II 类错误的概率都取得任意小. 在 Neyman–Pearson 理论中, 我们会先把显著性水平 (也就是第 I 类错误的概率) 固定为一个事先给定的值 , 而后考察应如何选取检验统计量 , 使得 的值对于任意的 都尽可能取得比较大 (也就是说让 时发生第 II 类错误的概率都尽可能比较小); 这也是 Neyman–Pearson 理论中对于检验统计量 好坏的一个定量上的评价标准. 特别是, 设检验统计量 为两个检验统计量, 它们的显著性水平为 的拒绝域分别记为 , 那么当对任意的 都成立, 且上述不等式对于至少一个 能够取得严格不等号的时候, 即认为检验统计量 优于 .

在给出了上述检验统计量好坏的评价标准后, 我们就可以进一步研究应当如何基于原假设与备择假设的形式, 找出一个 “最优” 的检验统计量. Neyman–Pearson 的假设检验理论也包括了关于最优检验法的 Neyman–Pearson 引理以及一致最大功效检验 (uniformly most powerful test) 等的一套理论. 这部分理论其实是 Neyman–Pearson 理论的重要组成部分, 但限于本讲义面向的读者群体, 我们不对这套理论进行介绍.

需要指出的是, Neyman–Pearson 理论虽然是目前广为接受的频率学派假设检验理论, 但从实际应用的角度来看, 它也并非对于任何问题都适用或都具有可操作性. 对某些实际问题, Neyman–Pearson 理论的基于第 I 类与第 II 类错误概率的评价方式是否合适是值得商榷的. 此外, 对某些实际问题, 若是基于 Neyman–Pearson 理论来设计检验统计量, 可能会牵扯到许多复杂的计算, 此时一些经验性的检验统计量的设计方法反而可能会更加实用.

基于功效函数估计样本容量

对功效函数做分析可以为样本容量的选择做出指导. 我们用一个例子对此进行说明.

例 9.2.2. 设总体服从正态分布 , 其中 已知而 未知. 原假设与备择假设为由例 9.1.2 的结果可知, 显著性水平 时, 检验统计量 的拒绝域为 . 故功效函数为其中最后一步用到了 .

现在考虑这样一个场景: 在备择假设 的所有可能性中, 我们尤其关注 的情形, 其中 为事先适当选定的一个正实数, 并希望对于这些 的可能取值能够尽量避免第 II 类错误; 而对于 的情形, 则由于 较为接近, 即使发生第 II 类错误我们也可以忍受 2. 此时我们可以问这样一个问题: 在保持显著性水平 不变的前提下, 若要将 时的第 II 类错误概率降低到 以下, 则样本容量 应至少为多大? 由上述功效函数的计算可得, 第 II 类错误的概率为实际上, 上式中最后一步的放缩通常是相当紧的, 这是因为当 足够大时, 相比可忽略 (也可见图 1 给出的示意). 由此可得, 若要让 时的第 II 类错误概率小于等于 , 一个充分条件为也即

Type-II error example.png
图 1. 9.2.2 中第 II 类错误的计算示意图. 虚曲线为 的概率密度函数, 实曲线为 的概率密度函数, 其分布函数即为 . 蓝色阴影表示实曲线下从 部分的面积, 不难看出它严格小于但又约等于实曲线下从 部分的面积.

理想情况下, 对于在原假设与备择假设之间二选一的假设检验问题, 我们均需要在事前进行类似于例 9.2.2 那样的分析, 找出合适的样本容量 以使得第 II 类错误概率对于备择假设中我们所关心的情形都能取到足够小的值, 这样才能保证在原假设与备择假设之间进行二选一的决策是合适的.

原假设为复合假设时的假设检验

到目前为止, 我们所介绍的假设检验的理论主要关注原假设为简单假设的情形. 当原假设 为复合假设时, 相关的一般性理论则较为复杂, 这里不对其进行介绍, 而只对一种常见的特殊情形进行讨论.

原假设复合性的一种常见来源是多余参数 (nuisance parameter), 此时总体的未知参数 由两部分 组成, 而原假设和备择假设则分别为换句话说, 我们关心 的取值是否为 , 而 则是一个多余参数. 若将 的所有可能取值构成的集合记为 , 则可以将原假设表示为 . 对于此类问题, 我们通常会首先考虑找一个合适的检验统计量 , 使其满足 (或近似满足) 如下额外条件:

条件 9.2.3. 在原假设 下的分布是与 的具体取值无关的. 换句话说, 对任意 , 均服从同一个分布.

该条件意味着我们可以把复合假设 当作是一个简单假设去处理, 从而相应的 值为

单侧检验: ;

双侧检验: .

其中 为检验统计量 在代入样本观测值 后的取值, 表示原假设 的概率 (它与 的具体值无关). 而给定显著性水平 后, 相应的拒绝域 可由如下方法得到:

单侧检验: , 其中而若 在原假设下服从连续型分布, 且相应的率密度函数在某个开区间上恒大于 而在该开区间外恒等于 , 则临界值可通过求解 得到.

双侧检验: , 其中而若 在原假设下服从连续型分布, 且相应的率密度函数在某个开区间上恒大于 而在该开区间外恒等于 , 则临界值可通过求解 得到.

可以证明 (见附录 C), 对于上述假设检验流程, 有如下结论成立:

当且仅当 .

显著性水平 给出了第 I 类错误概率的一个上界.

下服从连续型分布, 则显著性水平 就等于第 I 类错误概率.

在本章的后两节中, 我们将针对一些具体的例子, 讨论如何构造满足条件 9.2.3 的检验统计量, 并给出相应的 值与拒绝域.

脚注

1.

^ 对于更一般的情况, 可以证明 , 也就是说显著性水平 给出了第 I 类错误概率的一个上界; 参见附录 C.2.

2.

^ 由于功效函数 是连续函数, 故当第 I 类错误概率 小于等于 时, 不可能让所有的 都给出很小的第 II 类错误概率 , 因此我们需要以 为阈值将 的情形分为 两类, 主要关注 时的第 II 类错误概率而容忍 时的第 II 类错误.