9.1. 假设检验的问题设定与流程

本章中, 我们介绍数理统计中的另一大类问题: 假设检验 (hypothesis testing). 在假设检验问题中, 我们对总体具体服从怎样的分布提出一种假设, 并收集样本数据, 检验样本数据是否与提出的假设存在统计意义上的不一致/不相容. 本章中除了最后一节外, 我们主要考虑总体的分布可以被某个未知参数 参数化的情形, 则此时对于总体的假设就归结为一个表示参数范围的集合. 我们用来表示这样一个假设 : 当总体的真实参数 为集合 的元素时, 就认为假设 成立, 否则认为假设 不成立. 下面几个例子给出了假设检验问题中一些常见的假设形式:

总体服从正态分布 , 其中方差 已知已知但期望 未知. 此时我们把 作为未知参数, 则假设表示 “总体服从正态分布 ”.

总体服从正态分布 , 其中期望 与方差 均为未知参数. 则假设表示 “总体服从期望为 的某个正态分布”. 注意这一假设当中并未把方差 限定为单个值.

总体服从正态分布 , 其中期望 与方差 均为未知参数. 则假设表示 “总体服从期望不等于 的某个正态分布”.

总体服从正态分布 , 其中期望 已知但方差 为未知参数, 为某个给定实数. 则假设表示 “总体服从方差大于 的某个正态分布”.

若假设 只包含一个元素, 则称 简单假设 (simple hypothesis); 否则称 复合假设 (composite hypothesis). 在上述四个例子中, 只有第一个例子是简单假设, 而后三个例子都是复合假设.

在假设检验问题中, 我们通常会提出两个假设 , 其中 被称为原假设零假设 (null hypothesis), 而 被称为备择假设 (alternative hypothesis), 当中有且仅有一个假设成立. 当总体的分布能够被未知参数 参数化时, 原假设 与备择假设 就可以用各自相应的参数范围表示为如下形式: 其中 为给定的集合, 包含了未知参数 的所有可能取值, 而 . 在后面我们将看到, 在频率学派的假设检验理论中, 原假设与备择假设有着不一样的地位. 在许多实际场合中, 我们做假设检验的目的是利用收集到的样本数据, 以统计上足够可靠的方式, 揭示出某种尚未发现或证实的的规律或现象, 此时通常取原假设表示总体符合已知规律或常理, 或是总体与旧有理论相容, 而备择假设则用来表示总体按照某种方式或朝着某个方向偏离了已知规律或常理, 或是出现了某种旧有理论解释不了的状态. 尤其在科学研究过程中, 当我们获取了足够的实验数据并希望用假设检验的框架分析是否有新发现, 或是新方法是否有效时, 我们往往把 “没有新发现” “旧理论成立”“新方法无效” 作为原假设, 并希望获得的实验数据能够给出充分可靠的证据来否定原假设.

现设原假设为 , 备择假设为 . 简单起见我们先考虑 只包含一个元素 , 也就是说 是简单假设的情形, 此时一套典型的假设检验的流程如下:

1.

根据原假设 与备择假设 的形式, 设计一个统计量 , 使得当 成立时, 具有取值偏小的趋势, 而 成立时, 具有取值偏大的趋势. 我们把这个统计量 称为检验统计量 (test statistic).

2.

在获取到具体的样本值 以后, 先算出 , 而后计算(9.1.1)我们对式 (9.1.1) 所定义的 进行进一步解释. 首先, 我们需要获取一组样本值 ; 随后, 我们考察这样一个问题: 设 成立, 若我们再从总体中抽样得到一组新的样本, 则这组新样本对应的检验统计量的值大于等于已获取样本值 对应的检验统计量的值的概率 是多少; 或者说, 成立时, 与已获取样本检验统计量的取值相比, 新样本的检验统计量取同样极端或更加极端的值的概率是多少. 我们将这个概率 称为样本值 (-value).

3.

根据 值的大小, 判断获取到的样本值 与原假设 之间是否存在统计意义上的不一致.

值非常小 (例如小于 ), 则意味着在原假设 下, 产生与现有样本值相比同样极端或更加极端的样本是小概率事件. 我们依照小概率原理的精神, 认为小概率事件在一次观察中基本不可能发生, 故可以认为获取到的样本值 相对于原假设 发生了显著的偏离, 这也就意味着该组样本值为否定原假设提供了统计上显著的证据.

反之, 若 值并不是非常小 (例如大于 ), 那么我们认为获取到的样本值 并不能为否定原假设 提供统计上显著的证据. 但须注意, 此时也不意味着有充分证据支持 成立.

原则上看, 由于 值是可以连续分布于区间 内的, 当我们把它作为样本值 与原假设之间不一致程度的定量指标时, 这个指标也是连续渐变而非一刀切的. 许多场合下, 我们会直接将具体的 值作为假设检验的最终结论. 但在其它一些场合, 我们可能需要明确地在原假设 与备择假设 之间进行二选一, 此时我们会在进行假设检验之前事先划定一个阈值 , 而当最后算出的 值小于 时即拒绝原假设 而接受备择假设 , 否则接受原假设 而拒绝备择假设 . 典型的阈值包括 等, 但阈值的设定也应具体问题具体分析. 我们也把这个事先设定的阈值 称为上述假设检验流程的显著性水平 (significance level).

观察上述假设检验的流程不难发现, 该流程中除了检验统计量 的设计以外, 似乎与备择假设 没有什么直接关系. 我们通过下面的例子对此进行说明.

例 9.1.1 (方差已知时正态分布期望的假设检验). 已知总体 服从正态分布 , 其中方差 已知但期望 未知, 只知道 大于等于某个给定的值 . 我们希望检验 是等于 还是大于 . 此时可取原假设 与备择假设 分别为考虑到备择假设与原假设的差异仅体现在期望上, 且备择假设 的期望相较于原假设 的期望偏大, 故我们考虑用作为检验统计量; 直观上看, 备择假设 的取值相较于原假设 下具有偏大的趋势. 上式中的分母 在这个例子中无关紧要, 只是为了让 在假设 下的方差被归一化, 以方便 值的计算.

现假设我们获取了一组样本值 , 并记由于 为简单假设, 故相应的 值就直接等于而若设定了显著性水平 并需要决定是否拒绝 , 则当 , 也即时我们拒绝 , 否则不拒绝 .

我们发现, 在例 9.1.1 当中, 备择假设 的作用仅体现在检验统计量的设计上, 而且也仅仅起到一种经验性的指导作用. 而若要系统性地回答 “如何设计检验统计量” 这一问题, 则首先需要回答 “什么样的检验统计量是一个好的检验统计量”, 而这就要求我们给出检验统计量的定量评价方法. 我们将在第 9.2 节对频率学派的 Neymann–Pearson 理论进行初步的介绍.

另一方面, 限于本讲义面对的读者群体, 我们也不要求读者掌握较为一般的情况下检验统计量的设计方法, 而只是在随后的几节中, 针对一些常见的假设检验问题, 给出相应的检验统计量以及检验步骤.

双侧检验

在本节一开始给出的假设检验流程中, 我们要求检验统计量 在原假设成立时具有取值偏小的趋势, 而在备择假设成立时具有取值偏大的趋势. 也就是说, 从检验统计量 的视角来看, 备择假设相对于原假设的偏离是单侧 (one-sided) 的. 但对某些问题而言, 考虑双侧 (two-sided) 的检验统计量 可能是更合理的: 原假设成立时 的取值相对集中, 而备择假设成立时 则既可能具有取值偏大的趋势, 也可能有取值偏小的趋势; 或者说, 取过大的值或者过小的值都提示着相对于原假设出现了偏离. 一般来说, 给定原假设 与备择假设 , 若集合 相对于 既包括正向的偏离也包括负向的偏离, 则会考虑采用双侧的检验统计量.

若采用双侧的检验统计量 进行假设检验, 且原假设为简单假设 , 则相应的 值可采取如下定义 1: (9.1.2)换句话说, 我们将考虑 的取值在两个方向上的极端性, 而只要在一个方向上取值是极端的, 我们就让 取一个很小的值. 我们把这类基于双侧检验统计量, 且 值由式 (9.1.2) 给出的假设检验过程称为双侧检验.

我们对式 (9.1.2) 当中出现的系数 做出一些解释: 设 为某个假设检验问题的双侧检验统计量, 且在原假设 下, 服从连续型分布, 其相对于原点具有对称性: (9.1.3)该对称性意味着用 作为单侧检验统计量也是合理的. 若用 作为双侧检验统计量, 则相应的 值为而若采用 作为单侧检验统计量, 相应的 值为. 这说明当对称性 (9.1.3) 得到满足时, 无论用 进行双侧假设检验还是用 进行单侧的假设检验, 给出的结果都是一致的. 这也就是为什么定义 (9.1.2) 中需要加上系数 .

若对称性 (9.1.3) 得不到满足, 则通常不考虑用 进行单侧的假设检验. 在第 9.3 节中我们将讨论正态总体方差的假设检验问题, 其中用到的检验统计量 对于假设检验问题 就是一个典型的双侧检验统计量.

例 9.1.2. 已知总体服从正态分布 , 其中方差 已知而期望 未知, 且 的所有可能取值覆盖整个实数集 . 考虑如下原假设与备择假设: 其中 为给定的实数. 该问题当中 相对于 的偏离体现在期望上, 且既包括正向的偏离也包括负向的偏离. 故我们考虑将作为双侧检验统计量. 直观上看, 在原假设 的取值相对于备择假设 下具有更加集中于 附近的趋势, 而当 在某一组样本上的取值过大或过小时, 可以认为原假设 与该样本值之间出现了不一致.

现设 为观测到的一组样本值, 并记 值为而若设定了显著性水平 并需要决定是否拒绝 , 则当 , 也即时我们拒绝 , 否则不拒绝 .

对于该假设检验问题, 也可以用 作为单侧检验统计量, 最后得到的结果是一样的.

脚注

1.

^ 在原假设下的分布不是连续型分布时, 理论上不排除 (9.1.2) 给出大于 值的可能性, 此时我们通常强行取 .

() 此外, 当 在原假设下的分布不是连续型分布时, 相应的双侧检验的 值也存在其它定义方法, 典型的如 [16] 第 4.7 节所给出的定义. 与 [16] 第 4.7 节的定义相比, 式 (9.1.2) 定义的 值可能会略偏大, 从而对样本值偏离原假设程度的判断会更保守一些, 但胜在易于理解、计算方便.