9.5. 一些非参数检验问题

本节中, 我们将介绍一些非参数检验问题. 所谓的非参数检验, 是指假设检验问题中不再假定总体的分布函数一定可以表示为 的形式; 换句话说, 不再认为总体的未知信息全都包含在某个未知的参数 当中. 对于非参数检验, 原则上其原假设与备择假设的形式会更为灵活, 但本节考虑的问题中备择假设 多是表达原假设 的某种 “否定”, 下面给出几个例子:

,
,
其中 为一给定的分布函数.

,
.

,
.

通常, 若备择假设 可以通过对原假设 按某种方式取 “否定” 自然地看出来, 那我们就不显式地指明备择假设 , 而仅指明原假设 .

拟合优度检验

拟合优度检验 (test of goodness-of-fit) 是针对总体是否具有某一个指定的分布或属于某一个分布族而进行的假设检验. 最简单的拟合优度检验问题具有如下形式: 给定一个确定的分布函数 , 我们想要基于获得的样本, 检验总体的分布函数是否就是 , 即我们简要介绍两种拟合优度检验的方法: Pearson 卡方检验法与 Kolmogorov–Smirnov 检验法.

Pearson 卡方检验法. 为来自未知总体的样本, 其中样本容量 足够大. 为实数集的一个子集, 它使得分布函数为 的随机变量取值落于 内的概率为 . 在 Pearson 卡方检验法中, 我们首先将 划分成 个互不相交的子集 . 例如

, 则通常会将各个 取为如下形式的区间: (9.5.1)

为一可数集时, 可以当作一个离散型分布, 记其分布列为 , 则一种 的划分方法是将 先按照 的值进行降序排序, 而后取(9.5.2)

我们将分布 下随机变量属于集合 的概率记为 . 例如, 若 并采用式 (9.5.1) 的划分方式, 则而若 并采用式 (9.5.2) 的划分方式, 则其中 表示 相应的分布列. 直观上看, 若原假设 成立, 则当样本容量 足够大时, 样本 当中落在集合 内的数目应当约等于 , 也就是说而若样本容量 非常大时, 上述近似相等的关系依然对于某个 不成立, 则意味着原假设不能很好地解释我们所获取的样本数据, 或者说, 分布函数 作为一个统计模型不能很好地对样本数据进行拟合. 基于上述考虑, Karl Pearson 设计了如下检验统计量用于拟合优度检验: (9.5.3)直观上看, 若 取值明显偏大, 则意味着样本相对于原假设 产生了显著的偏离. 注意到式 (9.5.3) 当中, 对每个衡量偏离程度的 还乘以了因子 ; 大致来说, 这个因子起到了对各个偏离程度 进行平衡的作用, 并使得检验统计量 在原假设 下的渐近分布 (也就是样本容量 趋于无穷大时分布的极限) 能够被推导出来.

定理 9.5.1. 为式 (9.5.3) 定义的检验统计量, 并设原假设 成立 (即 为总体的分布函数). 则当 时, 的分布函数将逐点收敛于 的分布函数.

定理 9.5.1 的证明不做要求, 感兴趣的读者可参阅 [15] 定理 7.131, 但我们指出它的背后实际上是中心极限定理. 定理中 分布的自由度为 则与 这一等式关系有关.

在搞清楚大样本情形下 在原假设成立时的分布以后, 我们即可得到 值与拒绝域. 设 为获取的样本值, 对每个 , 用 表示 当中落在集合 中的点的个数, 则 值为而拒绝域则由给出, 其中 为事先给定的显著性水平.

在 Pearson 卡方检验当中, 总体值域 的划分方式 (包括子集的数目 以及每个子集 的具体取法) 会对检验的最终结果产生影响. 经验指出, 通常应当使得划分之后算出的各个 值至少满足 . 此外, 由于定理 9.5.1 给出的仅仅是检验统计量的渐近分布, 故 Pearson 卡方检验只适用于大样本情形, 经验上, 通常认为样本容量小于 的情形不适合用 Pearson 卡方检验法.

例 9.5.2. 设有一枚均匀性未知的立方体骰子, 六个面上依次标有点数 . 将该骰子投掷 600 次后, 六个点数各自出现的次数依次为 , , , , , . 我们采用 Pearson 卡方检验法来对骰子的均匀性进行检验. 令总体 为骰子投掷出的点数, 则骰子的均匀性意味着 服从 上的离散型均匀分布, 也即我们自然取 并将其划分为 . 按照该划分方式, Pearson 卡方检验的检验统计量的值为而检验统计量在原假设下近似服从自由度为 分布, 故 值为这个 值是比较大的, 因而从我们获得的投掷结果来看, 还没有充分理由认为骰子是非均匀的.

() Kolmogorov–Smirnov 检验法. 在 Kolmogorov–Smirnov 检验法中, 我们首先基于经验分布函数来构造如下随机变量: (9.5.4)习惯上我们会显式地把样本容量 放在该随机变量的角标中. 以 为基础来设计拟合优度检验统计量的合理性部分来自于如下 Glivenko–Cantelli 定理:

定理 9.5.3 (Glivenko–Cantelli). 独立同分布, 它们的分布函数均为 . 令 由式 (9.5.4) 定义, 则当 时, 几乎必然收敛于 .

不难看出, 衡量了经验分布函数 之间的最大差值, 而 Glivenko–Cantelli 定理则保证了样本容量趋于无穷大时该差值趋于 . 因此, 直观上看, 若样本容量 非常大时, 我们根据样本观测值算出的检验统计量的值 依然较大, 则说明样本值相对于原假设 有显著的偏离.

当然, 由于 时趋于 , 我们需要将其乘以适当的系数, 使其具有非退化的渐近分布, 再将它作为检验统计量, 以方便 值与临界值的计算. 这方面的结果由如下定理给出:

定理 9.5.4 (Kolmogorov–Smirnov). 独立同分布, 它们的分布函数均为 . 令 由式 (9.5.4) 定义, 则对任意 , 有(9.5.5)

定理 9.5.5 指出, 我们可以将 作为检验统计量, 而该检验统计量在大样本极限时的分布函数由式 (9.5.5) 给出. 式 (9.5.5) 右端给出的分布又被称为 Kolmogorov 分布. 接下来, 我们即可依据式 (9.5.5) 来计算大样本情形的 值与临界值. 设 为获得的样本观测值, 其中样本容量 足够大, 为检验统计量 在该组样本上的取值, 则 值为而给定显著性水平 后, 临界值则由 Kolmogorov 分布的上 分位数给出.

注 9.5.5. 当分布函数 对应于一个连续型分布时, 通常会考虑用 Kolmogorov–Smirnov 检验法而非 Pearson 卡方检验法来进行拟合优度检验. 而若分布函数 对应于一个离散型分布, 则通常会先考虑用 Pearson 卡方检验. 另一方面, Pearson 卡方检验具有较高的灵活性, 可以推广到其它更复杂的拟合优度检验问题中, 包括总体是多维随机向量时的拟合优度检验问题, 以及对总体是否来自于给定的一族参数化分布进行检验的问题 (例如对 “” 进行检验; 见 [20] 第 10.2 节).

列联表与独立性检验

本小节中我们考虑这样一个问题: 设总体为一个二维随机变量 , 获取的简单随机样本为 . 应当如何通过样本来检验总体当中 之间的独立性? 换句话说, 我们希望检验原假设我们将这样的假设检验称为独立性检验 (test of independence).

接下来介绍的独立性检验法可以看作是 Pearson 提出的卡方检验法的一个变种. 设已知总体 当中 的取值范围分别由有限集 给出 1, 其中 分别为 的元素个数. 随后, 对每个 , 我们统计样本 当中等于 的数目有多少: 并令显然 . 若原假设 成立, 也就是说 相互独立, 则当样本容量 足够大时, 对任意的 , 均应当有基于上述考虑, 仿照拟合优度检验中检验统计量的构造, 我们取(9.5.6)为检验统计量. 原假设成立时, 该检验统计量在大样本极限下的渐近分布由如下定理给出:

定理 9.5.6. 为式 (9.5.6) 定义的检验统计量, 并设原假设 成立 (即 相互独立). 则当 时, 的分布函数将逐点收敛于 的分布函数.

换句话说, 检验统计量 在大样本情形下近似服从自由度为 分布. 由此即可得到大样本情形下的 值与临界值: 设 为样本观测数据, 则 值约为其中 为检验统计量 在该组样本上的取值. 若给定了显著性水平 , 则拒绝域可近似表示为

在将上述检验法用于实际问题时, 我们习惯上会把样本数据 进行处理并表示为如下形式的表格:

总计
总计

其中 即为统计量 在给定样本数据后的具体取值, 也就是 中有多少个点取值为 ; 同理. 上述形式的表格被称为列联表 (contingency table) .

例 9.5.7 (本例取自 [20] 第 10.4 节习题 3). A 大学每周五下午会面向全校本科学生举办由访问学者主讲的学术讲座. 在 4 次讲座过后, 讲座负责人随机调查了 70 名大一学生、70 名大二学生、60 名大三学生与 50 名大四学生的讲座参与情况, 并汇总为如下表格:

讲座参与次数
年级01234总人数
大一10162761170
大二14192041370
大三1515174960
大四198651250
总人数5858701945250

我们希望判断讲座参与次数与年级是否相互独立. 为了计算检验统计量 (9.5.6) 的值, 我们首先计算各个 的值, 可得接下来即可算得检验统计量 (9.5.6) 的值为, 故 值为由该 值, 可认为讲座参与次数与年级之间呈现出一些不独立的迹象, 但若想要做出更确切的结论则需要进一步收集数据.

脚注

1.

^ 的值域为无限集, 则需要像上一节那样先将 的值域划分为有限多个组别.