6.1. 总体、样本与统计量

在数理统计学的不同发展阶段, 人们对 “总体” (population) 这个概念有着不同的认识. 起初, 我们把 “总体” 简单理解为被研究对象的全体, 这是因为数理统计学在发展早期主要关注于如何对有限多个体构成的群体收集数据并刻画该群体的某些定量特征, 例如我们希望知道全国人口的年龄分布情况, 或是调查一所学校学生的心肺功能与体育锻炼时长的联系. 而随着概率论逐步完善并被引入数理统计学作为理论基础, 数理统计学所考虑的研究对象也从有限多个体构成的群体演变与拓展为较为一般的随机现象. 如今在数理统计学中, 我们通常将 “总体” 理解为一个概率分布, 这个概率分布给出了待研究的随机现象中我们所关心的某个或某些定量特征的统计规律. 习惯上, 我们常用分布的符号或随机变量的符号指代一个总体. 例如, 我们可以直接用一个分布函数 来指代一个总体; 又如, 当总体的分布函数 存在相应的概率密度函数 时, 我们也可以用 指代这个总体; 我们也可以用随机变量 指代一个总体, 此时 所服从的分布即为该总体所对应的概率分布.

在数理统计问题中, 总体的具体信息通常是未知的, 而我们的任务则是通过合适的试验或观察, 获取关于总体的具有代表性的数据, 并从这些数据对总体的未知信息以及关键性质进行推断. 这些具有代表性的数据被称为总体的样本 (sample), 而获取这些样本的过程被称为抽样. 本讲义中, 我们只考虑最简单的一类样本, 被称为简单随机样本.

定义 6.1.1. 设某个总体的分布函数为 . 我们称随机变量 为该总体的一组简单随机样本, 若 相互独立且服从 所给出的分布; 正整数 被称为该样本的容量.

在现实世界中, 简单随机样本通常是通过对某个随机现象进行独立重复观测来获取的, 并且我们获取的实际上是样本值 . 但为了对统计推断方法的性能进行推导与分析, 需要将样本作为随机变量处理, 以充分利用概率论提供的各种工具. 此外, 若不做特别说明, 本讲义中的样本均指简单随机样本.

接下来我们介绍统计量的概念. 本讲义中所介绍的数理统计方法, 几乎都离不开统计量的构造与分析.

定义 6.1.2. 为一组容量为 的样本, 元函数, 则称随机变量 为一个统计量 (statistic).

一般来说, 我们要求统计量 的值在总体未知的情况下依然能由样本 的取值算出来, 否则这个统计量就无法用于总体未知的统计推断问题. 这意味着函数 不能依赖于总体的具体分布信息.

例 6.1.3. 为某个总体的一组样本. 我们将统计量称为该样本的样本均值 (sample mean); 将统计量称为该样本的样本方差 (sample variance). 注意到在样本方差的定义中, 我们用 而不是 作为系数的分母, 这样定义的原因将在第 7 章中进行解释. 有时我们也会用 分别表示样本均值与样本方差, 以强调它们与样本容量 的依赖关系.

下面我们考虑样本均值的分布. 当总体为正态分布 时, 利用例 4.3.9 的结论可得, 样本均值 服从正态分布 . 而若仅假设总体存在方差, 但样本容量 足够大, 则此时由中心极限定理可得 近似服从正态分布 .

样本方差的概率分布则更复杂一些. 在第 6.2 节中, 我们将分析总体为正态分布时样本方差的概率分布.

例 6.1.4. 为总体 的一组样本. 对任意 , 定义也就是说, 我们先统计 中有多少个是小于等于 的, 再将其除以样本容量 即得到 . 显然对于给定的 , 为一统计量. 我们将 这一族统计量称为经验分布函数 (empirical distribution function), 取这个名称是因为且由强大数定律可得 1, 给定任意 , 均有

脚注

1.

^ () 实际上有如下更强的结论成立: 换句话说, 经验分布函数 几乎必然地一致收敛于分布函数 . 该结论被称为 Glivenko–Cantelli 定理.