1.3. 样本空间、事件与概率

概率论用如下数学对象对某个随机试验进行抽象:

•	我们将随机试验的所有可能结果用一个非空集合 $Ω$ 表示. $Ω$ 被称作样本空间, 其中的每个元素 $ω \in Ω$ 代表一个可能的试验结果, 不同的试验结果在同一次试验中不能一同发生.
•	样本空间 $Ω$ 的 (某些) 子集被称为 $Ω$ 中的事件. 在某一次随机试验中, 我们称事件 $E \subseteq Ω$ 发生当且仅当该次试验的结果 $ω$ 是 $E$ 的元素. 我们将所有事件构成的集族称为事件域, 它是样本空间幂集 $2^{Ω}$ 的子集.
•	对每一个事件 $E$ , 我们指定一个实数 $P (E)$ 作为其概率. 换句话说, $P$ 是将每个事件映为其概率的映射, 映射 $P$ 本身被称为概率测度.

事件域与概率测度并不能随意指定, 它们需要满足如下定义:

定义 1.3.1. 设 $Ω$ 为一个样本空间, $F$ 是幂集 $2^{Ω}$ 的子集 (也就是说 $F$ 的每个元素都是 $Ω$ 的子集). 我们称 $F$ 为 $Ω$ 上的一个事件域, 若如下条件得到满足:

1.	$Ω \in F$ .
2.	对任意 $E \in F$ , 有 $E^{c} = Ω\ E \in F$ .
3.	任取 $F$ 中的一列集合 $E_{1}, E_{2}, E_{3}, \dots$ , 总有 $⋃_{i = 1}^{\infty} E_{i} \in F$ .

定义 1.3.2. 设 $Ω$ 为一样本空间, $F$ 为 $Ω$ 上的事件域. 我们称映射 $P : F \to R$ 为 $F$ 上的一个概率测度 (probability measure), 若如下条件得到满足:

1.	对任意 $E \in F$ , 均有 $0 \leq P (E) \leq 1$ .
2.	$P (Ω) = 1$ .
3.	(可数可加性) 若 $E_{1}, E_{2}, E_{3}, \dots$ 为 $F$ 中的一列集合, 且对任意 $i \neq = j$ 均有 $E_{i} \cap E_{j} = \emptyset$ , 则级数 $\sum_{i = 1}^{\infty} P (E_{i})$ 收敛, 且 $P (i = 1 ⋃ \infty E_{i}) = i = 1 \sum \infty P (E_{i}) .$

我们将样本空间 $Ω$ 、事件域 $F \subseteq 2^{Ω}$ 、概率测度 $P : F \to R$ 构成的三元组 $(Ω, F, P)$ 称作一个概率空间 (probability space), 此时事件域 $F$ 的元素被称作事件. 而对任意事件 $E \in F$ , 我们将 $P (E)$ 称作 $E$ 的概率.

上述定义是对现实世界的随机现象与随机试验进行数学抽象, 并加以一定的理论考虑而提出的, 它们规定了描述随机试验所需要的数学对象以及这些数学对象所要满足的理论条件. 作为数学理论的概率论, 就是以上述定义为基础发展起来的. 概率论主要关心的一些典型问题如下:

假设已经给定了样本空间 $Ω$ 、 $Ω$ 的一族子集 ${E_{i}, i \in I}$ 作为我们所关心的一些事件, 以及该族事件中一些简单事件的概率值或者这些概率所满足的关系．则

•	应当如何由简单事件的概率值或概率的关系, 计算出 ${E_{i}, i \in I}$ 当中其它事件的概率;
•	在获取到额外信息 (例如获知某些事件已经发生) 的条件下, 应当如何对概率进行修正或更新．

注 1.3.3. 之前说过, 理想情况下, 我们希望一个事件 $E$ 的概率 $P (E)$ 等于试验重复的次数 $n$ 趋于无穷大时频率 $Fr_{n} (E)$ 的极限, 但在定义 1.3.2 当中, 我们并不直接把 “概率等于频率的极限” 作为概率的原始数学定义, 而是从 “概率等于频率的极限” 这一理想当中抽象出一些基本性质, 利用这些基本性质来定义 $P$ . 这种概率的定义方式常被称为概率的公理化定义, 它是数学家柯尔莫哥洛夫 (Kolmogorov) 在 1933 年的著作 [1] 中总结并提出的, 是现代概率论发展的重要里程碑.

实际上, 把 “概率等于频率的极限” 作为原始定义来建立概率论会遇到不少问题, 例如我们一开始就需要考察随机试验重复无穷多次的复杂情形, 又如这样的理论中 “独立性” 的概念在逻辑上似乎有陷入循环论证的风险; 此外, 从现代概率论的角度来看, “概率等于频率的极限” 也不一定是一个必然发生的事件. 而以概率的公理化定义为基础的现代概率论则能够较好地规避这些问题. 在现代概率论当中, “概率等于频率的极限” 成为了概率的公理化定义以及独立性定义的某种推论, 被称为 “大数定律”.

概率的公理化定义的另一个特点在于, 它将 “为什么会有随机现象、随机现象为什么服从统计规律” 这一涉及到具体物理机制的问题从 “如何对随机现象进行数学描述” 中剥离出去. 这种剥离一方面使得概率论本身获得了足够的抽象从而成为了一门独立的数学理论, 另一方面也使得我们在应用概率论时可以以更加唯象的方式入手而无需对随机现象背后的物理机制有特别充分的了解, 这进一步拓展了概率论的应用范围.

对事件这一概念的进一步说明

设 $(Ω, F, P)$ 为一概率空间.

•	由定义 1.3.1, 可知 $Ω$ 以及 $\emptyset = Ω^{c}$ 都是事件. 我们将 $Ω$ 称为必然事件, $\emptyset$ 称为不可能事件.
•	由于事件都是样本空间 $Ω$ 的子集, 故而事件之间也可以有包含关系. 若事件 $E$ 是事件 $F$ 的子集, 那么事件 $E$ 发生时事件 $F$ 必然发生.
•	任取两个事件 $E$ 和 $F$ , 其并集 $E \cup F$ 也是一个事件, 该事件发生当且仅当 $E$ 发生或 $F$ 发生. 更一般地, 对于一列事件 $E_{1}, E_{2}, \dots$ , 其并集 $⋃_{i = 1}^{\infty} E_{i}$ 也是一个事件, 该事件发生当且仅当 $E_{1}, E_{2}, \dots$ 中至少有一个发生.
•	任取两个事件 $E$ 和 $F$ , 其交集 $E \cap F$ 也是一个事件, 该事件发生当且仅当 $E$ 和 $F$ 都发生. 更一般地, 对于一列事件 $E_{1}, E_{2}, \dots$ , 其交集 $⋂_{i = 1}^{\infty} E_{i}$ 也是一个事件, 该事件发生当且仅当 $E_{1}, E_{2}, \dots$ 这些事件全都发生.
•	若两个事件 $E, F$ 的交 $E \cap F$ 为空集, 则说事件 $E$ 与事件 $F$ 互斥或互不相容 (mutually exclusive). 两个互斥的事件不能在同一次随机试验中都发生.
•	任取事件 $E$ , 其补集 $E^{c}$ 也是一个事件. 我们称 $E$ 与 $E^{c}$ 为对立事件. 注意到对立事件必为互斥事件.

在本小节的最后, 我们对事件域 $F$ 这一概念的引入进行必要的说明. 一些初等概率论的教材并未明确引入事件域的概念, 而是将事件直接定义为样本空间的子集, 这种做法对于绝大多数实际应用是足够的, 但在数学上缺乏一定的严格性. 例如, 对于一些样本空间为不可数集的情况, 我们无法构造出一个定义域为 $2^{Ω}$ 的概率测度, 或者说, 我们无法对每个 $Ω$ 的子集都赋予相应的概率值 ¹. 概率论应对这个问题的办法是将概率测度 $P$ 的定义域缩小到 $2^{Ω}$ 的一个子集 $F$ (也就是事件域) 上, 但仍要求 $F$ 中的元素经过一些基本的集合运算 (包括补集运算、可数并运算、可数交运算) 后依然在 $F$ 当中, 以保证 $F$ 能够纳入足够多的 $Ω$ 的子集作为事件. 通常, 当 $Ω$ 为可数集时, 我们几乎总是取事件域 $F$ 为幂集 $2^{Ω}$ , 即 $Ω$ 的所有子集都是事件; 当 $Ω$ 为不可数集时, 事件域 $F$ 的选取则属于高等概率论的内容, 本讲义不对其进行展开. 在随后的内容中, 若无特别说明, 均假定事件域 $F$ 随样本空间 $Ω$ 一同给出.

一些随机试验及其样本空间的例子

下面我们给出一些随机试验以及相应的样本空间 $Ω$ 的例子．

例 1.3.4 (抛硬币). 假设我们的随机试验为掷 $2$ 次硬币, 硬币的正反面分别用 $H$ 和 $T$ 表示. 则样本空间可以取为 $Ω = = {(ω_{1}, ω_{2}) ∣ 对每个 i = 1, 2, ω_{i} 均为 H 或 T} {(H, H), (H, T), (T, H), (T, T)}$ 以下给出了一些事件的例子:

1.	事件 ${(H, H), (H, T)}$ 的含义可写为 “第一次抛出的为正面”;
2.	事件 ${(H, T), (T, H)}$ 的含义可写为 “两次抛硬币的结果不同”;
3.	事件 ${(H, H), (H, T), (T, H)}$ 的含义可写为 “抛出反面的次数至多为 $1$ ”;
4.	事件 ${(H, H), (T, H), (T, T)}$ 的含义可写为 “第一次抛出反面, 或第二次抛出正面”.

更一般地, 若随机试验为抛 $n$ 次硬币, 则样本空间可以取为 $Ω = {(ω_{1}, \dots, ω_{n}) ∣ 对每个 i = 1, 2, \dots, n, ω_{i} 均为 H 或 T} .$

例 1.3.5 (区间 $[0, 1]$ 上的随机数). 假设我们的随机试验是用随机数生成器生成一个属于 $[0, 1]$ 的随机数, 则样本空间可以取为 $Ω = [0, 1]$ , 此时 “随机数落在区间 $I \subset [0, 1]$ 当中” 这一事件则可直接用区间 $I$ 本身来表示.

例 1.3.6 (抛无穷多次硬币). 假设我们的随机试验为抛 (可数) 无穷多次硬币, 硬币的正反面分别用 H 和 T 表示 ². 则样本空间可以取为 $Ω = {(ω_{1}, ω_{2}, ω_{3}, \dots) ∣ 每个 ω_{i} 均为 H 或 T} .$ 接下来, 用 $q_{n} (ω_{1}, \dots, ω_{n})$ 表示 $ω_{1}, \dots, ω_{n}$ 当中 $H$ 出现的次数, 则事件 ${(ω_{1}, ω_{2}, ω_{3}, \dots) \in Ω ∣ ∣ n \to \infty lim \frac{q _{n} ( ω _{1} , \dots , ω _{n} )}{n} = \frac{1}{2}}$ 的含义是 “前 $n$ 次抛硬币中抛出正面的频率在 $n \to \infty$ 时趋向于 $1/2$ ”.

例 1.3.7 (悬浮于水中的花粉粒的轨迹). 该随机试验的描述见例 1.1.1. 对于该随机试验, 我们通常取样本空间为 $Ω = {r : [0, + \infty [\to R^{3} ∣ ∣ r 在 [0, + \infty [上连续} .$ 注意到该例当中, 样本空间 $Ω$ 似乎取得有些 “过大”: 真实实验只能观察长度有限的时间段内有限个时刻 $0 \leq t_{1} < \dots < t_{n} \leq T$ 的花粉位置信息, 而没有办法观察到无穷长时间段 $[0, + \infty [$ 内的整条连续时间轨迹. 这里 $Ω$ 的取法带有一定的理想化与抽象的过程, 它的一大优点在于能使我们的模型与观测时刻 $0 \leq t_{1} < \dots < t_{n} \leq T$ 无关, 从而具有普适性.

脚注

1.	^ 这个结果属于测度论的内容, 感兴趣的读者可参阅 [2] 的附录 A1.1 等相关文献.
2.	^ 这个随机试验并不能在真实世界中实现, 然而对它的研究依然具有重要的价值. 一方面, 抛 $n$ 次硬币的试验都可以看成是抛无穷多次硬币的一个 “子试验”; 另一方面, 对抛无穷多次硬币的研究使得我们能更深入地研究抛 $n$ 次硬币在 $n \to \infty$ 时的极限行为.

名字空间

视图

1.3. 样本空间、事件与概率

对事件这一概念的进一步说明

一些随机试验及其样本空间的例子

脚注