2.6. 伯努利过程

本节中, 我们基于伯努利过程来阐述二项分布、几何分布与泊松分布的来源、意义和联系.

定义 2.6.1. 设 $X_{1}, X_{2}, \dots$ 为一列随机变量, $p \in (0, 1]$ . 我们称随机变量列 $(X_{n})_{n = 1}^{\infty}$ 为一参数为 $p$ 的伯努利过程 (Bernoulli process), 若 $X_{1}, X_{2}, \dots$ 相互独立, 且每个 $X_{n}$ 服从参数为 $p$ 的伯努利分布, 即 $P (X_{n} = 1) = p, P (X_{n} = 0) = 1 - p .$

给定一伯努利过程 $(X_{n})_{n = 1}^{\infty}$ , 我们进一步定义 $N_{0} = 0, N_{n} = k = 1 \sum n X_{k}, n = 1, 2, 3, \dots$ 并用递归的方式定义 $T_{1} T_{k} = min {n \in N_{+} ∣ N_{n} \geq 1}, = min {n \in N_{+} ∣ N_{n} \geq k} - i = 1 \sum k - 1 T_{i}, k = 2, 3, 4, \dots$ 可以将伯努利过程 $(X_{n})_{n = 1}^{\infty}$ 及相应的 $(N_{n})_{n = 1}^{\infty}$ 、 $(T_{k})_{k = 1}^{\infty}$ 与独立重复的伯努利试验相关联: 设有某个试验, 其结果只有成功和失败两种, 成功的概率为 $p$ , 失败的概率为 $1 - p$ , 我们把这样的试验被称为伯努利试验. 我们在离散时刻 $n = 1, 2, 3, \dots$ 独立地重复该试验, 每个时刻对应于一次试验, 则事件 ${X_{n} = 1}$ 代表第 $n$ 次试验成功, 而 $N_{n}$ 的值代表了时间段 ${1, \dots, n}$ 内试验的总成功次数, $T_{1}$ 的值代表了从初始时刻到第 $1$ 次成功之间的等待时间, $k \geq 2$ 时 $T_{k}$ 的值代表了第 $k - 1$ 次成功到第 $k$ 次成功之间的等待时间; 见图 1.

$N_{n}$ 的分布. 我们先考察 $N_{n}$ 的分布. 显然 $N_{n}$ 为离散型随机变量, 其取值范围为 ${0, 1, \dots, n}$ . 任取 $k \in {0, 1, \dots, n}$ , 由基础的组合数学知识可知, 事件 ${N_{n} = k}$ 可看成是 $(k n)$ 个形如 ${X_{1} = x_{1}, \dots, X_{n} = x_{n}}, x_{1}, \dots, x_{n} 当中有 k 个等于 1 ，其余 n - k 个等于 0$ 的互不相交的事件的并, 而由于 $X_{1}, X_{2}, \dots$ 相互独立, 可知每个形如上式的事件的概率为 $P (X_{1} = x_{1}, \dots, X_{n} = x_{n}) = P (X_{1} = x_{1}) \dots P (X_{n} = x_{n}) = p^{k} (1 - p)^{n - k} .$ 故 $N_{n}$ 的分布列为 $p_{N_{n}} (k) = (k n) p^{k} (1 - p)^{n - k}, k = 0, 1, \dots, n .$ (2.6.1)由此可看出 $N_{n}$ 服从参数为 $p$ 的二项分布.

上述结果为二项分布期望与方差的计算提供了一种简便方法: 利用期望的线性, 可得 $E [N_{n}] = E [i = 1 \sum n X_{i}] = i = 1 \sum n E [X_{i}] = n p,$ 以及 $Var (N_{n}) = Var (i = 1 \sum n X_{i}) = i = 1 \sum n Var (X_{i}) = n p (1 - p) .$ 上式第二步用到了 $X_{1}, X_{2}, \dots$ 的独立性. 注意到期望与方差的值仅取决于分布本身, 可得参数为 $(n, p)$ 的二项分布的期望为 $n p$ , 方差为 $n p (1 - p)$ .

$T_{1}$ 的分布. 接下来我们考察从初始时刻到第一次成功的等待时间 $T_{1}$ , 它是一个离散型随机变量, 其取值可以是任意正整数. 为求出 $T_{1}$ 的分布, 任取一正整数 $k$ , 由 $T_{1}$ 的定义可得, $T_{1} = k ⟺ X_{1} = \dots = X_{k - 1} = 0, X_{k} = 1.$ 故 ${T_{1} = k} = {X_{1} = \dots = X_{k - 1} = 0, X_{k} = 1} .$ 由 $X_{1}, X_{2}, \dots$ 的独立性可得 $P (T_{1} = k) = P (X_{1} = \dots = X_{k - 1} = 0, X_{k} = 1) = P (X_{1} = 0) \dots P (X_{k - 1} = 0) \cdot P (X_{k} = 1) = (1 - p)^{k - 1} p,$ 从而 $T_{1}$ 的分布列为 $p_{T_{1}} (k) = (1 - p)^{k - 1} p, k = 1, 2, 3, \dots$ 这意味着 $T_{1}$ 服从参数为 $p$ 的几何分布.

几何分布的无记忆性. 考虑这样一个情形: 我们对前 $m$ 个时刻的随机变量 $X_{1}, \dots, X_{m}$ 进行了观察, 发现它们的值均为 $0$ (也就是说, 前 $m$ 个时刻没有一次伯努利试验是成功的), 在这个条件下, 我们还需要等多长时间才能有一次成功的试验? 换句话说, 在给定 $T_{1} > m$ 的情况下, $T_{1} - m$ 的条件分布是怎样的?

相关的计算是较为直接的: 对任意正整数 $k$ , 有 $= = P (T_{1} - m = k ∣ T_{1} > m) \frac{P ( T _{1} = m + k , T _{1} > m )}{P ( T _{1} > m )} = \frac{P ( T _{1} = m + k )}{P ( T _{1} > m )} \frac{( 1 - p ) ^{m + k - 1} p}{\sum _{r = m + 1}^{\infty} ( 1 - p ) ^{r - 1} p} = \frac{( 1 - p ) ^{m + k - 1} p}{( 1 - p ) ^{m}} = (1 - p)^{k - 1} p .$ (2.6.2)不难发现上式最右端就等于 $P (T_{1} = k)$ . 换句话说, 已知 $T_{1} > m$ 的作用相当于把时间原点向右平移了 $m$ 个单位时间, 而 $n = m + 1$ 时刻起试验成功与否对于前 $m$ 个时刻的结果是没有记忆的. 一般地, 给定一取值为正整数的随机变量 $X$ , 若 $X$ 满足 $P (X = m + k ∣ X > m) = P (X = k), \forall m, k \in N_{+},$ 我们就称随机变量 $X$ 具有无记忆性. 考虑到这里的随机变量 $T_{1}$ 是直接从伯努利过程中构造而来的, 其无记忆性是非常容易理解的, 但不难看出式 (2.6.2) 的推导过程仅利用了 $T_{1}$ 的概率分布而不涉及其具体构造, 因此无记忆性是任意服从几何分布的随机变量都具有的性质.

$T_{k}$ ( $k \geq 2$ ) 的分布. 我们不妨直接求解 $(T_{1}, \dots, T_{k})$ 的联合分布: 令 $t_{1}, \dots, t_{k} \in N_{+}$ 任意, 并为了方便记 $s_{k} = \sum_{i = 1}^{k} t_{i}$ . 注意到 $T_{1} = t_{1}, \dots, T_{k} = t_{k} ⟺ X_{s_{1}} = \dots X_{s_{k}} = 1 且对其它 1 \leq n < s_{k} 有 X_{n} = 0,$ 故 $P (T_{1} = t_{1}, \dots, T_{k} = t_{k}) = p^{k} (1 - p)^{s_{k} - k} = p^{k} (1 - p)^{\sum_{i = 1}^{k} t_{i} - k} = i = 1 \prod k ((1 - p)^{t_{i} - 1} p) .$ 不难由上式看出 $T_{1}, \dots, T_{k}$ 独立同分布, 且均服从参数为 $p$ 的几何分布.

二项分布的泊松分布近似

现在我们考虑一个特殊情况: 设伯努利试验成功的概率 $p$ 非常小, 但另一方面, 我们关心的是 $n$ 很大时 $N_{n}$ 的分布情况. 若进一步假定 $n p^{2}$ 很小, 则在这种情形下, 我们可以给分布列 (2.6.1) 找一个更好用的近似计算式.

设 $k$ 是一个正整数, 满足 $k^{2}$ 远小于 $n$ , 则有 $p_{N_{n}} (k) = \frac{n ( n - 1 ) \dots ( n - k + 1 )}{k ( k - 1 ) \dots 1} p^{k} (1 - p)^{n - k} = (1 - p)^{n - k} \frac{( n p ) ^{k}}{k !} \cdot i = 0 \prod k - 1 (1 - \frac{i}{n}) .$ 接下来我们对上式右端做近似:

1.

为了对 $\prod_{i = 0}^{k - 1} (1 - \frac{i}{n})$ 取近似, 注意到 $1 \geq i = 0 \prod k - 1 (1 - \frac{i}{n}) \geq 1 - \frac{\sum _{i = 0}^{k - 1} i}{n} = 1 - \frac{k ( k - 1 )}{2 n} .$ 故 $k^{2}$ 远小于 $n$ 时 $\prod_{i = 0}^{k - 1} (1 - \frac{i}{n})$ 可以近似为 $1$ .

2.

为了对 $(1 - p)^{n - k}$ 取近似, 注意到 $∣ ∣ ln \frac{( 1 - p ) ^{n - k}}{e ^{- n p}} ∣ ∣ = ∣ n (ln (1 - p) + p) - k ln (1 - p) ∣ \leq n ∣ ln (1 - p) + p ∣ + k ∣ ln (1 - p) ∣ \leq \frac{1}{1 - p} (n p^{2} + k p) = \frac{1}{1 - p} (n p^{2} + \frac{k ^{2}}{n} \cdot n p^{2}) \leq \frac{1}{1 - p} (n p^{2} + \frac{k ^{2}}{2 n} + \frac{n p ^{2}}{2}),$ 其中用到了不等式 $\frac{- p}{1 - p} \leq ln (1 - p) \leq - p, \forall p < 1.$ 因此 $n p^{2}$ 与 $k^{2} / n$ 非常小时可以取近似 $(1 - p)^{n - k} \approx e^{- (n - k) p} \approx e^{- n p} .$

综上可得 $p_{N_{n}} (k) \approx e^{- n p} \frac{( n p ) ^{k}}{k !}$ (2.6.3)不难看出上式右端与参数为 $n p$ 的泊松分布相吻合. 这里再明确一下式 (2.6.3) 成立的条件: (i) $n$ 非常大; (ii) $n p^{2}$ 非常小; (iii) $k^{2}$ 远小于 $n$ .

实际上, 由上面的计算过程不难证明如下命题:

命题 2.6.2. 给定 $λ > 0$ , 对任意足够大的正整数 $n$ , 令 $p_{n} = λ / n$ , 并令 $b (k; n, p_{n}) = (k n) p_{n}^{k} (1 - p_{n})^{n - k},$ 则对任意自然数 $k$ , 有 $n \to \infty lim b (k; n, p_{n}) = e^{- λ} \frac{λ ^{k}}{k !} .$

基于以上结果, 我们通常会用泊松分布来对小概率事件在较长的一段时间内发生的次数进行建模.

名字空间

视图

2.6. 伯努利过程

二项分布的泊松分布近似