本节中, 我们基于伯努利过程来阐述二项分布、几何分布与泊松分布的来源、意义和联系.
设 X1,X2,… 为一列随机变量, p∈(0,1]. 我们称随机变量列 (Xn)n=1∞ 为一参数为 p 的伯努利过程 (Bernoulli process), 若 X1,X2,… 相互独立, 且每个 Xn 服从参数为 p 的伯努利分布, 即P(Xn=1)=p,P(Xn=0)=1−p.
给定一伯努利过程 (Xn)n=1∞, 我们进一步定义N0=0,Nn=k=1∑nXk,n=1,2,3,…并用递归的方式定义T1Tk=min{n∈N+∣Nn≥1},=min{n∈N+∣Nn≥k}−i=1∑k−1Ti,k=2,3,4,…可以将伯努利过程 (Xn)n=1∞ 及相应的 (Nn)n=1∞、(Tk)k=1∞ 与独立重复的伯努利试验相关联: 设有某个试验, 其结果只有成功和失败两种, 成功的概率为 p, 失败的概率为 1−p, 我们把这样的试验被称为伯努利试验. 我们在离散时刻 n=1,2,3,… 独立地重复该试验, 每个时刻对应于一次试验, 则事件 {Xn=1} 代表第 n 次试验成功, 而 Nn 的值代表了时间段 {1,…,n} 内试验的总成功次数, T1 的值代表了从初始时刻到第 1 次成功之间的等待时间, k≥2 时 Tk 的值代表了第 k−1 次成功到第 k 次成功之间的等待时间; 见图 1.
图 1. 伯努利过程中 Xn,Nn 与 Tk 的图示. Nn 的分布. 我们先考察 Nn 的分布. 显然 Nn 为离散型随机变量, 其取值范围为 {0,1,…,n}. 任取 k∈{0,1,…,n}, 由基础的组合数学知识可知, 事件 {Nn=k} 可看成是 (kn) 个形如{X1=x1,…,Xn=xn},x1,…,xn当中有k个等于1,其余n−k个等于0的互不相交的事件的并, 而由于 X1,X2,… 相互独立, 可知每个形如上式的事件的概率为P(X1=x1,…,Xn=xn)=P(X1=x1)⋯P(Xn=xn)=pk(1−p)n−k.故 Nn 的分布列为pNn(k)=(kn)pk(1−p)n−k,k=0,1,…,n.(2.6.1)由此可看出 Nn 服从参数为 p 的二项分布.
上述结果为二项分布期望与方差的计算提供了一种简便方法: 利用期望的线性, 可得E[Nn]=E[i=1∑nXi]=i=1∑nE[Xi]=np,以及Var(Nn)=Var(i=1∑nXi)=i=1∑nVar(Xi)=np(1−p).上式第二步用到了 X1,X2,… 的独立性. 注意到期望与方差的值仅取决于分布本身, 可得参数为 (n,p) 的二项分布的期望为 np, 方差为 np(1−p).
T1 的分布. 接下来我们考察从初始时刻到第一次成功的等待时间 T1, 它是一个离散型随机变量, 其取值可以是任意正整数. 为求出 T1 的分布, 任取一正整数 k, 由 T1 的定义可得, T1=k⟺X1=⋯=Xk−1=0,Xk=1.故{T1=k}={X1=⋯=Xk−1=0,Xk=1}.由 X1,X2,… 的独立性可得P(T1=k)=P(X1=⋯=Xk−1=0,Xk=1)=P(X1=0)⋯P(Xk−1=0)⋅P(Xk=1)=(1−p)k−1p,从而 T1 的分布列为pT1(k)=(1−p)k−1p,k=1,2,3,…这意味着 T1 服从参数为 p 的几何分布.
几何分布的无记忆性. 考虑这样一个情形: 我们对前 m 个时刻的随机变量 X1,…,Xm 进行了观察, 发现它们的值均为 0 (也就是说, 前 m 个时刻没有一次伯努利试验是成功的), 在这个条件下, 我们还需要等多长时间才能有一次成功的试验? 换句话说, 在给定 T1>m 的情况下, T1−m 的条件分布是怎样的?
相关的计算是较为直接的: 对任意正整数 k, 有==P(T1−m=k∣T1>m)P(T1>m)P(T1=m+k,T1>m)=P(T1>m)P(T1=m+k)∑r=m+1∞(1−p)r−1p(1−p)m+k−1p=(1−p)m(1−p)m+k−1p=(1−p)k−1p.(2.6.2)不难发现上式最右端就等于 P(T1=k). 换句话说, 已知 T1>m 的作用相当于把时间原点向右平移了 m 个单位时间, 而 n=m+1 时刻起试验成功与否对于前 m 个时刻的结果是没有记忆的. 一般地, 给定一取值为正整数的随机变量 X, 若 X 满足P(X=m+k∣X>m)=P(X=k),∀m,k∈N+,我们就称随机变量 X 具有无记忆性. 考虑到这里的随机变量 T1 是直接从伯努利过程中构造而来的, 其无记忆性是非常容易理解的, 但不难看出式 (2.6.2) 的推导过程仅利用了 T1 的概率分布而不涉及其具体构造, 因此无记忆性是任意服从几何分布的随机变量都具有的性质.
Tk (k≥2) 的分布. 我们不妨直接求解 (T1,…,Tk) 的联合分布: 令 t1,…,tk∈N+ 任意, 并为了方便记 sk=∑i=1kti. 注意到T1=t1,…,Tk=tk⟺Xs1=⋯Xsk=1且对其它1≤n<sk有 Xn=0,故P(T1=t1,…,Tk=tk)=pk(1−p)sk−k=pk(1−p)∑i=1kti−k=i=1∏k((1−p)ti−1p).不难由上式看出 T1,…,Tk 独立同分布, 且均服从参数为 p 的几何分布.
二项分布的泊松分布近似
现在我们考虑一个特殊情况: 设伯努利试验成功的概率 p 非常小, 但另一方面, 我们关心的是 n 很大时 Nn 的分布情况. 若进一步假定 np2 很小, 则在这种情形下, 我们可以给分布列 (2.6.1) 找一个更好用的近似计算式.
设 k 是一个正整数, 满足 k2 远小于 n, 则有pNn(k)=k(k−1)⋯1n(n−1)⋯(n−k+1)pk(1−p)n−k=(1−p)n−kk!(np)k⋅i=0∏k−1(1−ni).接下来我们对上式右端做近似:
1. | 为了对 ∏i=0k−1(1−ni) 取近似, 注意到1≥i=0∏k−1(1−ni)≥1−n∑i=0k−1i=1−2nk(k−1).故 k2 远小于 n 时 ∏i=0k−1(1−ni) 可以近似为 1. |
2. | 为了对 (1−p)n−k 取近似, 注意到∣∣lne−np(1−p)n−k∣∣=∣n(ln(1−p)+p)−kln(1−p)∣≤n∣ln(1−p)+p∣+k∣ln(1−p)∣≤1−p1(np2+kp)=1−p1(np2+nk2⋅np2)≤1−p1(np2+2nk2+2np2),其中用到了不等式1−p−p≤ln(1−p)≤−p,∀p<1.因此 np2 与 k2/n 非常小时可以取近似(1−p)n−k≈e−(n−k)p≈e−np. |
综上可得pNn(k)≈e−npk!(np)k(2.6.3)不难看出上式右端与参数为 np 的泊松分布相吻合. 这里再明确一下式 (2.6.3) 成立的条件: (i) n 非常大; (ii) np2 非常小; (iii) k2 远小于 n.
实际上, 由上面的计算过程不难证明如下命题:
给定 λ>0, 对任意足够大的正整数 n, 令 pn=λ/n, 并令b(k;n,pn)=(kn)pnk(1−pn)n−k,则对任意自然数 k, 有n→∞limb(k;n,pn)=e−λk!λk.
基于以上结果, 我们通常会用泊松分布来对小概率事件在较长的一段时间内发生的次数进行建模.