在概率论中, 超几何分布是一种常见的概率分布. 考虑以下情景: 假设口袋中有 N 个小球, 其中有 K 个白球和 (N−K) 个黑球. 从口袋中随机拿出 n 个小球, 并假设其中有 X 个白球和 (n−X) 个黑球. 则随机变量 X 的概率分布就是超几何分布.
类似地, 也可以考虑有多种颜色小球的情况, 得到的概率分布称为多元超几何分布.
定义
设 N,K,n 是自然数, 满足 n,K≤N. 设 X 为取值于 N 的离散型随机变量. 如果对任意 k∈N, 有P(X=k)=(nN)(kK)(n−kN−K),则称 X 服从超几何分布, 记为 X∼H(n,K,N).
在上述记号下, X 能以非零概率取到的所有值为{k∈N∣max(0,n+K−N)≤k≤min(n,K)}.
设 N,n,m 是自然数, 满足 n≤N. 设自然数 K1,⋯,Km 满足 ∑s=1mKs=N. 如果离散型随机向量 X 满足: 对任意自然数 k1,⋯,km, 如果 ∑s=1mks=n, 则P(X1=k1,⋯,Xm=km)=(nN)1s=1∏m(ksKs),那么称 X 服从 m 元超几何分布.
在上述记号下, X 能以非零概率取到的所有值为{(k1,⋯,km)∈Nm∣k1+⋯+km=n, ks≤Ks (1≤s≤m)}.
性质
基本性质
• | 设随机变量 X∼H(n,K,N). ∘ | X 的方差是 Var(X)=NnK⋅NN−K⋅N−1N−n. |
∘ | X 的特征函数可以用超几何函数来表示: ϕX(t)=(nN)(nN−K)2F1(−n,−K;N−K−n+1;eit)这也是超几何分布得名原因. |
|
• | 设随机向量 X 按定义 1.2 服从多元超几何分布. ∘ | 多元超几何分布的任意 p 维边缘分布是 p 元超几何分布, 其中 2≤p≤m−1. 特别地: Xi∼H(n,Ki,N). |
∘ | 各分量的期望和方差与一元情形一致. 协方差为Cov(Xi,Xj)=−N2nKiKj⋅N−1N−n(i=j). |
|
超几何分布的近似
超几何分布在 N 很大时趋于二项分布. 这是因为, 例如在引言的例子中, 如果小球的个数 N 非常大, 则取出每个小球对总体的影响很小, 故取出每个小球时, 它是白球的概率近似不变, 从而白球的个数近似满足二项分布.
设随机变量 XN 服从超几何分布 H(n,KN,N). 如果N→∞limNKN=p>0,则对任意的 0≤k≤n, 有N→∞limP(XN=k)=(kn)pk(1−p)n−k.
进一步, 根据中心极限定理, 二项分布在 n 很大时接近于正态分布. 于是, 如果在 X∼H(n,K,N) 中 n,K,N 都很大 (但需满足 n,K≤N), 则有近似表达式P(X≤k)≈Φ(np(1−p)k−np),其中 p=K/N, Φ 是标准正态分布的累积分布函数.
相关概念
超几何分布 • 英文 hypergeometric distribution • 德文 hypergeometrische Verteilung (f) • 法文 loi hypergéométrique (f) • 日文 超幾何分布 (ちょうきかぶんぷ) • 韩文 초기하 분포 (超幾何分布)