大数定律 是概率论 中的一系列结论. 古典的大数定律是指如下观察: 进行关于某随机事件的试验, 则在试验的次数趋于无穷时, 随机事件发生的频率将会趋于该事件概率 . 比如, 抛掷一枚普通的硬币, 记录每次朝上的面, 则抛掷次数足够大时, 正面朝上的频率, 即正面朝上的次数与总次数的比值, 将越来越接近于正面朝上的概率 1/2 .
在现代的概率论中, 大数定律可以严格地表述成一系列定理, 描述随机变量 求和在项数趋于无穷时的规律.
定义 大数定律分为弱大数定律和强大数定律两种. 前者讨论依概率收敛 , 而后者讨论几乎必然收敛 .
设 ( X n ) n ≥ 1 为一列实值随机变量 , 令 S n = ∑ k = 1 n X k . 如果存在实数序列 ( a n ) n ≥ 1 和正数序列 ( b n ) n ≥ 1 , 使得有依概率收敛 b n S n − a n p 0 , 或者说n → ∞ lim P ( ∣ ∣ b n S n − a n ∣ ∣ ≥ ε ) = 0 , ∀ ε > 0 , 则称 ( X n ) 服从弱大数定律 .
如果 X n 的期望存在, 则常令 a n = E ( S n ) , b n = n , 讨论随机变量n S n − E ( S n ) 的收敛问题.
设 ( X n ) n ≥ 1 为一列实值随机变量 , 令 S n = ∑ k = 1 n X k . 如果存在实数序列 ( a n ) n ≥ 1 和递增趋于无穷的正数序列 ( b n ) n ≥ 1 , 使得有几乎必然收敛 b n S n − a n ⟶ 0 a.s. 则称 ( X n ) 服从强大数定律 .
注意到, 强大数定律强于弱大数定律, 因为几乎必然收敛强于依概率收敛.
弱大数定律 如果随机变量序列 ( X n ) 满足n → ∞ lim n 2 Var ( S n ) = 0 则n S n − E ( S n ) p 0
证明. 对任意
ε > 0 , 根据
Chebyshev 不等式 :
P ( ∣ ∣ n S n − E ( S n ) ∣ ∣ ≥ ε ) = P ( ∣ S n − E ( S n ) ∣ ≥ n ε ) ≤ n 2 ε 2 E ( S n − E ( S n ) ) 2 = ε 2 1 n 2 Var ( S n ) → 0 如果随机变量序列 ( X n ) 中的随机变量两两不相关 (即协方差为零), 且存在 C > 0 使得 Var ( X n ) ≤ C , 则n S n − E ( S n ) p 0
证明. 根据不相关性,
Var ( S n ) = ∑ k = 1 n Var ( X k ) ≤ n C , 从而
n 2 Var ( S n ) → 0 . 根据定理
2.1 就得证.
因为不相关性弱于独立性, 所以上述结果对相互独立随机变量当然也成立.
用 Z n 表示 n 次 Bernoulli 试验中成功的次数, p 为成功概率, 则n Z n p p
这就是大数定律的最初版本.
以上讨论的大数定律均对方差 有一定要求. 实际上, 如果只要求 期望 存在, 也有弱大数定律.
设 ( X n ) 为独立同分布随机变量序列. 如果 E ( X 1 ) = μ , 则n S n p μ
证明. 对于常数
c , 我们知道
X n p c 和
X n d c 是等价的, 所以只要证明
n S n − n μ d 0 这可以通过计算
特征函数 得到. 令
Y k = n 1 ( X k − μ ) , 则
n S n − n μ = ∑ k = 1 n Y k . 设
ϕ ( t ) 是
Y 1 的特征函数, 则
n S n − n μ 的特征函数是
ϕ n ( t ) .
现在考虑函数
ϕ ( t ) , 因为
E ( X 1 − μ ) = 0 , 故根据特征函数的
Taylor 展开 , 有
ϕ ( t ) = 1 + o ( t / n ) , n → ∞ 从而
ϕ n ( t ) = ( 1 + o ( t / n ) ) n → 1 , n → ∞ 这就证明了
依分布收敛 性, 从而成立.
最后举一个序列 b n = n 的例子. 考虑一列袋子, 第 k 个袋子中装着一个白球和 k − 1 个黑球. 用 Z n 表示: 在前 n 个袋子中各拿一个球, 其中白球的个数. 则可以证明: 对任意 r > 2 1 有ln r n Z n − E ( Z n ) p 0
强大数定律 强大数定律的证明过程明显比弱的版本困难. 首先是证明了四阶矩 存在和方差存在的情形, 然后才由 Kolmogorov 证明了期望存在的情形.
先列举一些在证明中需要使用的结论.
设 ( x n ) 为实数列, ( b n ) 为递增趋于无穷的正数列. 如果级数 ∑ n = 1 ∞ b n x n 收敛, 则n → ∞ lim b n 1 k = 1 ∑ n x k = 0
设 ( X n ) 为相互独立的随机变量序列. 则级数 ∑ n = 1 ∞ X n 几乎必然收敛的充要条件是: 存在 c > 0 , 使得
1.
∑ n = 1 ∞ P ( ∣ X n ∣ > c ) < ∞ ;
2.
∑ n = 1 ∞ E ( X n I ( ∣ X n ∣ ≤ c )) 收敛;
3.
∑ n = 1 ∞ Var ( X n I ( ∣ X n ∣ ≤ c )) < ∞ ;
其中 I ( A ) 表示事件 A 的指示变量 .
通过这些结论和 “截尾法” 就可以证明强大数定律了.
设 ( X n ) 是独立同分布的随机变量序列, 则存在常数 a 使得n S n − na ⟶ 0 a.s. 的充要条件是 E ∣ X 1 ∣ < ∞ , E ( X 1 ) = a .
证明. 必要性. 如果
S n / n a.s. a , 则
n X n = n S n − S n − 1 = n S n − n n − 1 n − 1 S n − 1 → 0 , a.s. 于是对任意
ε > 0 :
P ( ∣ X n ∣ ≥ n ε i.o. ) = P ( n ∣ X n ∣ ≥ ε i.o. ) = 0 其中
A n i.o. = k = 1 ⋂ ∞ n = k ⋃ ∞ A n 表示事件序列
{ A n } 中有无穷多个发生的事件. 令
ε = 1 , 根据
Borel–Cantelli 引理 , 有
n = 1 ∑ ∞ P ( ∣ X 1 ∣ ≥ n ) < ∞ 也就是
E ∣ X 1 ∣ < ∞ . 因为
E ( n S n ) = E ( X 1 ) , 所以
E ( X 1 ) = a .
充分性. 记
Y n = X n I ( ∣ X n ∣ < n ) , 则
n = 1 ∑ ∞ P ( Y n = X n ) = n = 1 ∑ ∞ P ( ∣ X n ∣ ≥ n ) = E ∣ X 1 ∣ < ∞ 由
Borel–Cantelli 引理 ,
P ( Y n = X n i.o. ) = 0 . 从而为了证明结论, 只要证明
n 1 ( k = 1 ∑ n Y k − na ) ⟶ 0 a.s. 而
E ( Y n ) = E ( X n I ( ∣ X n ∣ < n )) → a , n → ∞ , 故由
Stolz 定理 可得
n 1 ∑ k = 1 n E ( Y k ) → a , n → ∞ . 从而只要证明
n 1 k = 1 ∑ n ( Y k − E ( Y k )) ⟶ 0 a.s. (1) 下面验证定理
3.2 的条件. 注意到
n ∣ Y n − E ( Y n ) ∣ ≤ 2 , E n Y n − E ( Y n ) = 0 且
n = 1 ∑ ∞ Var ( n Y n − E ( Y n ) ) = n = 1 ∑ ∞ n 2 1 ( E ( Y n 2 ) − E ( Y n ) 2 ) ≤ n = 1 ∑ ∞ n 2 1 E ( Y n 2 ) = n = 1 ∑ ∞ n 2 1 E ( X 1 2 I ( ∣ X 1 ∣ < n )) = n = 1 ∑ ∞ n 2 1 k = 1 ∑ n E ( X 1 2 I ( k − 1 ≤ ∣ X 1 ∣ < k )) ≤ n = 1 ∑ ∞ n 2 1 k = 1 ∑ n k 2 P ( k − 1 ≤ ∣ X 1 ∣ < k ) = k = 1 ∑ ∞ k 2 P ( k − 1 ≤ ∣ X 1 ∣ < k ) n = k ∑ ∞ n 2 1 ≤ 2 k = 1 ∑ ∞ k P ( k − 1 ≤ ∣ X 1 ∣ < k ) ≤ 2 ( 1 + E ( X 1 )) < ∞ 根据定理
3.2 , 得
n = 1 ∑ ∞ n Y n − E ( Y n ) 几乎必然收敛. 再根据引理
3.1 , 得 (
1 ) 式成立.
上述定理还能进行推广.
设 ( X n ) 是独立同分布的随机变量序列, r ∈ ( 0 , 2 ) , 则存在常数 a 使得n r 1 S n − na a.s. 0 的充要条件是 E ∣ X 1 ∣ r < ∞ , a = { E ( X 1 ) , r ∈ [ 1 , 2 ) 任意实数 , r ∈ ( 0 , 1 ) .
应用 •
大数定律应用在一些连续型随机变量 上, 可以用来处理普通分析方法较难处理的一些积分. 比如:
设 f 是区间 [ 0 , 1 ] 上的正值连续函数 , 则n → ∞ lim ∫ 0 1 ⋯ ∫ 0 1 f ( x 1 ) + ⋯ + f ( x n ) n d x 1 ⋯ d x n = ∫ 0 1 f ( x ) d x 1
证明. 设随机变量
X 服从
均匀分布 U ( 0 , 1 ) . 则
E ( f ( X )) = ∫ 0 1 f ( x ) d x 设
X 1 , X 2 , ⋯ 相互独立且都与
X 同分布, 则
f ( X k ) 也相互独立. 由强大数定律:
n 1 ( f ( X 1 ) + ⋯ + f ( X n )) ⟶ E ( f ( X )) a.s. 因为
f 是闭区间上的正值连续函数, 所以有正的下界. 不难证明: 如果
X n a.s. X , 且这些随机变量都有正的下界, 则
X n − 1 a.s. X − 1 成立. 于是结论的证明只需注意到欲证式左边就是
E ( f ( X 1 ) + ⋯ + f ( X n ) n )
•
许多统计模拟方法的理论依据是大数定律. 以 Monte Carlo 方法为例, 如果要计算某平面图形 (实际上就是 R 2 上的可测集) A 的面积 σ ( A ) , 只需取一个图形 Ω ⊃ A 为概率空间 , 且其面积易计算. 则根据几何概型 , 任取一点, 落入图形 A 中的概率是 P ( A ) = σ ( Ω ) σ ( A ) . 另一方面, 大量取点, 设 n 次取点后落在图形 A 的点的个数为 Z n . 则根据定理 2.3 , 有n Z n p P ( A ) 当 n 很大时, 可以近似认为n Z n ≈ P ( A ) = σ ( Ω ) σ ( A ) 从而可以求出图形 A 的面积.
相关概念
大数定律 • 英文 law of large numbers • 德文 Gesetz der großen Zahle • 法文 loi des grands nombres • 日文 大数の法則 (たいすうのほうそく)
弱大数定律 • 英文 weak law of large numbers • 德文 Schwaches Gesetz der großen Zahlen • 法文 loi faible des grands nombres • 日文 大数の弱法則
强大数定律 • 英文 strong law of large numbers • 德文 Starkes Gesetz der großen Zahlen • 法文 loi forte des grands nombres • 日文 大数の強法則