统计学的一个重要任务, 就是从一个具有一定规模的数据集中提取其数量特征, 比方说均值, 方差等等. 传统的统计学通常会对数据进行如下方式的描述: 我们采集了 N 个样本 X1,X2,⋯,XN, 它们可以看作是某一个概率空间 (Ω,F,P) 中的 N 个随机变量, 它们独立且具有相同的概率分布函数. 而在 “参数估计” 这一类统计任务里, 我们通常假定 X1,X2,⋯,XN 具有给定形式的概率分布或概率密度为 p(x;θ), 其中 θ=(θ1,θ2,⋯,θr) 是这个分布的参数, 比方说正态分布中的 (μ,σ), 均匀分布中的 (a,b), Poisson 分布中的 λ 等, 而我们要做的事情, 就是通过给定的样本 X1,X2,⋯,XN, 来估计参数 θ1,θ2,⋯,θr 的取值.
设 (Ω,F) 是一个可测空间, X1,X2,⋯,XN 是 Ω→R 的映射, Θ∈Rr 是一个区域, 对于每一个 θ=(θ1,θ2,⋯,θr)∈Θ, 我们都对应有一个 (Ω,F) 上的概率测度 Pθ 与之对应, 使得 X1,X2,⋯,XN 作为概率空间 (Ω,F,Pθ) 的随机变量是独立的, 且具有相同的概率分布函数 F(x;θ). 对于任意一个 N 元 Borel 函数 f:RN→R, 我们称 f(X1,X2,⋯,XN) 这个随机变量为一个统计量. 所谓参数估计问题, 指的是寻找 r 个统计量 θ^k(X1,X2,⋯,XN), k=1,2,⋯,r, 它们分别被用于估计参数 θ1,θ2,⋯,θr 的数值. 我们称 Θ 是这个参数估计问题的参数空间, 而 (Ω,F) 与每一个概率测度 Pθ 组成的概率空间全体 {(Ω,F,Pθ)}θ∈Θ, 称为这个参数估计问题的概率空间族, 相应的 F(x;θ) 称为这个参数估计问题的概率分布族.
设 X1,X2,⋯,XN 是概率空间族 {(Ω,F,Pθ)}θ∈Θ 中某个成员 (Ω,F,Pθ) 中的独立同分布的 N 个随机变量, 他们的概率分布或概率密度函数为 p(x;θ), θ=(θ1,θ2,⋯,θr), r≪n, 记mk(θ1,θ2,⋯,θr):=Eθ[X]={∑ip(xi;θ)xik∫p(x;θ)xkdxXi离散Xi连续,k=1,⋯,r,函数 f1,f2,⋯,fr:Rr→R 由⎩⎨⎧θ1=f1(m1(θ1,θ2,⋯,θr),m2(θ1,θ2,⋯,θr),⋯,mr(θ1,θ2,⋯,θr)),θ2=f2(m1(θ1,θ2,⋯,θr),m2(θ1,θ2,⋯,θr),⋯,mr(θ1,θ2,⋯,θr)),⋯θr=fk(m1(θ1,θ2,⋯,θr),m2(θ1,θ2,⋯,θr),⋯,mr(θ1,θ2,⋯,θr)).反解得出, 记Mk=N1i=1∑NXik,k=1,2,⋯,r,则我们称θ^k=fk(M1,M2,⋯,Mr),k=1,2,⋯,r,分别参数 θ1,θ2,⋯,θr 的矩估计.
假设 X1,X2,⋯,Xn 是服从 U(a,b) 的随机变量, 我们已经计算出了 U(a,b) 随机变量的一, 二阶矩m1=2a+b,m2=3a2+ab+b2,从而可以反解出a=m1−3(m2−m12),b=m1+3(m2−m12),于是, 我们可以用⎩⎨⎧a^=M1−3(M2−M12)=N1i=1∑NXi+3⎝⎛N1i=1∑NXi2−(N1i=1∑NXi)2⎠⎞,b^=M1+3(M2−M12)=N1i=1∑NXi−3⎝⎛N1i=1∑NXi2−(N1i=1∑NXi)2⎠⎞
设 X1,X2,⋯,XN 是概率空间族 {(Ω,F,Pθ)}θ∈Θ 中某个成员 (Ω,F,Pθ) 中的独立同分布的 N 个随机变量, 他们的概率分布或概率密度函数为 p(x;θ), θ=(θ1,θ2,⋯,θr), r≪n. 我们称(θ^1,θ^2,⋯,θ^r):=θ1,θ2,⋯,θrargmaxi=1∏Np(Xi;θ1,θ2,⋯,θr),(7.1)为对参数 θ1,θ2,⋯,θr 的极大似然估计. 如果 {x:p(x;θ1,θ^2,⋯,θ^r)>0} 是 R 上的一个与 θ1,θ^2,⋯,θ^r 无关的区域或离散点集, 那么 (7.1) 也等价于(θ^1,θ^2,⋯,θ^r):=θ1,θ2,⋯,θrargmini=1∑N−lnp(Xi;θ1,θ2,⋯,θr),(7.2)此时也称 (θ^1,θ^2,⋯,θ^r) 为对数极大似然估计.
使用极大似然估计时, 我们绝大多数时候使用的都是对数极大似然估计. 对于我们能够见到的大多数例子而言,
p(x;θ1,θ2,⋯,θr) 对
θ1,θ2,⋯,θr 是连续可微的. 此时 (
7.2) 中的
θ^1,θ^2,⋯,θ^r 满足
∂θk∂i=1∑N−lnp(Xi;θ1,θ2,⋯,θr)∣∣θ1=θ^1,⋯,θr=θ^r=0.k=1,2,⋯,r.(7.3)显然, 这是
θ^1,θ^2,⋯,θ^r 成为极大似然估计的必要条件.
假设我们有独立同分布正态样本 X1,X2,⋯,XN, 它们服从正态分布 N(μ,σ). 求此样本下 μ,σ 的极大似然估计就是求(μ^,σ^)=μ,σargmaxi=1∏N2πσ1e−2σ2(Xi−μ)2也就是求对数极大似然估计(μ^,σ^)=μ,σargmini=1∑N(ln(2π)+lnσ+2σ2(Xi−μ)2).利用 (7.3), 我们可以得到⎩⎨⎧σ^21i=1∑N(^μ−Xi)=0,i=1∑Nσ^1−σ^3(Xi−μ^)2=0(7.4)解得μ^=N1i=1∑NXi,σ^=N1i=1∑NXi2−(N1i=1∑NXi)2,(7.5)这和矩估计得到的结果是一致的.
按照定义
7.0.1, 我们进行参数估计的结果也是一个随机变量, 从而我们不可能通过参数估计的方式来得到参数的精确值, 也不能以确定性的 (非概率的) 方式来给出参数估计结果的误差范围, 我们只能
要求它偏离真实值的概率相对比较小. 通常来讲, 为了达成这一点, 我们会要求参数
θ 的估计结果
θ^ 作为一个随机变量, 应该满足如下两个性质:
1. | 参数 θ^ 在由参数 θ 确定的概率空间中的期望 Eθ^ 应该与真实参数值 θ 尽可能地接近, 也就是 ∣Eθ^−θ∣≪1. |
2. | 参数 θ^ 在由参数 θ 确定的概率空间中的方差应该尽可能地小: 也就是 Varθ^≪1. |
上述两个性质中的第一个做到极致的情形, 也就是 Eθ^−θ≡0, 或者说 Eθ^=θ, ∀θ. 这就给出了 “无偏估计” 的定义.
设 X1,X2,⋯,XN 是概率空间族 {(Ω,F,Pθ)}θ∈Θ 中某个成员 (Ω,F,Pθ) 中的独立同分布的 N 个随机变量, 他们的概率分布或概率密度函数为 p(x;θ1,θ2,⋯,θr), 如果参数估计 θ^k=θ^k(X1,X2,⋯,XN) 作为 (Ω,F,P) 满足Eθ^k=θk,k=1,2,⋯,r,(7.6)则称 θ^ 是对参量 θ 的无偏估计.
假设 X1,X2,⋯,XN 是概率空间族 {(Ω,F,P(μ,σ)}μ∈R,σ>0 中的一族独立同分布的随机变量, 使得E(μ,σ)Xi=μ,Var(μ,σ)Xi=σ2,i=1,2,⋯,N对每一个 μ∈R,σ>0 都成立, 我们希望给出 σ 的无偏估计. 利用命题 6.0.17 和命题 6.0.19 中的结论, 我们可以计算得到E(μ,σ)(N1i=1∑NXi2)=μ2+σ2,E(μ,σ)⎝⎛(N1i=1∑NXi)2⎠⎞=μ2+Nσ2,从而E(μ,σ)⎝⎛N1i=1∑NXi2−(N1i=1∑NXi)2⎠⎞=NN−1σ2,(7.7)这说明 σ2 的一个无偏估计是σ^=N−1N⎝⎛(N1i=1∑NXi)2⎠⎞=N−11i=1∑N(Xi−X)2,(7.8)其中 X=N1∑i=1NXi.
(
7.8) 是一个的略反直觉的结论, 即我们最为熟知的方差计算公式与方差的无偏估计相差一个因子
(N−1)/N. 诚然, 当
N 很大时, 这一点点差异还是可以忽略的. 事实上, 除了严格的无偏性以外, 我们还可以讲所谓 “渐近无偏性”, 也就是一个
Eθ^ 与
θ 的差异是
O(1/N) 数量级的. 我们把 (
7.8) 最右手侧的
1/(N−1) 换成
1/N 后得到的估计就是一个渐进无偏的估计. 从 “方差较小” 的角度来讲, 有时一个严格无偏估计得到的估计结果可能并不如一个渐进无偏估计. 事实上, 严格无偏估计的方差是有下界的, 它由 Cramér-Rao 不等式给出, 这一点我们后面会介绍, 并且我们会看到, 这个下界严格达成的条件还是有些苛刻的. 因此, 我们在进行参数估计时往往不需要过度地追求无偏性, 而是要在 “使
∣Eθ^−θ∣ 尽可能小” 和 “使
Varθ^≪1 尽可能小” 之间寻找一个平衡.