本节中我们介绍两种常用的点估计方法: 矩估计法与最大似然估计法.
矩估计 设总体 X 的分布函数为 F ( x ; θ 1 , … , θ k ) , 其中 θ 1 , … , θ k 表示总体的 k 个未知的标量参数, 且 ( θ 1 , … , θ k ) 的所有可能取值构成集合 Θ . 进一步假设对任意 ( θ 1 , … , θ k ) ∈ Θ , 相应的概率分布 F ( x ; θ 1 , … , θ k ) 的 k 阶矩存在, 并记E θ 1 , … , θ k [ X j ] = μ j ( θ 1 , … , θ k ) , ∀ j = 1 , … , k . 换句话说, 函数 μ j : Θ → R 将任一组可能的参数 ( θ 1 , … , θ k ) 映射为相应分布的 j 阶矩. 现在, 暂时假设我们通过某种手段, 获得了总体 X 的前 k 阶矩的精确值, 并将它们分别记为 m 1 , m 2 , … , m k , 则可知未知参数 θ 1 , … , θ k 满足如下 k 个方程: m 1 = m 2 = m k = μ 1 ( θ 1 , … , θ k ) , μ 2 ( θ 1 , … , θ k ) , ⋮ μ k ( θ 1 , … , θ k ) . (7.3.1) 那么当映射( θ 1 , … , θ k ) ↦ ( μ 1 ( θ 1 , … , θ k ) , … , μ k ( θ 1 , … , θ k )) 是一个从 Θ 到 R k 的单射时, 通过求解方程组 (7.3.1 ), 我们即可求出未知参数 θ 1 , … , θ k 的值.
上述求解过程假定我们已经得到了总体 X 的前 k 阶矩的值. 通常情况下, 矩的求解需要事先知道 X 的具体分布情况, 但若我们获得了总体 X 的一组容量足够大的样本 X 1 , … , X n , 那么 X 的 j 阶矩就可以用样本做出近似估计: m 1 ≈ m 2 ≈ m k ≈ n 1 i = 1 ∑ n X i , n 1 i = 1 ∑ n X i 2 , ⋮ n 1 i = 1 ∑ n X i k . 矩估计方法, 就是指将 (7.3.1 ) 当中前 k 阶矩的精确值替换为基于样本的估计值, 再求解相应的方程组: n 1 i = 1 ∑ n X i = n 1 i = 1 ∑ n X i 2 = n 1 i = 1 ∑ n X i k = μ 1 ( θ ^ 1 , … , θ ^ k ) , μ 2 ( θ ^ 1 , … , θ ^ k ) , ⋮ μ k ( θ ^ 1 , … , θ ^ k ) . (7.3.2) 上述方程组的解 θ ^ 1 , … , θ ^ k 分别给出了未知参数 θ 1 , … , θ k 的点估计量.
设总体 X 服从区间 [ θ 1 , θ 1 + θ 2 ] 上的均匀分布, 其中 θ 1 ∈ R 以及 θ 2 > 0 为未知参数. 则有μ 1 ( θ 1 , θ 2 ) = μ 2 ( θ 1 , θ 2 ) = E θ 1 , θ 2 [ X ] = θ 1 + 2 θ 2 , E θ 1 , θ 2 [ X 2 ] = ( θ 1 + 2 θ 2 ) 2 + 12 θ 2 2 . 那么当 X 1 , … , X n 为总体 X 的一组样本时, 根据矩估计方法的步骤, 可得 θ 1 与 θ 2 的矩估计量 θ ^ 1 , θ ^ 2 为如下方程的解: n 1 i = 1 ∑ n X i = n 1 i = 1 ∑ n X i 2 = μ 1 ( θ ^ 1 , θ ^ 2 ) = θ ^ 1 + 2 θ ^ 2 , μ 2 ( θ ^ 1 , θ ^ 2 ) = ( θ ^ 1 + 2 θ ^ 2 ) 2 + 12 θ ^ 2 2 . 由此可解得θ ^ 2 = θ ^ 1 = 2 3 [ n 1 i = 1 ∑ n X i 2 − ( n 1 i = 1 ∑ n X i ) 2 ] 1/2 , n 1 i = 1 ∑ n X i − 2 θ ^ 2 .
基于弱大数定律可以证明, 当方程组 (7.3.1 ) 具有唯一解, 且该唯一解是 ( m 1 , … , m k ) 的连续函数时, 矩估计具有相合性, 也就是说当样本容量趋于无穷大时, 矩估计量依概率收敛于真实的参数值 1 .
最大似然估计 在最大似然估计法中, 我们首先需要引入样本的似然函数, 它在数值上等于样本 ( X 1 , … , X n ) 的联合分布列或联合概率密度函数, 但我们把它看作是给定样本观测值时关于未知参数的一个函数.
设总体 X 的分布列或概率密度函数为 f ( x ; θ 1 , … , θ k ) , 其中 θ 1 , … , θ k 表示 k 个未知参数, 且 ( θ 1 , … , θ k ) 的所有可能取值构成集合 Θ . 对任意正整数 n 以及 x = ( x 1 , … , x n ) ∈ R n , 定义简单随机样本的似然函数 (likelihood function) L ( ⋅ ; x ) : Θ → [ 0 , + ∞ [ 为L ( θ 1 , … , θ k ; x ) = i = 1 ∏ n f ( x i ; θ 1 , … , θ k ) .
许多情况下, 我们还会用到对数似然函数 (log likelihood function)ln L ( θ 1 , … , θ k ; x ) = i = 1 ∑ n ln f ( x i ; θ 1 , … , θ k ) .
最大似然估计法的基本步骤如下: 给定样本容量 n , 对每个 x = ( x 1 , … , x n ) , 求解使得似然函数 L ( θ 1 , … , θ k ; x ) 取最大值的点 2 : ( θ ^ 1 ( x ) , … , θ ^ k ( x )) = ( θ 1 , … , θ k ) ∈ Θ arg max L ( θ 1 , … , θ k ; x ) 接下来我们将样本 X 1 , … , X n 代入上式给出的函数 θ ^ 1 , … , θ ^ k 当中, 即可对每一个参数 θ j 得到一个点估计量 θ ^ j ( X 1 , … , X n ) . 我们将这个点估计量称为最大似然估计量 (maximum likelihood estimator). 由于 x ↦ ln x 是单调递增的函数, 在求解最大似然估计量时, 我们也可以对对数似然函数 ln L ( θ 1 , … , θ k ; x ) 进行最大化, 而且许多情况下对数似然函数的最大值点更好求解. 特别是, 当 Θ 为 R k 的开集且对数似然函数在 Θ 上可微时, 我们可以通过求解方程组∂ θ j ∂ ln L ( θ 1 , … , θ k ; x ) = 0 , j = 1 , … , k (7.3.3) 来得到对数似然函数的驻点, 而后从这些驻点中进一步找出最大值点. 方程 (7.3.3 ) 经常被称为对数似然方程 (log-likelihood equation).
设总体 X 服从一元正态分布, 其期望 μ ∈ R 与方差 σ 2 > 0 均未知. 则相应的似然函数为L ( μ , σ 2 ; x ) = = i = 1 ∏ n 2 π σ 1 exp ( − 2 σ 2 ( x i − μ ) 2 ) ( 2 π σ 2 ) n /2 1 exp ( − 2 σ 2 1 i = 1 ∑ n ( x i − μ ) 2 ) , 对数似然函数为ln L ( μ , σ 2 ; x ) = − 2 σ 2 1 i = 1 ∑ n ( x i − μ ) 2 − 2 n ln σ 2 − 2 n ln ( 2 π ) . 为了求解对数似然函数的最大值点, 我们计算对数似然函数分别对 μ 与 σ 2 的偏导数并令它们等于零, 可得到如下方程组: 0 0 = ∂ μ ∂ ln L ( μ , σ 2 ; x ) = σ 2 1 ( i = 1 ∑ n x i − n μ ) , = ∂ ( σ 2 ) ∂ ln L ( μ , σ 2 ; x ) = 2 σ 4 1 i = 1 ∑ n ( x i − μ ) 2 − 2 σ 2 n . 解上述方程组, 可得μ ^ ( x ) σ 2 ( x ) = n 1 i = 1 ∑ n x i , = n 1 i = 1 ∑ n ( x i − μ ^ ( x ) ) 2 . 可以证明, 上式给出的 μ ^ ( x ) 与 σ 2 ( x ) 的确使得对数似然函数取到最大值. 故期望 μ 与方差 σ 2 的最大似然估计量为μ ^ ( X 1 , … , X n ) σ 2 ( X 1 , … , X n ) = n 1 i = 1 ∑ n X i = X , = n 1 i = 1 ∑ n ( X i − X ) 2 = n n − 1 S 2 . 可以看到, 期望的最大似然估计量就是样本均值, 但方差的最大似然估计量与样本方差相差一个因子 ( n − 1 ) / n .
设总体 X 服从区间 [ 0 , θ ] 上的均匀分布, 其中 θ > 0 为未知参数. 令 X 1 , … , X n 为总体 X 的一组样本, 我们希望求 θ 的最大似然估计量.
由题设不难得到似然函数为L ( θ ; x 1 , … , x n ) = i = 1 ∏ n ( θ 1 ⋅ 1 x i ≤ θ ( θ ) ) = { θ − n , 0 , 若 θ ≥ max { x 1 , … , x n } , 其它情况 , 其中 1 x i ≤ θ ( θ ) 在 x i ≤ θ 时为 1 而在其它情况下为 0 . 由于 θ ↦ θ − n 严格单调递减, 故当 θ = max { x 1 , … , x n } 时似然函数取到最大值, 因而 θ 的最大似然估计量为θ ^ = max { X 1 , … , X n } . □
最大似然估计法具有一个比较直观的解释: 当我们收集到样本数据后, 那么一般来说, 与其它可能的参数值相比, 真实参数值应当更有利于产生这些数据, 或者说真实参数值应当使得产生这些数据的可能性 (近似) 达到最大. 然而, 真正让最大似然估计法被广为接受的原因, 还是它在大样本情形下所具有的良好的估计性能. 可以证明, 在较为宽松的条件下, 最大似然估计具有如下性质 (表述并不十分严格):
1.
最大似然估计具有相合性.
2.
与其它具有相合性的点估计方法相比, 最大似然估计法在大样本极限时具有最小的均方误差.
3.
在大样本极限时, 最大似然估计量的分布趋于一个期望为真实参数值的正态分布.
我们将在本节最后一小节的选读内容中给出一种简单情形下相合性的证明. 后两条性质的严格表述与证明可参阅 [15 ] 第 7.3 节.
本节中, 我们针对一些形式比较简单的参数化分布族推导了最大似然估计量的表达式. 然而, 对于稍微复杂一些的参数化分布族, 一般是没有办法求出对数似然函数最大值点的闭式表达式的, 此时我们就需要借助最优化算法迭代求解最大似然估计值. 常见的可用于求解最大似然估计值的最优化算法包括梯度上升法 (gradient ascent method)、共轭梯度法 (conjugate gradient method)、BFGS 算法 (Broyden–Fletcher–Goldfarb–Shanno algorithm) 等 (参见 [17 ]), 以及针对隐变量模型的期望—最大化算法 (expectation–maximization algorithm) 等 (参见 [18 ]); 当矩估计量可以求解时, 我们也会考虑用矩估计值作为最优化算法迭代的初始点. 许多情况下对数似然函数不是凹函数, 这进一步增加了最大似然估计的难度, 需要采取一些额外技术 (例如多次随机初始化) 进行近似求解.
(⋆ ) 矩估计与最大似然估计的相合性证明 我们首先证明矩估计的相合性, 它实际上是如下引理的直接推论:
设 M 为 R k 的开子集, ( c 1 , … , c k ) 为 M 内的一个点, g : M → R 为一连续函数. 若 X 1 , 1 , X 1 , 2 , … , X 1 , n , … X 2 , 1 , X 2 , 2 , … , X 2 , n , … X 2 , 1 , X 2 , 2 , ⋮ X k , 1 , X k , 2 , … , X k , n , … 为 k 列随机变量, 且固定任意 j = 1 , … , k , 有X j , n P c j , n → ∞ , 则g ( X 1 , n , … , X k , n ) P g ( c 1 , … , c k ) , n → ∞.
证明. 任取
ϵ > 0 与
ϵ ′ > 0 . 由于
g 是开集
M 上的连续函数, 故存在
δ > 0 使得对任意的
( x 1 , … , x k ) ∈ R k , 有
1 ≤ j ≤ k max ∣ x j − c j ∣ ≤ δ ⟹ ∣ g ( x 1 , … , x k ) − g ( c 1 , … , c k ) ∣ ≤ ϵ , 从而对任意
n ∈ N + , 有
P ( 1 ≤ j ≤ k max ∣ X j , n − c j ∣ ≤ δ ) ≤ P ( ∣ g ( X 1 , n , … , X k , n ) − g ( c 1 , … , c k ) ∣ ≤ ϵ ) . (7.3.4) 另一方面, 由弱大数定律可得, 对任意
j = 1 , … , k , 均有
n → ∞ lim P ( ∣ X j , n − c j ∣ > δ ) = 0 , ∀ j = 1 , … , k . 故存在正整数
N , 使得
n > N 时均有
P ( ∣ X j , n − c j ∣ > δ ) ≤ k ϵ ′ , ∀ j = 1 , … , k . 因而
n > N 时有
P ( 1 ≤ j ≤ k max ∣ X j , n − c j ∣ > δ ) = ≤ P ( j = 1 ⋃ k { ∣ X j , n − c j ∣ > δ } ) j = 1 ∑ k P ( ∣ X j , n − c j ∣ > δ ) ≤ k ⋅ k ϵ ′ = ϵ ′ . 将以上结果代入式 (
7.3.4 ), 可得
n > N 时有
P ( ∣ g ( X 1 , n , … , X k , n ) − g ( c 1 , … , c k ) ∣ ≤ ϵ ) ≥ ≥ 1 − P ( 1 ≤ j ≤ k max ∣ X j , n − c j ∣ > δ ) 1 − ϵ ′ . 由
ϵ ′ > 0 的任意性, 可得
n → ∞ lim P ( ∣ g ( X 1 , n , … , X k , n ) − g ( c 1 , … , c k ) ∣ ≤ ϵ ) = 1 , 再由
ϵ > 0 的任意性可得
n → ∞ 时有
g ( X 1 , n , … , X k , n ) P g ( c 1 , … , c k ) .
设总体 X 的分布函数为 F ( x ; θ 1 , … , θ k ) , 其中未知参数 ( θ 1 , … , θ k ) 的所有可能取值构成集合 Θ , 且对每个 ( θ 1 , … , θ k ) ∈ Θ , 分布 F ( x ; θ 1 , … , θ k ) 的 k 阶矩均存在. 令向量值函数 μ : Θ → R k 由下式给出: μ ( θ 1 , … , θ k ) = ( E θ 1 , … , θ k [ X 1 ] , … , E θ 1 , … , θ k [ X k ] ) , 其中 E θ 1 , … , θ k [ X j ] 表示取期望时 X 服从的分布为 F ( x ; θ 1 , … , θ k ) . 记 M = μ ( Θ ) , 并进一步假设如下条件成立:
1.
M 是一个开集.
2.
μ 是一个单射, 从而在 M 上有逆映射 μ − 1 : M → Θ .
3.
μ − 1 在 M 上连续.
记样本容量为 n 的矩估计量为( θ ^ 1 ( n ) , … , θ ^ k ( n ) ) = μ − 1 ( n 1 i = 1 ∑ n X i 1 , … , n 1 i = 1 ∑ n X i k ) 则当总体的参数为任一 ( θ 1 , … , θ k ) ∈ Θ 时, 对于每个 l = 1 , … , k , 相应的矩估计量 θ ^ l ( n ) 在 n → ∞ 时均依概率收敛于 θ l .
证明. 固定 ( θ 1 , … , θ k ) ∈ Θ , 用随机变量 X 代表参数 ( θ 1 , … , θ k ) 对应的总体, 并令 ( m 1 , … , m k ) = μ ( θ 1 , … , θ k ) . 任取 l ∈ { 1 , … , k } , 并将向量值函数 μ − 1 的第 l 个分量记为 g l . 注意到g l ( m 1 , … , m k ) = θ l 以及g l ( n 1 i = 1 ∑ n X i j , … , n 1 i = 1 ∑ n X i j ) = θ ^ l ( n ) . 由弱大数定律, 可得n 1 i = 1 ∑ n X i j P m j , ∀ j = 1 , … , k , 而由定理条件, 可知 g l 在开集 M 上连续, 且 ( m 1 , … , m k ) ∈ M . 故可以利用引理 7.3.6 , 得g l ( n 1 i = 1 ∑ n X i j , … , n 1 i = 1 ∑ n X i j ) P g l ( m 1 , … , m k ) , n → ∞ , 也即θ ^ l ( n ) P θ l , n → ∞. □
接下来我们给出最大似然估计相合性的证明. 简单起见, 此处只考虑未知参数为单个实数 (标量), 且参数范围为有限集合的情形.
设总体 X 的概率密度函数为 f ( x ; θ ) , 其中 θ 为未知参数, 且 θ 的所有可能取值构成一有限集合 Θ . 令 θ ^ ( n ) 表示样本容量为 n 时参数 θ 的最大似然估计量, 则当总体的参数取为任一 θ ∈ Θ 时, 均有n → ∞ lim P θ ( ∣ ∣ θ ^ ( n ) − θ ∣ ∣ > ϵ ) = 0 , ∀ ϵ > 0.
证明. 为了避免符号上的混淆, 我们将总体的真实参数改用
θ 0 ∈ Θ 表示. 令
X 1 , X 2 , … 为一列独立且与
X 同分布的随机变量. 任取
θ ′ ∈ Θ\ { θ 0 } , 由琴生不等式可得
3 E θ 0 [ ln f ( X ; θ 0 ) f ( X ; θ ′ ) ] < = ln E θ 0 [ f ( X ; θ 0 ) f ( X ; θ ′ ) ] ln ∫ − ∞ + ∞ f ( x ; θ 0 ) f ( x ; θ ′ ) ⋅ f ( x ; θ 0 ) d x = ln 1 = 0. (7.3.5) 上式中能够取到严格不等号是因为
x ↦ − ln x 是严格凸的, 且
θ ′ 给出与
θ 0 不同的概率分布. 接下来, 对任意
θ ∈ Θ , 记事件
E θ 为
E θ = { n → ∞ lim n 1 i = 1 ∑ n ln f ( X i ; θ 0 ) f ( X i ; θ ) = E θ 0 [ ln f ( X ; θ 0 ) f ( X ; θ ) ] } , 则由 Kolmogorov 强大数定律, 可知对任意
θ ∈ Θ , 均有
P θ 0 ( E θ ) = 1 , 而又因为
Θ 是有限集, 故
P θ 0 ( ⋂ θ ∈ Θ E θ ) = 1. 接下来任取
ω ∈ ⋂ θ ∈ Θ E θ , 由式 (
7.3.5 )
可知
n → ∞ lim n 1 i = 1 ∑ n ln f ( X i ( ω ) ; θ 0 ) f ( X i ( ω ) ; θ ′ ) < 0 , ∀ θ ′ = θ 0 , 而由极限的保号性, 可知存在足够大的正整数
N ( ω ) , 使得
n ≥ N ( ω ) 时均有
i = 1 ∑ n ln f ( X i ( ω ) ; θ 0 ) f ( X i ( ω ) ; θ ′ ) < 0 , ∀ θ ′ = θ 0 , 也即
∑ i = 1 n ln f ( X i ( ω ) ; θ ′ ) < ∑ i = 1 n ln f ( X i ( ω ) ; θ 0 ) , ∀ θ ′ = θ 0 . 这意味着
n ≥ N ( ω ) 时有
θ ∈ Θ arg max i = 1 ∑ n ln f ( X i ( ω ) ; θ ) = θ 0 . 但由最大似然估计量的定义, 可知
θ ^ ( n ) = θ ∈ Θ arg max i = 1 ∑ n ln f ( X i ; θ ) , 故
n → ∞ lim θ ^ ( n ) ( ω ) = θ 0 . 由
ω ∈ ⋂ θ ∈ Θ E θ 的任意性, 即得到
P θ 0 ( n → ∞ lim θ ^ ( n ) = θ 0 ) ≥ P θ 0 ( ⋂ θ ∈ Θ E θ ) = 1. 最后, 由几乎必然收敛与依概率收敛的关系, 可知
θ ^ ( n ) P θ 0 .
不难将上面的证明过程移植到总体为离散型随机变量的情形. 而对于更加一般的 Θ , 为证明最大似然估计相合性, 则需要对总体所在的参数化分布族施加一些限制条件, 且需要用到不少分析上的技巧, 但刨去这些技巧之后, 背后的证明思路依然和上述证明是一致的; 可参阅 [15 ] 第 7.3.2 节.
脚注