7.4. 贝叶斯参数估计方法简介

以上几节介绍的点估计理论与方法都是基于频率学派的观点, 即未知参数是一个确定性的量. 而在贝叶斯学派的理论当中, 则是把未知参数作为一个随机变量来处理. 具体而言, 我们用一个随机变量或随机向量 代表未知参数 1, 这个未知参数服从某个给定的概率分布 (简单起见, 我们假定 是连续型的, 是一个概率密度函数), 我们将其称为先验分布 (prior distribution), 它代表了我们在收集到样本数据之前对未知参数分布的认识, 而未知参数的实际取值则看成是从这个先验分布中抽样得来的. 而总体则由条件分布列 或条件概率密度函数 表示. 简单起见, 我们只考虑用条件概率密度函数 表示的总体. 此时, 从总体中抽样所得到的简单随机样本 则具有如下联合条件分布: 贝叶斯参数估计的任务则是在观测到样本 的取值 后, 反推未知参数 在给定 条件下的条件分布, 这个条件分布在贝叶斯参数估计理论中又被叫作 后验分布 (posterior distribution). 我们将后验分布对应的条件概率密度函数记作 . 由习题 4.6.10 给出的贝叶斯公式, 可得(7.4.1)我们进一步定义贝叶斯参数估计中的似然函数 (likelihood function) 为则式 (7.4.1) 可以简单改写为(7.4.2)上式是贝叶斯参数估计方法的核心. 在贝叶斯参数估计方法中, 我们可以直接将未知参数的后验分布作为参数估计的最终结果, 也可以基于后验分布进一步给出未知参数的点估计量. 常用的贝叶斯点估计量有如下两种:

1.

最小均方误差 (minimum mean square error, MMSE) 估计量 : 该估计量实际上就是 在给定样本 时的条件期望 , 它可由后验分布算得: 之所以将其称为最小均方误差估计量, 是因为 是所有统计量中使得均方误差达到最小的统计量 (见第 4.4 节最后一小节): 需要注意的是, 上式中的均方误差 是把未知参数作为随机变量并取全期望而得到的, 从而与参数的具体取值无关, 它并非式 (7.2.1) 定义的频率学派理论中依赖于参数取值的均方误差 .

注 7.4.1. 实际上, 由于若把条件概率密度函数 当成是由 参数化的概率分布, 则上式右端出现的积分 给出的就是频率学派理论中依赖于参数值 的均方误差 , 从而也就是说, 我们可以把 当作是由 按照分布 进行加权平均而得到的.

2.

最大后验 (maximum a posteriori, MAP) 估计量 : 该估计量是通过求后验分布概率密度函数的最大值点得到的: 将式 (7.4.2) 代入可得由上式可看出 MAP 估计量与最大似然估计量具有相似之处, 但 MAP 估计量中不仅需要考虑似然函数的取值 (它反映了样本值对于参数估计的影响), 还需要考虑先验概率密度函数的取值 (它反映了未收集到样本时未知参数的先验信息对于参数估计的影响). 直观上, 我们会认为对数似然函数 衡量了候选参数值 与样本数据的拟合程度, 而 则是对参数施加的一个正则项 (regularization term), 这个正则项能够帮助我们避免过拟合 (overfitting).

例 7.4.2. 仍考虑例 7.1 的情形, 但我们换用贝叶斯方法对未知的期望 (温度) 进行估计. 我们换用 来表示未知的期望, 并设它的先验分布为 , 其中 均为已知量 (它们有时被称为超参数). 而在给定 后, 总体的条件分布依然为正态分布 , 其中 已知. 则此时先验分布的概率密度函数为而似然函数 则等于由此可算得在给定 的后验分布为其中注意到在计算 的过程中, 我们只需保留与 有关的项, 而可以把仅与已知参数、超参数以及 有关的系数均 “吸收” 进正比例符号 当中. 通过以上的计算可看出, 在给定 时的条件分布为正态分布 . 若要对 进行点估计, 则其 MMSE 与 MAP 估计量均为其中 为样本均值. 注意到当 时, 将 (逐点) 收敛于样本均值 , 而 则是频率学派点估计理论中正态总体期望的最大似然估计量.

脚注

1.

^ 与其它章节不同, 本节我们用 表示作为随机变量或随机向量的未知参数, 而不再表示所有可能的参数取值构成的集合.