1.6. 条件概率的初步介绍

条件概率的定义

相当多的随机试验具有阶段性的特点, 即整个试验可以分为多个阶段, 而当前阶段执行的后果会依赖于其它一些阶段的执行情况. 对于这种多阶段性的随机试验, 我们往往会面临如下两类问题:

1.

对于多阶段的随机试验, 在试验开始之前我们可能对最终结果有一个粗略的预测, 但随着试验的进行, 每完成一阶段都会获得部分观测信息. 我们能否用这些观测信息, 来修正我们对最终结果的预测?

2.

多阶段的随机试验可能难以一次性进行整体的概率建模, 但在划分阶段后, 我们就可以在已知前 个阶段执行情况的条件下对第 个阶段进行建模. 那么我们应当如何将这些分阶段的概率模型进行整合, 从而得到整个随机试验的概率模型?

为解决上述问题, 我们需要引入条件概率的概念. 为此我们考虑一个简单的情形: 假设已知一个概率大于 的事件 发生了, 我们希望把原来的概率测度 更新为一个新的概率测度 (暂且将其称为条件概率测度). 我们要求这个条件概率测度应具有如下性质:

1.

;

2.

若事件 , 则 .

这两个性质直观上看是很自然的: 已知 发生的情况下自然应当把 的概率更新为 , 而若事件 都是 的子集, 那么已知 发生的情况下 的条件概率之比应当与之前保持一致. 现任取一事件 , 则根据第一个性质有从而由概率的可加性可得到接下来再根据第二个性质并注意到 , 可得综合以上结果即可算得由此我们做出如下定义:

定义 1.6.1. 为两个事件, 且 . 我们把在事件 发生的条件下事件 条件概率 (conditional probability) 定义为(1.6.1)

需要注意的是, 若 , 则条件概率 一般来说是没有定义的.

例 1.6.2 (古典概型中的条件概率). 给出一古典概型, 事件 满足 . 则对任意事件 , 有换句话说, 等于把集合 中不属于 的元素取掉以后, 剩下的元素在 的元素中所占的比例. 这说明对于古典概型, 把 发生的条件下 的条件概率定义为 是符合直观的.

以下命题指出, 若固定事件 并把条件概率 看成 的函数, 则它的确给出了一个概率测度, 且符合本节一开始列出的条件概率测度应当具备的两条性质.

命题 1.6.3. 为一概率空间, 事件 满足 . 令 给出了事件域 上的一个概率测度, 且满足

1.

;

2.

, 则 .

证明. 显然有 . 现任取事件 , 不难由 得到 . 现取 为一列两两互斥的事件, 则对任意 其中第二步利用了并集与交集运算的分配律, 第三步利用了 的可数可加性.

满足的几条性质可直接从条件概率的定义得到.

命题 1.6.3 意味着, 在一个随机试验中, 若我们知道某个事件 已经发生了 (要求 ), 则可以把原来的概率测度 替换为条件概率测度 来帮助我们修正对随机试验最终结果的预测.

乘法公式与全概率公式

虽然在式 (1.6.1) 中, 我们用 (非条件) 概率 来定义条件概率 , 但许多情况下 反而是更容易建模的量, 而 (非条件) 概率则是需要计算的量, 此时下面的两个定理就变得非常有用了.

定理 1.6.4. 设事件 满足 , 则对任意事件 , 有(1.6.2)更一般地, 设 个事件, 且 , 则(1.6.3)

证明. 式 (1.6.2) 是条件概率定义的直接推论. 而式 (1.6.3) 则可以由式 (1.6.2) 不断递推得到: 其中 可由 保证.

定理 1.6.5. 设事件 两两互斥, 为必然事件, 且对每个 均有 . 则对任意事件 , 有(1.6.4)

证明. 由于 两两互斥, 可知 , 即 也两两互斥. 而由 为必然事件以及并集与交集运算的分配律可得故可将概率的可加性用于事件组 并得到最后由式 (1.6.2) 即得待证等式.

式 (1.6.2) 与 (1.6.3) 被称为条件概率的 乘法公式, 而式 (1.6.4) 则被称为全概率公式, 它们为解决本节开头提出的第二类问题 (即如何将分阶段的概率模型进行整合) 奠定了基础. 全概率公式的一个特例是其中需假设 .

例 1.6.6. 假设有某个传感器需要将其测量数据上传至服务器, 数据以 两种符号构成的符号串表示. 设符号串中的每个符号在传输时需要依次经过三个二进制信道, 每个信道在传输符号 时有 的概率发生错误变为 , 而传输符号 时有 的概率发生错误变为 (如图 1). 则从传感器发出一个符号 能够被服务器正确接收的概率是多少?

我们用 表示符号 经过 个信道传输后还保持为 , 则待求概率为 , 而由全概率公式, 有而对于 , 同样可由全概率公式得到 则满足 . 再将 , 代入以上几式, 即可求得 .

同理, 可求得传感器发出符号 能被服务器正确接收的概率是 .

图 1. 1.6.6 中的二进制信道图示.

例 1.6.7 (Pólya 罐子模型). 设一个罐子中一开始有 个标号为 的球与 个标号为 的球. 之后我们重复如下过程: 从罐子中随机取一个球, 记下它的标号, 将这个球放回的同时将 个与之标号一样的球加入罐子当中. 则经过 轮取球和放球的操作后, 罐子中有 个标号 的球与 个标号 的球的概率是多少?

首先用 表示事件 “ 轮过后, 罐子中有 个标号 的球与 个标号 的球”, 并对任意 , 用 表示事件 “ 轮中抽出的球的标号依次为 ”, 则由概率的可加性可得接下来, 设 , 我们用乘法公式计算 : 我们对上式做一些简单的解释: 若 , 因 , 故前 轮中有 轮抽出了标号为 的球, 因而在 的条件下 的条件概率即为 个球中有 个标号为 时抽出标号为 的球的概率; 的情况类似. 利用上式作出若干步递推后不难发现, 的值仅取决于 : 最后可得其中最后一步我们利用了这样一个事实: 方程 的满足 的解总共有 组.

贝叶斯公式

定理 1.6.8. 设事件 两两互斥, 为必然事件, 且对每个 均有 . 则对任意概率大于 的事件 , 有(1.6.5)

证明. 我们有其中第一步来自于条件概率的定义, 而第二步中则代入了条件概率的乘法公式与全概率公式.

定理 1.6.8 通常被称为贝叶斯定理 (Bayes’ theorem), 等式 (1.6.5) 被称为贝叶斯公式逆概率公式, 其中概率 通常被称为事件 先验概率 (prior probability), 则被称为 (事件 发生后) 后验概率 (posterior probability). 贝叶斯公式的一个特例是其中需假设 以及 .

贝叶斯公式常用来解决如下一类问题: 设某个随机试验分为两个阶段, 第一个阶段当中事件 有且仅有一个发生, 而第二阶段的试验结果则取决于 当中具体是哪个事件发生, 现在我们在第二阶段观测到了事件 发生, 则应当如何用这个第二阶段获得的信息反过来更新第一阶段中事件 的 (条件) 概率.

例 1.6.9. 假设有一种罕见病, 在人群中的发病率为 . 现在针对这种罕见病开发了一种快速诊断方法, 该方法应用在病患身上时将以 的概率给出阳性结果, 而应用在健康人身上时将以 的概率给出阳性结果. 现假设在人群中随机选择一人并应用这种诊断方法后给出了阳性结果, 试问这个人患病的概率是多少?

我们用事件 表示诊断结果为阳性, 事件 表示随机选择的这个人患病. 则由贝叶斯公式可得以上计算说明, 这种快速诊断方法应用在一般人群中误报阳性的几率非常大, 因此是有非常大缺陷的.

接下来假设我们想要对该诊断方法进行改进, 使其应用在病患身上时的阳性率依然保持在 , 但应用在健康人身上时的阳性率下降到 . 则此时有由上式可看出, 若要使得 提升到 以上, 则要求 ; 若要使得 提升到 以上, 则要求 .

例 1.6.10 (三门问题, Monty Hall Problem). 美国曾有一电视游戏节目, 在该游戏节目中, 参赛者会看见三扇门, 其中一扇门的背后放有一辆汽车, 另外两扇门背后则都放着山羊. 参赛者首先选择一扇门, 随后节目主持人会随机开启一扇参赛者未选而背后是山羊的门, 并让参赛者决定是否改选另一扇未开启的门. 在参赛者做出最终决定后, 若被选的门背后是汽车, 则参赛者将赢得这辆汽车, 否则会输掉游戏. 那么在这个游戏中, 参赛者是否应该改选另一扇未开启的门?

简单起见, 假设汽车与山羊均随机放置在门背后. 现假设参赛者选择 1 号门, 而主持人打开了 3 号门. 则故这种情况下参赛者应改选 2 号门. 由问题的对称性可知参赛者总是应该改选另一扇未开启的门.