4.4. 条件分布与条件期望

条件分布

本小节中, 我们介绍一个随机变量 $X$ 在给定另一个随机变量 $Y$ 的取值时的条件分布. 由于数学工具的限制, 我们只讨论 $(X, Y)$ 为离散型随机向量或连续型随机向量的情形.

$(X, Y)$ 为离散型随机向量. 当 $(X, Y)$ 为离散型随机向量时, 条件分布的定义是比较直接的. 设 $y \in R$ 使得 $P (Y = y) > 0$ , 则定义 $Y = y$ 的条件下 $X$ 的条件分布列 (conditional probability mass function, conditional p.m.f.) 为 $p_{X ∣ Y} (x ∣ y) = P (X = x ∣ Y = y) = \frac{p _{X, Y} ( x , y )}{p _{Y} ( y )}, \forall x \in R .$ 不难证明, 若固定 $y$ 而把 $p_{X ∣ Y} (x ∣ y)$ 看成 $x$ 的函数, 则它的确给出了一个分布列 (也就是说它满足定理 2.2.4 的条件).

当 $p_{Y} (y) = 0$ 时, 为了方便, 我们规定 $p_{X ∣ Y} (x ∣ y) = p_{X} (x)$ , 但需注意此时 $p_{X ∣ Y} (x ∣ y)$ 不代表 $P (X = x ∣ Y = y)$ .

以下命题可以看成是全概率公式的一个特例, 也是为了给连续型随机向量的情形做一些准备, 其证明是直接的, 故留给读者自行完成.

命题 4.4.1. 设 $(X, Y)$ 为离散型随机向量. 则任取区间 $I, J \subseteq R$ , 均有 $P (X \in I, Y \in J) = y \in J \sum (x \in I \sum p_{X ∣ Y} (x ∣ y)) \cdot p_{Y} (y) .$ (4.4.1)反之, 若二元实值函数 $q : R^{2} \to R$ 使得等式 ¹ $P (X \in I, Y \in J) = y \in J \sum (x \in I \sum q (x, y)) \cdot p_{Y} (y),$ 对任意区间 $I, J \subseteq R$ 都成立, 则 $p_{Y} (y) > 0$ 时均有 $q (x, y) = p_{X ∣ Y} (x ∣ y), \forall x \in R$ .

例 4.4.2. 设 $X, Y$ 为相互独立的随机变量, 且分别服从参数为 $λ_{1}$ 与 $λ_{2}$ 的泊松分布. 令 $Z = X + Y$ . 则对任意正整数 $z$ , $Z = z$ 的条件下 $X$ 的条件分布列为 $p_{X ∣ Z} (x ∣ z) = = = \frac{P ( X = x , Z = z )}{P ( Z = z )} = \frac{P ( X = x , Y = z - x )}{P ( Z = z )} e^{- λ_{1}} \frac{λ _{1}^{x}}{x !} \cdot e^{- λ_{2}} \frac{λ _{2}^{z - x}}{( z - x )!} \cdot [e^{- (λ_{1} + λ_{2})} \frac{( λ _{1} + λ _{2} ) ^{z}}{z !}]^{- 1} (x z) (\frac{λ _{1}}{λ _{1} + λ _{2}})^{x} (\frac{λ _{2}}{λ _{1} + λ _{2}})^{z - x}, \forall x = 0, \dots, z,$ 其中我们利用了例 4.3.8 的结论来计算 $P (Z = z)$ . 而 $x$ 取其它值时有 $p_{X ∣ Z} (x ∣ z) = 0$ . 故 $Z = z$ 的条件下 $X$ 服从参数为 $(z, λ_{1} / (λ_{1} + λ_{2}))$ 的二项分布.

$(X, Y)$ 为连续型随机向量. 当 $(X, Y)$ 为连续型随机向量时, 定义 $Y = y$ 的条件下 $X$ 的条件分布需要一些额外手段, 这是因为此时 $P (Y = y)$ 总是为 $0$ , 因而形如 $P (X \in I ∣ Y = y)$ 的条件概率是没有定义的. 严格处理这个问题需要一些实分析的知识, 超出本课程的范围, 这里给出一种在直观上较易于接受但缺乏一定数学严格性的处理方法: 注意到命题 4.4.1 意味着我们可以把式 (4.4.1) 作为条件分布列的第二定义, 故对于连续型随机向量的情形, 不妨考虑在式 (4.4.1) 中把分布列形式上换成概率密度乘以微元, 把求和形式上换成积分, 再将 $Y = y$ 的条件下 $X$ 的条件概率密度函数 (conditional probability density function, conditional p.d.f.) $f_{X ∣ Y} (x ∣ y)$ 定义为使得以下等式对任意区间 $I, J \subseteq R$ 均成立的函数: $P (X \in I, Y \in J) = \int_{J} (\int_{I} f_{X ∣ Y} (x ∣ y) d x) f_{Y} (y) d y .$ (4.4.2)将上式右端的累次积分写成重积分的形式, 再与联合分布密度函数的定义式 (3.2.1) 进行比较, 即可看出当 $f_{Y} (y) > 0$ 时, $f_{X ∣ Y} (x ∣ y) = \frac{f _{X, Y} ( x , y )}{f _{Y} ( y )} .$ (4.4.3)许多初等概率论教材也直接将上式作为条件概率密度函数 $f_{X ∣ Y}$ 的定义. 当 $f_{Y} (y) = 0$ 时, 式 (4.4.2) 无法决定 $f_{X ∣ Y} (x ∣ y)$ 的取值, 为了方便, 我们规定此时 $f_{X ∣ Y} (x ∣ y) = f_{X} (x)$ .

条件概率密度函数也有如下不严格的解释方式: 设 $f_{X, Y}$ 连续, 取非常小的 $ϵ > 0$ , 则对任意区间 $I \subseteq R$ , 有 $P (X \in I ∣ ∣ Y - y ∣ \leq ϵ) = = = \approx \frac{P ( X \in I , ∣ Y - y ∣ \leq ϵ )}{P ( ∣ Y - y ∣ \leq ϵ )} \frac{\iint _{I \times [y - ϵ, y + ϵ]} f _{X, Y} ( x , v ) d x d v}{\int _{y - ϵ}^{y + ϵ} f _{Y} ( v ) d v} \frac{\int _{y - ϵ}^{y + ϵ} ( \int _{I} f _{X ∣ Y} ( x , v ) d x ) f _{Y} ( v ) d v}{\int _{y - ϵ}^{y + ϵ} f _{Y} ( v ) d v} \frac{( \int _{I} f _{X ∣ Y} ( x , y ) d x ) f _{Y} ( y ) \cdot 2 ϵ}{f _{Y} ( y ) \cdot 2 ϵ} = \int_{I} f_{X ∣ Y} (x, y) d x .$ 换句话说, $f_{X ∣ Y}$ 近似给出了 $ϵ$ 非常小的时候, 在 $y - ϵ \leq Y \leq y + ϵ$ 的条件下 $X$ 的条件分布的概率密度函数.

根据以上条件分布列与条件概率密度函数的定义, 不难得到如下定理:

定理 4.4.3.

1.	设 $(X, Y)$ 为离散型随机向量, 则 $X, Y$ 相互独立当且仅当 $p_{X ∣ Y} (x ∣ y) = p_{X} (x), \forall x, y \in R .$
2.	设 $(X, Y)$ 为连续型随机向量, 则 $X, Y$ 相互独立当且仅当对任意的 $y \in R$ , 条件概率密度函数 $f_{X ∣ Y} (x ∣ y)$ 同时也是 $X$ 的一个 (非条件) 概率密度函数 $f_{X} (x)$ .

条件期望

定义 4.4.4.

1.	设 $(X, Y)$ 为离散型随机向量, 且 $E [X]$ 存在. 若函数 $ϕ_{X} : R \to R$ 满足 $ϕ_{X} (y) = x \sum x \cdot p_{X ∣ Y} (x ∣ y), 若 p_{Y} (y) > 0,$ 则称随机变量 $ϕ_{X} (Y)$ 为给定 $Y$ 的条件下 $X$ 的条件期望 (conditional expectation).
2.	设 $(X, Y)$ 为连续型随机向量, 且 $E [X]$ 存在. 若函数 $ϕ_{X} : R \to R$ 满足 $ϕ_{X} (y) = \int_{- \infty}^{+ \infty} x \cdot f_{X ∣ Y} (x ∣ y) d x, 若 f_{Y} (y) > 0,$ 则称随机变量 $ϕ_{X} (Y)$ 为给定 $Y$ 的条件下 $X$ 的条件期望 (conditional expectation).

我们把给定 $Y$ 的条件下 $X$ 的条件期望记为 $E [X ∣ Y]$ . 我们也经常将以上定义中出现的函数 $ϕ_{X} (y)$ 记为 $E [X ∣ Y = y]$ .

注 4.4.5. 定义 4.4.4 当中并未规定 $ϕ_{X} (y)$ 在 $p_{Y} (y) = 0$ 或 $f_{Y} (y) = 0$ 时的取值, 因此给定 $Y$ 的条件下 $X$ 的条件期望不一定是唯一的: 有可能存在两个随机变量 $Y$ 的函数 $ϕ_{X, 1} (Y)$ 与 $ϕ_{X, 2} (Y)$ 均满足定义 4.4.4, 但可以证明, 这种情况下必定有 $P (ϕ_{X, 1} (Y) = ϕ_{X, 2} (Y)) = 1,$ 也就是说 $ϕ_{X, 1} (Y) = ϕ_{X, 2} (Y)$ 几乎必然成立. 换句话说, 条件期望 $E [X ∣ Y]$ 可以存在不同的版本, 但任意两个版本都是几乎必然相等的. 在随后的部分, 我们将用 $E [X ∣ Y]$ 指代条件期望的任意一个版本, 而用 $E [X ∣ Y] = ϕ_{X} (Y)$ 来表示 $ϕ_{X} (Y)$ 是给定 $Y$ 的条件下 $X$ 条件期望的其中一个版本; 记号 $E [X ∣ Y = y]$ 同理.

注 4.4.6. 受到数学工具的限制, 定义 4.4.4 只处理了 $(X, Y)$ 为离散型或连续型随机向量的情形. 但实际上, 只要 $E [X]$ 存在, 那么对任意随机变量 $Y$ 我们都可以定义其条件期望 $E [X ∣ Y]$ 及相应的函数 $ϕ_{X} (y) = E [X ∣ Y = y]$ . 特别是, 当 $P (Y = y) > 0$ 时, 有 $ϕ_{X} (y) = E [X ∣ Y = y] = \frac{E [ X \cdot 1 _{{Y = y}} ]}{P ( Y = y )} .$ 而 $P (Y = y) = 0$ 时 $ϕ_{X} (y) = E [X ∣ Y = y]$ 的一般定义则需要用到高等概率论的一些工具, 本讲义将在附录 B 中给出一个简单的介绍作为选读内容.

以下定理可看作是条件期望的 law of the unconscious statistician (LOTUS).

定理 4.4.7. 设 $X, Y$ 为两个随机变量, 二元函数 $h : R^{2} \to R$ 使得 $E [h (X, Y)]$ 存在, 且对任意 $y \in R$ , $E [h (X, y)]$ 均存在.

1.	若 $(X, Y)$ 为离散型随机向量, 则有 $E [h (X, Y) ∣ Y = y] = x \sum h (x, y) \cdot p_{X ∣ Y} (x ∣ y);$
2.	若 $(X, Y)$ 为连续型随机向量, 则有 $E [h (X, Y) ∣ Y = y] = \int_{- \infty}^{+ \infty} h (x, y) \cdot f_{X ∣ Y} (x ∣ y) d x .$

定理 4.4.7 的证明不做要求, 感兴趣的读者可参考附录 B.

以下定理给出了条件期望的几个比较重要的性质.

定理 4.4.8. 设 $X, Y, Z$ 为随机变量, 且 $E [X], E [Y]$ 存在, 则如下命题成立:

1.	线性: 对任意实数 $α, β$ , 均有 $E [α X + β Y ∣ Z] = α E [X ∣ Z] + β E [Y ∣ Z] .$
2.	若 $X \geq 0$ 几乎必然成立, 则 $E [X ∣ Z] \geq 0$ 几乎必然成立.
3.	全期望公式 (law of total expectation): $E [X] = E [E [X ∣ Z]] .$ 特别地, 若 $Z$ 为离散型随机向量, 则 $E [X] = z \sum E [X ∣ Z = z] \cdot p_{Z} (z) .$ 若 $Z$ 为连续型随机向量, 则 $E [X] = \int_{- \infty}^{+ \infty} E [X ∣ Z = z] \cdot f_{Z} (z) d z .$
4.	若函数 $h : R \to R$ 使得 $E [h (Z) X]$ 存在, 则 $E [h (Z) X ∣ Z] = h (Z) E [X ∣ Z] .$
5.	若 $X$ 与 $Z$ 相互独立, 则 $E [X ∣ Z] = E [X] .$ 更一般地, 设二元函数 $h : R^{2} \to R$ 使得 $E [h (X, z)]$ 对任意 $z \in R$ 均存在, 则 $X, Z$ 独立时有 $E [h (X, Z) ∣ Z = z] = E [h (X, z)] .$

证明. 这里只给出 3、4、5 三条性质的证明, 且只给出 $(X, Z)$ 为离散型或连续型随机向量时的证明, 一般情形的证明超出本课程范围.

3.

若 $(X, Z)$ 为离散型随机向量, 则有 $E [E [X ∣ Z]] = z \sum E [X ∣ Z = z] \cdot p_{Z} (z) = z \sum x \sum x \cdot p_{X ∣ Z} (x ∣ z) \cdot p_{Z} (z) = (x, z) \sum x \cdot p_{X, Z} (x, z) = E [X],$ 其中第一步来自于期望的 LOTUS, 第二步用了 $E [X ∣ Z = z]$ 的定义.

若 $(X, Z)$ 为连续型随机向量, 则类似有 $E [E [X ∣ Z]] = \int_{- \infty}^{+ \infty} E [X ∣ Z = z] \cdot f_{Z} (z) d z = \int_{- \infty}^{+ \infty} (\int_{- \infty}^{+ \infty} x \cdot f_{X ∣ Z} (x ∣ z) d x) f_{Z} (z) d z = \iint_{R^{2}} x \cdot f_{X, Z} (x, z) d x d z = E [X] .$

4.

若 $(X, Z)$ 为离散型随机向量, 则 $p_{Z} (z) > 0$ 时, 由条件期望的 LOTUS, 有 $E [h (Z) X ∣ Z = z] = x \sum h (z) x \cdot p_{X ∣ Z} (x ∣ z) = h (z) \cdot x \sum x \cdot p_{X ∣ Z} (x ∣ z) = h (z) \cdot E [X ∣ Z = z] .$ 若 $(X, Z)$ 为连续型随机向量, 则 $f_{Z} (z) > 0$ 时类似有 $E [h (Z) X ∣ Z = z] = \int_{- \infty}^{+ \infty} h (z) x \cdot f_{X ∣ Z} (x ∣ z) d x = h (z) \cdot \int_{- \infty}^{+ \infty} x \cdot f_{X ∣ Z} (x ∣ z) d x = h (z) \cdot E [X ∣ Z = z],$ 故两种情况下均有 $E [h (Z) X ∣ Z] = h (Z) \cdot E [X ∣ Z]$ .

5.

由条件期望的定义, 若 $(X, Z)$ 为离散型随机向量, 则 $p_{Z} (z) > 0$ 时, 有 $E [X ∣ Z = z] = x \sum x \cdot p_{X ∣ Z} (x ∣ z) = x \sum x \cdot p_{X} (x) = E [X],$ 而若 $(X, Z)$ 为连续型随机向量, 则 $f_{Z} (z) > 0$ 时, 有 $E [X ∣ Z = z] = \int_{- \infty}^{+ \infty} x \cdot f_{X ∣ Z} (x ∣ z) d x = \int_{- \infty}^{+ \infty} x \cdot f_{X} (x) d x = E [X],$ 其中我们用到了定理 4.4.3.

关于

E [h (X, Z) ∣ Z = z]

的等式的证明则可利用条件期望的 LOTUS (定理 4.4.7), 这里略去.

$□$

利用条件期望的上述性质与计算方法, 我们可以给 $E [X]$ 的计算提供另一套流程:

1.	选取合适的随机变量 $Z$ , 利用全期望公式将 $E [X]$ 化为 $E [E [X ∣ Z]]$ .
2.	利用定理 4.4.8 的 1、3、4 部分的结论, 对 $E [X ∣ Z]$ 进行化简.
3.	利用条件期望的 LOTUS, 计算化简过后余下的各个条件期望.

例 4.4.9. 有一枚均匀的立方体骰子, 玩家投掷该骰子并根据投出的点数来决定其得分. 若投出的点数为 $1$ 或 $2$ , 则玩家得到 3 分且游戏结束; 若投出的点数为 $3$ 、 $4$ 或 $5$ , 则玩家得到 5 分且获得一次额外的投骰子的机会; 若投出的点数为 $6$ , 则玩家得到 7 分并获得一次额外的投骰子的机会. 试问游戏结束时, 玩家获得的总分的期望是多少?

我们将玩家最终得到的分数记为 $X$ , 并令第一次投掷的点数为 $Y$ . 则根据全期望公式, 有 $E [X] = E [E [X ∣ Y]] = i = 1 \sum 6 E [X ∣ Y = i] P (Y = i) = \frac{1}{6} i = 1 \sum 6 E [X ∣ Y = i] .$ 而直观上, 不难看出如下等式成立 ²: $E [X ∣ Y = 1] = E [X ∣ Y = 2] = 3,$ 以及 $E [X ∣ Y = 3] = E [X ∣ Y = 4] = E [X ∣ Y = 5] = 5 + E [X], E [X ∣ Y = 6] = 7 + E [X] .$ 将以上等式代入 $E [X] = \frac{1}{6} \sum_{i = 1}^{6} E [X ∣ Y = i]$ , 最终可解得 $E [X] = 14$ .

例 4.4.10. 设 $X, Y$ 为相互独立的连续性随机变量, 各自的概率密度函数为 $f_{X}$ 与 $f_{Y}$ , 我们希望求解概率 $P (X \leq Y)$ . 这里给出一种基于条件期望的做法: $P (X \leq Y) = = = = E [1_{{X \leq Y}}] = E [E [1_{{X \leq Y}} ∣ ∣ Y]] \int_{- \infty}^{+ \infty} E [1_{{X \leq Y}} ∣ ∣ Y = y] \cdot f_{Y} (y) d y \int_{- \infty}^{+ \infty} (\int_{- \infty}^{+ \infty} 1_{x \leq y} (x, y) \cdot f_{X ∣ Y} (x ∣ y) d x) f_{Y} (y) d y \int_{- \infty}^{+ \infty} (\int_{- \infty}^{y} f_{X} (x) d x) f_{Y} (y) d y = \int_{- \infty}^{+ \infty} F_{X} (y) f_{Y} (y) d y,$ 其中: 第 2、3 步利用了全期望公式; 第 4 步用条件期望的 LOTUS 对 $E [1_{{X \leq Y}} ∣ ∣ Y = y]$ 做了展开; 我们用 $1_{x \leq y}$ 简记指示函数 $1_{{(x, y) ∣ x \leq y}}$ .

条件方差

定义 4.4.11. 设 $X, Y$ 为随机变量, 且 $X$ 的方差存在. 定义给定 $Y$ 的条件下 $X$ 的条件方差 (conditional variance) 为 $Var (X ∣ Y) = E [(X - E [X ∣ Y])^{2} ∣ ∣ Y] .$ 我们也记 $Var (X ∣ Y = y) = E [(X - E [X ∣ Y = y])^{2} ∣ ∣ Y = y]$ .

我们也可从如下角度理解条件方差 $Var (X ∣ Y)$ : 首先对任意实数 $y$ , 算出 $X$ 在给定 $Y = y$ 条件下的条件分布; 接下来计算该条件分布所对应的方差, 这个方差将依赖于 $y$ , 我们将其暂时用 $ψ_{X} (y)$ 表示; 最后将函数 $ψ_{X}$ 作用在 $Y$ 上, 得到的随机变量 $ψ_{X} (y)$ 就是条件方差 $Var (X ∣ Y)$ .

利用条件期望的性质, 可得 $Var (X ∣ Y) = = = = E [X^{2} + (E [X ∣ Y])^{2} - 2 X \cdot E [X ∣ Y] ∣ ∣ Y] E [X^{2} ∣ ∣ Y] + E [(E [X ∣ Y])^{2} ∣ ∣ Y] - 2 E [X \cdot E [X ∣ Y] ∣ Y] E [X^{2} ∣ ∣ Y] + (E [X ∣ Y])^{2} - 2 (E [X ∣ Y])^{2} E [X^{2} ∣ ∣ Y] - (E [X ∣ Y])^{2},$ 其中我们充分利用了 $E [X ∣ Y]$ 是 $Y$ 的函数这一事实.

条件方差满足如下全方差公式 (law of total variance); 其证明是相当直接的, 我们将其留作习题 4.6.13.

定理 4.4.12. 设 $X, Y$ 为随机变量, 且 $X$ 的方差存在. 则 $Var (X) = E [Var (X ∣ Y)] + Var (E [X ∣ Y]) .$

例 4.4.13. 设 $N, X_{1}, X_{2}, \dots$ 为相互独立的随机变量, 其中 $N$ 的取值只可能是自然数, $Var (N)$ 存在; $X_{1}, X_{2}, \dots$ 同分布且它们的方差均存在. 令 $S = i = 1 \sum N X_{i} .$ 我们希望求解 $S$ 的期望与方差.

为了利用全期望公式求出 $E [S]$ , 我们注意到 $E [S ∣ N = n] = E [i = 1 \sum N X_{i} ∣ ∣ N = n] = E [i = 1 \sum n X_{i}] = n E [X_{1}],$ 其中第二步利用了 $X_{1}, X_{2}, \dots$ 与 $N$ 的独立性. 故由全期望公式, 可得 $E [S] = E [N E [X_{1}]] = E [N] E [X_{1}]$

类似地, 为了求 $S$ 的方差, 我们注意到 $Var (S ∣ N = n) = = = = Var (i = 1 \sum N X_{i} ∣ ∣ N = n) E ⎣ ⎡ (i = 1 \sum N X_{i})^{2} ∣ ∣ N = n ⎦ ⎤ - (E [i = 1 \sum N X_{i} ∣ ∣ N = n])^{2} E ⎣ ⎡ (i = 1 \sum n X_{i})^{2} ⎦ ⎤ - (E [i = 1 \sum n X_{i}])^{2} Var (i = 1 \sum n X_{i}) = n Var (X_{1}),$ 其中第三步也是用到了 $X_{1}, X_{2}, \dots$ 与 $N$ 的独立性. 故由全期望公式, $Var (S) = = E [N Var (X_{1})] + Var (N E [X_{1}]) E [N] Var (X_{1}) + (E [X_{1}])^{2} Var (N) .$ $□$

( $^{⋆}$ ) 条件期望与最佳均方预测

考虑这样一个问题: 给定随机变量 $X, Y$ , 我们希望找到一个 $Y$ 的函数, 用于在每次观测到 $Y$ 的取值时对 $X$ 的取值进行预测. 以下定理指出, 在所有的 $Y$ 的函数当中, 条件期望 $E [X ∣ Y]$ 能够取到最小的均方预测误差. 这是条件期望的又一条重要性质, 我们甚至可以把它作为条件期望的一个新的定义方式.

定理 4.4.14. 给定随机变量 $X$ 与 $Y$ , 设 $E [X^{2}]$ 存在．则任取函数 $h : R \to R$ , 均有 $E [(X - E [X ∣ Y])^{2}] \leq E [(X - h (Y))^{2}] .$

证明. 注意到

E [(X - h (Y))^{2}] = = E [(X - E [X ∣ Y] + E [X ∣ Y] - h (Y))^{2}] E [(X - E [X ∣ Y])^{2}] + E [(E [X ∣ Y] - h (Y))^{2}] + 2 E [(X - E [X ∣ Y]) (E [X ∣ Y] - h (Y))] .

对于上式右端的交叉项, 我们做如下处理:

= = = = E [(X - E [X ∣ Y]) (E [X ∣ Y] - h (Y))] E [E [(X - E [X ∣ Y]) (E [X ∣ Y] - h (Y)) ∣ Y]] E [(E [X ∣ Y] - h (Y)) \cdot E [(X - E [X ∣ Y]) ∣ Y]] E [(E [X ∣ Y] - h (Y)) \cdot (E [X ∣ Y] - E [X ∣ Y])] 0,

其中第一步用到了全期望公式; 第二步则是因为

E [X ∣ Y] - h (Y)

是

Y

的函数, 因而可以从条件期望中提出来; 第三步用到了条件期望的线性, 以及

E [E [X ∣ Y] ∣ Y] = E [X ∣ Y]

．因此

E [(X - h (Y))^{2}] = E [(X - E [X ∣ Y])^{2}] + E [(E [X ∣ Y] - h (Y))^{2}] \geq E [(X - E [X ∣ Y])^{2}] .

定理得证．

$□$

脚注

1.	^ 这里为了使求和式 $\sum_{x \in I} q (x, y)$ 有意义, 要求固定 $y$ 时, $q (x, y)$ 只对可数多个 $x$ 取非零值.
2.	^ 要严格证明这些等式实际上并不算简单, 感兴趣的读者可尝试严格证明这些等式.

名字空间

视图

4.4. 条件分布与条件期望

条件分布

条件期望

条件方差

( $^{⋆}$ ) 条件期望与最佳均方预测

脚注

条件分布

条件期望

条件方差

(⋆) 条件期望与最佳均方预测

脚注

( $^{⋆}$ ) 条件期望与最佳均方预测