4.1. 随机变量函数的分布

本节中我们主要考虑这样一类问题: 给定 维随机向量 并知道它的联合分布 (以联合分布列/联合概率密度函数/联合分布函数的形式给出), 以及 (向量值) 函数 , 如何求出 维随机向量 的联合分布? 一般来说这类问题需要具体情况具体分析, 并没有完全通用的方法. 第二章的例 2.2.52.3.4 2.4.3 已经对 为离散型的一些情况进行了讨论, 本节中我们将对其它一些特殊情况进行介绍.

连续型随机变量函数的分布

先考虑一个比较简单的情况: 设 为一连续型随机变量, 其概率密度函数 已知, 为一元实值函数, 其定义域包含 的值域. 我们想要考察 的概率分布.

当函数 的值域为可数集时, 可知 的值域也必定是可数集, 从而 必定为一离散型随机变量, 只需计算其分布列即可完整描述其概率分布: 换句话说, 我们需要先对任意 求出方程 的解集 , 而后在这个解集上对概率密度函数 进行积分.

当函数 的值域为不可数集时, 我们通常需要求解 的分布函数: 为计算上式右端积分, 需要对任意 求解不等式 , 再在解集 上对概率密度函数 进行积分.

例 4.1.1. 服从 上的均匀分布. 令 为一连续且严格单调递增的函数, 且满足由数学分析知识可证明 有连续且严格单调递增的反函数 . 我们考虑随机变量 的分布: 注意到对任意 , 当且仅当 , 故 的分布函数就是 .

这个例子为生成概率分布为 的随机数提供了一种方法: 若 连续且严格单调递增, 则可以首先生成一个服从 上均匀分布的随机数 , 然后求出方程 的解 , 此时 作为一个随机数, 即服从 给出的概率分布. 需要注意的是, 该方法中需要求解方程 , 这在许多实际情况中会有困难.

当函数 的性质较好 (例如 在定义域上除开有限多个点可导, 且导函数的零点只有有限多个) 时, 应检查一下是否能将 表示为一个函数在区间 上的积分, 或是检查 是否连续并在除开个别点以后处处可导, 因为这意味着 为连续型随机变量, 我们可以用概率密度函数来描述其概率分布. 我们用两个例子对此进行进一步说明.

例 4.1.2. 为一连续型随机变量, . 为了求出 的分布, 我们考察其分布函数 . 显然 时有 , 而 时, 上式右端在 时趋于 , 且对任意 均可导, 其导函数为故不难看出 为一连续型随机变量, 其概率密度函数为特别是, 当 时, 有此时我们称 服从自由度为 分布.

例 4.1.3. 为一连续型随机变量, 其值域为 的子集, 概率密度函数为 , 而 . 为了求出 的分布, 我们考察其分布函数 . 不难看出对任意 , 而对任意 . 当 时, 有注意到上式右端在 时均可导, 其导函数为此外, 处均连续. 故不难看出 为一连续型随机变量, 其概率密度函数由给出.

接下来我们考虑一个更具体的特殊情况: 设函数 定义在开区间 上且为严格单调递增的连续函数 (允许 ). 由基本的数学分析知识可知, 的值域也为某个开区间 (允许 ), 且存在定义在 上的严格单调递增的反函数 : 我们进一步假定 上处处可导.

我们利用前面给出的方法求解 的分布函数. 由于 为一连续型随机变量, 且对任意 , 当且仅当 , 故 时, 有接下来利用定积分换元公式做换元 , 可得 时有, . 此外, 为有限实数时, 处连续; 为有限实数时, 处连续. 综上可知 为一连续型随机变量, 其概率密度函数为

上述推导过程同样可用于 上连续、严格递减且存在可导反函数的情形, 具体的推导步骤这里不再展开. 综上, 可得如下结论:

定理 4.1.4. 为一连续型随机变量, 为一包含 值域的开区间 (允许 ), 函数 连续、严格单调且值域为 (允许 ), 其反函数 处处可导. 则 为一连续型随机变量, 其概率密度函数为

连续型随机向量函数的分布

本小节中我们考虑二维连续型随机向量的函数的分布: 设 为连续型随机向量, 其概率密度函数 已知, 为二元实值函数, 其定义域包含 的值域. 我们想要考察 的概率分布.

与一维情形类似, 当函数 的值域为可数集时, 为一离散型随机变量, 只需计算其分布列即可完整描述其概率分布: 而若 的值域为不可数集, 则通常从 的分布函数入手: 对于二维情况, 区域 通常会更加复杂, 一般我们会考虑将其分解为可数个不相交的简单区域, 而后在这些简单区域上求解重积分, 最后求和. 此外, 也不要忘记检查 是否是连续型随机变量, 并进一步求它的概率密度函数来描述其概率分布. 我们用几个例子对此进行说明.

例 4.1.5 (独立变量最大值的分布). 相互独立, 我们希望考查 的概率分布. 先暂时不假定 为连续型随机变量, 则 的分布函数为其中第二步是因为 当且仅当 , 而第三步则用到了独立性.

下面进一步假定 均为连续型随机变量, 其概率密度函数分别为 . 则此时 也是连续型随机变量, 其概率密度函数 可通过导函数的莱布尼兹律得到: 还服从同一个分布, 记它们的分布函数为 , 概率密度函数为 , 则有

利用类似的方法, 读者可自行推导 相互独立时 以及 的分布.

例 4.1.6 (连续型随机向量的和的分布). 为连续型随机向量, 其联合概率密度函数为 , 令 . 则 的分布函数为其中第三步将重积分化为了累次积分, 而第四步则对积分 进行了换元 . 观察上式最右端即可看出 为连续型随机变量, 其概率密度函数为对上式中的积分做换元 还能得到 还相互独立, 则有上式也被称为卷积公式 (convolution formula) .

例 4.1.7. 相互独立且均服从参数为 的指数分布. 则以及重复上述递推过程, 不难得到一般地, 给定正实数 , 若随机变量 的概率密度函数为(4.1.1)则称 服从参数为 Gamma 分布 (Gamma distribution).

() 连续型随机向量经过可逆变换后的分布

本小节中我们考虑这样一个情形: 为连续型随机向量, 其联合概率密度函数为 . 均为平面 的开子集, 且 包含 的值域. 映射 为双射, 且 与其逆映射 均连续可微. 令我们希望求解随机向量 的联合分布.

由于 为双射且 均连续可微, 故直观上 应当是一个连续型随机向量, 这里我们直接求解 的联合概率密度函数. 任取区间 , 并记也就是说, 当中的点 都是使得 取值落在矩形区域 中的那些点. 则有这里对上式最右端的符号以及最后一个等号做一些说明: 表示取行列式, 表示向量值函数 在点 处的雅可比矩阵; 若记 的两个分量为 (它们均为定义在 上的连续可微函数), 则此外, 我们还对上式第二行中的重积分进行了换元 , 并利用了如下换元定理:

定理 4.1.8 (重积分换元定理). 均为 中的开集, 的双射, 且 均连续可微, 则对于 上的任意可积函数 , 有

关于上述定理更详细的信息可参考 [10] 第 10.6 节, 而若读者对勒贝格积分没有了解, 则可参考 [11] 第 13.5 及 13.6 节给出的上述定理的黎曼积分版本.

我们继续上面的推导: 其中第二步是因为 当且仅当 , 而最后一步中我们令由于 可以是任意的两个区间, 由连续型随机向量的定义可知, 为连续型随机向量, 其联合概率密度函数即为 .

我们将以上结果总结为如下定理:

定理 4.1.9. 为连续型随机向量, 其联合概率密度函数为 . 均为平面 的开子集, 且 包含 的值域. 为一双射, 且 均连续可微. 则 为连续型随机向量, 其联合概率密度函数为(4.1.2)其中 表示 处的雅可比矩阵.

该定理的一个重要特殊情形是 为一可逆仿射变换, 也就是说存在可逆实方阵 与实向量 使得 1此时有故我们有如下推论:

推论 4.1.10. 为二维连续型随机向量, 其联合概率密度函数为 , 为可逆实方阵, 为实向量. 则 为连续型随机向量, 其联合概率密度函数为(4.1.3)

定理 4.1.9 与推论 4.1.10 不难推广到一般的 维连续型随机向量的情形.