本节中我们主要考虑这样一类问题: 给定 n 维随机向量 X 并知道它的联合分布 (以联合分布列/联合概率密度函数/联合分布函数的形式给出), 以及 (向量值) 函数 g : Im X → R m , 如何求出 m 维随机向量 Y = g ( X ) 的联合分布? 一般来说这类问题需要具体情况具体分析, 并没有完全通用的方法. 第二章的例 2.2.5 、2.3.4 与 2.4.3 已经对 X 为离散型的一些情况进行了讨论, 本节中我们将对其它一些特殊情况进行介绍.
连续型随机变量函数的分布 先考虑一个比较简单的情况: 设 X 为一连续型随机变量, 其概率密度函数 f X 已知, g 为一元实值函数, 其定义域包含 X 的值域. 我们想要考察 Y = g ( X ) 的概率分布.
当函数 g 的值域为可数集时, 可知 Y = g ( X ) 的值域也必定是可数集, 从而 Y 必定为一离散型随机变量, 只需计算其分布列即可完整描述其概率分布: p Y ( y ) = P ( g ( X ) = y ) = ∫ g ( x ) = y f X ( x ) d x . 换句话说, 我们需要先对任意 y ∈ Im g 求出方程 g ( x ) = y 的解集 { x ∣ g ( x ) = y } , 而后在这个解集上对概率密度函数 f X 进行积分.
当函数 g 的值域为不可数集时, 我们通常需要求解 Y = g ( X ) 的分布函数: F Y ( y ) = P ( g ( X ) ≤ y ) = ∫ g ( x ) ≤ y f X ( x ) d x , ∀ y ∈ R . 为计算上式右端积分, 需要对任意 y ∈ R 求解不等式 g ( x ) ≤ y , 再在解集 { x ∣ g ( x ) ≤ y } 上对概率密度函数 f X 进行积分.
设 X 服从 ] 0 , 1 [ 上的均匀分布. 令 F : R → ] 0 , 1 [ 为一连续且严格单调递增的函数, 且满足x → − ∞ lim F ( x ) = 0 , x → + ∞ lim F ( x ) = 1. 由数学分析知识可证明 F 有连续且严格单调递增的反函数 F − 1 : ] 0 , 1 [ → R . 我们考虑随机变量 Y = F − 1 ( X ) 的分布: 注意到对任意 x ∈ ] 0 , 1 [ 及 y ∈ R , F − 1 ( x ) ≤ y 当且仅当 x ≤ F ( y ) , 故P ( Y ≤ y ) = P ( F − 1 ( X ) ≤ y ) = P ( X ≤ F ( y )) = ∫ − ∞ F ( y ) 1 ] 0 , 1 [ ( x ) d x = F ( y ) , 故 Y = F − 1 ( X ) 的分布函数就是 F .
这个例子为生成概率分布为 F 的随机数提供了一种方法: 若 F 连续且严格单调递增, 则可以首先生成一个服从 ] 0 , 1 [ 上均匀分布的随机数 x , 然后求出方程 F ( y ) = x 的解 y , 此时 y 作为一个随机数, 即服从 F 给出的概率分布. 需要注意的是, 该方法中需要求解方程 F ( y ) = x , 这在许多实际情况中会有困难.
当函数 g 的性质较好 (例如 g 在定义域上除开有限多个点可导, 且导函数的零点只有有限多个) 时, 应检查一下是否能将 F Y ( y ) 表示为一个函数在区间 ] − ∞ , y ] 上的积分, 或是检查 F Y 是否连续并在除开个别点以后处处可导, 因为这意味着 Y 为连续型随机变量, 我们可以用概率密度函数来描述其概率分布. 我们用两个例子对此进行进一步说明.
设 X 为一连续型随机变量, Y = X 2 . 为了求出 Y 的分布, 我们考察其分布函数 F Y ( y ) = P ( Y ≤ y ) . 显然 y ≤ 0 时有 P ( Y ≤ y ) = 0 , 而 y > 0 时, F Y ( y ) = P ( X 2 ≤ y ) = P ( − y ≤ X ≤ y ) = ∫ − y y f X ( x ) d x . 上式右端在 y → 0 + 时趋于 0 , 且对任意 y > 0 均可导, 其导函数为2 y f X ( y ) + f X ( − y ) , 故不难看出 Y 为一连续型随机变量, 其概率密度函数为f Y ( y ) = ⎩ ⎨ ⎧ 2 y f X ( y ) + f X ( − y ) , 0 , y > 0 , y ≤ 0. 特别是, 当 X ∼ N ( 0 , 1 ) 时, 有f Y ( y ) = ⎩ ⎨ ⎧ 2 π 1 y − 1/2 e − y /2 , 0 , y > 0 , y ≤ 0 , 此时我们称 Y 服从自由度为 1 的 χ 2 分布 .
设 X 为一连续型随机变量, 其值域为 ] − 1 , 1 [ 的子集, 概率密度函数为 f X , 而 Y = 1 − X 2 . 为了求出 Y 的分布, 我们考察其分布函数 F Y ( y ) = P ( Y ≤ y ) . 不难看出对任意 y < 0 有 P ( Y ≤ y ) = 0 , 而对任意 y ≥ 1 有 P ( Y ≤ y ) = 1 . 当 0 ≤ y < 1 时, 有P ( Y ≤ y ) = P ( 1 − X 2 ≤ y ) = P ( X 2 ≥ 1 − y 2 ) = P ( { X ≥ 1 − y 2 } ∪ { X ≤ − 1 − y 2 } ) = P ( X ≥ 1 − y 2 ) + P ( X ≤ − 1 − y 2 ) = ∫ 1 − y 2 1 f X ( x ) d x + ∫ − 1 − 1 − y 2 f X ( x ) d x . 注意到上式右端在 y ∈ [ 0 , 1 [ 时均可导, 其导函数为1 − y 2 y ⋅ ( f X ( 1 − y 2 ) + f X ( − 1 − y 2 ) ) . 此外, F Y ( y ) 在 y = 0 与 y = 1 处均连续. 故不难看出 Y 为一连续型随机变量, 其概率密度函数由f Y ( y ) = ⎩ ⎨ ⎧ 1 − y 2 y ⋅ ( f X ( 1 − y 2 ) + f X ( − 1 − y 2 ) ) , 0 , 0 ≤ y < 1 , y < 0 或 y ≥ 1. 给出.
接下来我们考虑一个更具体的特殊情况: 设函数 g 定义在开区间 ] a , b [ 上且为严格单调递增的连续函数 (允许 a = − ∞ 或 b = + ∞ ). 由基本的数学分析知识可知, g 的值域也为某个开区间 ] α , β [ (允许 α = − ∞ 或 β = + ∞ ), 且存在定义在 ] α , β [ 上的严格单调递增的反函数 h : h ( g ( x )) = x , ∀ x ∈ ] a , b [ . 我们进一步假定 h 在 ] α , β [ 上处处可导.
我们利用前面给出的方法求解 Y = g ( X ) 的分布函数. 由于 X 为一连续型随机变量, 且对任意 x ∈ ] a , b [ , g ( x ) ≤ y 当且仅当 x ≤ h ( y ) , 故 y ∈ ] α , β [ 时, 有F Y ( y ) = P ( g ( X ) ≤ y ) = ∫ g ( x ) ≤ y f X ( x ) d x = ∫ a h ( y ) f X ( x ) d x , 接下来利用定积分换元公式做换元 x = h ( t ) , 可得 α < y < β 时有F Y ( y ) = ∫ α y f X ( h ( t )) ⋅ h ′ ( t ) d t , 而 y ≤ α 时 F Y ( y ) = P ( g ( X ) ≤ y ) = 0 , y ≥ β 时 F Y ( y ) = P ( g ( X ) ≤ y ) = 1 . 此外, α 为有限实数时, F Y ( y ) 在 y = α 处连续; β 为有限实数时, F Y ( y ) 在 y = β 处连续. 综上可知 Y 为一连续型随机变量, 其概率密度函数为f Y ( y ) = { f X ( h ( y )) ⋅ h ′ ( y ) , 0 , y ∈ ] α , β [ , y ∈ / ] α , β [ . .
上述推导过程同样可用于 g 在 ] a , b [ 上连续、严格递减且存在可导反函数的情形, 具体的推导步骤这里不再展开. 综上, 可得如下结论:
设 X 为一连续型随机变量, ] a , b [ 为一包含 X 值域的开区间 (允许 a = − ∞ 或 b = + ∞ ), 函数 g : ] a , b [ → R 连续、严格单调且值域为 ] α , β [ (允许 α = − ∞ 或 β = + ∞ ), 其反函数 h : ] α , β [ → ] a , b [ 处处可导. 则 Y = g ( X ) 为一连续型随机变量, 其概率密度函数为f Y ( y ) = { f X ( h ( y )) ⋅ ∣ h ′ ( y ) ∣ , 0 , y ∈ ] α , β [ , y ∈ / ] α , β [ .
连续型随机向量函数的分布 本小节中我们考虑二维连续型随机向量的函数的分布: 设 ( X , Y ) 为连续型随机向量, 其概率密度函数 f X , Y 已知, g 为二元实值函数, 其定义域包含 ( X , Y ) 的值域. 我们想要考察 Z = g ( X , Y ) 的概率分布.
与一维情形类似, 当函数 g 的值域为可数集时, Z = g ( X , Y ) 为一离散型随机变量, 只需计算其分布列即可完整描述其概率分布: p Y ( z ) = P ( g ( X , Y ) = z ) = ∬ g ( x , y ) = z f X , Y ( x , y ) d x d y , ∀ z ∈ R . 而若 g 的值域为不可数集, 则通常从 Z = g ( X , Y ) 的分布函数入手: F Z ( z ) = P ( g ( X , Y ) ≤ z ) = ∬ g ( x , y ) ≤ z f X , Y ( x , y ) d x d y . 对于二维情况, 区域 {( x , y ) ∣ g ( x , y ) ≤ z } 通常会更加复杂, 一般我们会考虑将其分解为可数个不相交的简单区域, 而后在这些简单区域上求解重积分, 最后求和. 此外, 也不要忘记检查 Z 是否是连续型随机变量, 并进一步求它的概率密度函数来描述其概率分布. 我们用几个例子对此进行说明.
设 X , Y 相互独立, 我们希望考查 Z = max { X , Y } 的概率分布. 先暂时不假定 X , Y 为连续型随机变量, 则 Z 的分布函数为P ( Z ≤ z ) = P ( max { X , Y } ≤ z ) = P ( X ≤ z , … , Y ≤ z ) = P ( X ≤ z ) ⋯ P ( Y ≤ z ) = F X ( z ) ⋅ F Y ( z ) , 其中第二步是因为 max { x , y } ≤ z 当且仅当 x ≤ z 且 y ≤ z , 而第三步则用到了独立性.
下面进一步假定 X , Y 均为连续型随机变量, 其概率密度函数分别为 f X 与 f Y . 则此时 Z 也是连续型随机变量, 其概率密度函数 f Z 可通过导函数的莱布尼兹律得到: f Z ( z ) = f X ( z ) F Y ( z ) + F X ( z ) f Y ( z ) . 若 X , Y 还服从同一个分布, 记它们的分布函数为 F , 概率密度函数为 f , 则有f Z ( z ) = 2 F ( z ) f ( z ) .
利用类似的方法, 读者可自行推导 X 1 , … , X n 相互独立时 max { X 1 , … , X n } 以及 min { X 1 , … , X n } 的分布.
设 ( X , Y ) 为连续型随机向量, 其联合概率密度函数为 f X , Y , 令 Z = X + Y . 则 Z 的分布函数为F Z ( z ) = P ( X + Y ≤ z ) = ∬ x + y ≤ z f X , Y ( x , y ) d x d y = ∫ − ∞ + ∞ ( ∫ − ∞ z − x f X , Y ( x , y ) d y ) d x = ∫ − ∞ + ∞ ( ∫ − ∞ z f X , Y ( x , t − x ) d t ) d x = ∫ − ∞ z ( ∫ − ∞ + ∞ f X , Y ( x , t − x ) d x ) d t , 其中第三步将重积分化为了累次积分, 而第四步则对积分 ∫ − ∞ z − x f X , Y ( x , y ) d y 进行了换元 t = y + x . 观察上式最右端即可看出 Z 为连续型随机变量, 其概率密度函数为f Z ( z ) = ∫ − ∞ + ∞ f X , Y ( x , z − x ) d x , z ∈ R . 对上式中的积分做换元 y = z − x 还能得到f Z ( z ) = ∫ − ∞ + ∞ f X , Y ( z − y , y ) d y , z ∈ R . 若 X , Y 还相互独立, 则有f Z ( z ) = ∫ − ∞ + ∞ f X ( x ) f Y ( z − x ) d x = ∫ − ∞ + ∞ f X ( z − y ) f Y ( y ) d y z ∈ R . 上式也被称为卷积公式 (convolution formula) .
设 X 1 , … , X n 相互独立且均服从参数为 λ 的指数分布. 则f X 1 + X 2 ( z ) = = ∫ − ∞ + ∞ f X 1 ( x ) f X 2 ( z − x ) d x ⎩ ⎨ ⎧ ∫ 0 z λ 2 ⋅ e − λ z d x = λ 2 z e − λ z , 0 , 若 z > 0 , 若 z ≤ 0. 以及f X 1 + X 2 + X 3 ( z ) = = ∫ − ∞ + ∞ f X 1 + X 2 ( x ) f X 3 ( z − x ) d x ⎩ ⎨ ⎧ ∫ 0 z λ 3 x e − λ z d x = 2 λ 3 z 2 e − λ z , 0 , 若 z > 0 , 若 z ≤ 0. 重复上述递推过程, 不难得到f X 1 + ⋯ + X n ( z ) = ⎩ ⎨ ⎧ ( n − 1 )! λ n z n − 1 e − λ z , 0 , 若 z > 0 , 若 z ≤ 0. 一般地, 给定正实数 α , β , 若随机变量 Z 的概率密度函数为f Z ( z ) = ⎩ ⎨ ⎧ Γ ( α ) β α z α − 1 e − β z , 0 , 若 z > 0 , 若 z ≤ 0 , (4.1.1) 则称 Z 服从参数为 ( α , β ) 的 Gamma 分布 (Gamma distribution).
(⋆ ) 连续型随机向量经过可逆变换后的分布 本小节中我们考虑这样一个情形: X = ( X , Y ) 为连续型随机向量, 其联合概率密度函数为 f X , Y : R 2 → [ 0 , + ∞ [ . D 与 R 均为平面 R 2 的开子集, 且 D 包含 ( X , Y ) 的值域. 映射 g : D → R 为双射, 且 g 与其逆映射 g − 1 均连续可微. 令( U , V ) = g ( X , Y ) . 我们希望求解随机向量 ( U , V ) 的联合分布.
由于 g 为双射且 g 与 g − 1 均连续可微, 故直观上 ( U , V ) 应当是一个连续型随机向量, 这里我们直接求解 ( U , V ) 的联合概率密度函数. 任取区间 I , J ⊆ R , 并记B = { ( x , y ) ∈ R 2 ∣ ∣ g ( x , y ) ∈ I × J } , 也就是说, B 当中的点 ( x , y ) 都是使得 g ( x , y ) 取值落在矩形区域 I × J 中的那些点. 则有P (( U , V ) ∈ I × J ) = P ( ( X , Y ) ∈ B ) = ∬ B f X ( x ) d x d y = ∬ D 1 B ( x , y ) ⋅ f X , Y ( x , y ) d x d y = ∬ R 1 B ( g − 1 ( u , v ) ) ⋅ f X , Y ( g − 1 ( u , v ) ) ⋅ ∣ ∣ det D g − 1 ( u , v ) ∣ ∣ d u d v . 这里对上式最右端的符号以及最后一个等号做一些说明: det 表示取行列式, D g − 1 ( u , v ) 表示向量值函数 g − 1 在点 ( u , v ) 处的雅可比矩阵; 若记 g − 1 的两个分量为 h 1 , h 2 (它们均为定义在 R 上的连续可微函数), 则det D g − 1 ( u , v ) = ∣ ∣ ∂ u ∂ h 1 ( u , v ) ∂ u ∂ h 2 ( u , v ) ∂ v ∂ h 1 ( u , v ) ∂ v ∂ h 2 ( u , v ) ∣ ∣ ; 此外, 我们还对上式第二行中的重积分进行了换元 ( x , y ) = g − 1 ( u , v ) , 并利用了如下换元定理:
设 R 和 D 均为 R n 中的开集, φ 为 R → D 的双射, 且 φ 与 φ − 1 均连续可微, 则对于 D 上的任意可积函数 f , 有∫ D f ( x ) d x = ∫ R f ( φ ( y )) ∣ det D φ ( y ) ∣ d y .
关于上述定理更详细的信息可参考 [
10 ] 第 10.6 节, 而若读者对勒贝格积分没有了解, 则可参考 [
11 ] 第 13.5 及 13.6 节给出的上述定理的黎曼积分版本.
我们继续上面的推导: P (( U , V ) ∈ I × J ) = ∬ R 1 B ( g − 1 ( u , v ) ) ⋅ f X , Y ( g − 1 ( u , v ) ) ⋅ ∣ ∣ det D g − 1 ( u , v ) ∣ ∣ d u d v = ∬ R 1 I × J ( u , v ) ⋅ f X , Y ( g − 1 ( u , v ) ) ⋅ ∣ ∣ det D g − 1 ( u , v ) ∣ ∣ d u d v = ∬ I × J f U , V ( u , v ) d u d v , 其中第二步是因为 g − 1 ( u , v ) ∈ B 当且仅当 ( u , v ) ∈ I × J , 而最后一步中我们令f U , V ( u , v ) = { f X , Y ( g − 1 ( u , v ) ) ⋅ ∣ ∣ det D g − 1 ( u , v ) ∣ ∣ , 0 , 若 ( u , v ) ∈ R , 若 ( u , v ) ∈ / R . 由于 I , J 可以是任意的两个区间, 由连续型随机向量的定义可知, ( U , V ) 为连续型随机向量, 其联合概率密度函数即为 f U , V .
我们将以上结果总结为如下定理:
设 ( X , Y ) 为连续型随机向量, 其联合概率密度函数为 f X , Y . D 与 R 均为平面 R 2 的开子集, 且 D 包含 ( X , Y ) 的值域. g : D → R 为一双射, 且 g 与 g − 1 均连续可微. 则 ( U , V ) = g ( X , Y ) 为连续型随机向量, 其联合概率密度函数为f U , V ( u , v ) = { f X , Y ( g − 1 ( u , v ) ) ⋅ ∣ ∣ det D g − 1 ( u , v ) ∣ ∣ , 0 , 若 ( u , v ) ∈ R , 若 ( u , v ) ∈ / R . (4.1.2) 其中 D g − 1 ( u , v ) 表示 g − 1 在 ( u , v ) 处的雅可比矩阵.
该定理的一个重要特殊情形是 g 为一可逆仿射变换, 也就是说存在可逆实方阵 A = [ a ij ] 与实向量 b = ( b 1 , b 2 ) 使得 1 g ( x ) = A x + b = [ a 11 x 1 + a 12 x 2 + b 1 a 21 x 1 + a 22 x 2 + b 2 ] , ∀ x = ( x 1 , x 2 ) ∈ R 2 . 此时有det D g − 1 ( y ) = det ( A − 1 ) = det A 1 , ∀ y ∈ R 2 , 故我们有如下推论:
设 X 为二维连续型随机向量, 其联合概率密度函数为 f X , A ∈ R 2 × 2 为可逆实方阵, b ∈ R 2 为实向量. 则 Y = A X + b 为连续型随机向量, 其联合概率密度函数为f Y ( y ) = f X ( A − 1 ( y − b ) ) ⋅ ∣ det A ∣ 1 , ∀ y ∈ R 2 . (4.1.3)
定理 4.1.9 与推论 4.1.10 不难推广到一般的 n 维连续型随机向量的情形.