设 X=(X1,X2) 为连续型随机向量, μ∈R2 为实向量, Σ∈R2×2 为实对称正定矩阵. 我们称 X 服从参数为 (μ,Σ) 的正态分布或高斯分布 (normal/Gaussian distribution) 并记为 X∼N(μ,Σ), 若 X 的联合概率密度函数可表示为fX(x)=c⋅exp[−21(x−μ)TΣ−1(x−μ)],∀x∈R2,(4.5.1)其中 c 为某个正实数.
利用 ∬R2fX(x)dx=1, 可求得式 (4.5.1) 中的常数 c 为c=(2π)2⋅detΣ1.我们将具体的计算过程放在了习题 4.6.23 中.
本节随后的重点是给出二维正态分布的几个核心性质:
1. | 正态分布的参数 μ,Σ 直接给出了期望、方差与协方差信息. |
2. | 二维正态分布的边缘分布为一维正态分布. |
3. | 服从二维正态分布的随机向量经过可逆仿射变换后仍服从二维正态分布. |
为了一步步推导上述性质, 我们从几个引理入手.
设 X=(X1,X2) 服从正态分布 N(0,I), 则 X1,X2 相互独立, 且 X1,X2 各自均服从标准正态分布 N(0,1).
引理 4.5.2 的证明思路是非常直接的: 为了证明 X1,X2 独立, 只需考察 fX(x1,x2) 是否能写为一个关于 x1 的函数与一个关于 x2 的函数的乘积, 而对这两个函数分别归一化即可得到边缘概率密度函数; 我们将具体的证明步骤留给读者自己完成.
设 μ∈R2, 而 Σ∈R2×2 为实对称正定矩阵, 随机向量 X∼N(μ,Σ).则存在可逆矩阵 A∈R2×2 以及随机向量 Z∼N(0,I) 满足X=AZ+μ,AAT=Σ.
证明. 这里给出的证明需要一些线性代数的知识, 对此比较生疏的读者可阅读附录 A.3 进行回顾.
因
Σ 为实对称正定矩阵, 故可对其做特征值分解:
Σ=QΛQT,其中
Λ∈R2×2 为一对角阵, 其对角元
λ1,λ2 均大于
0, 而
Q∈R2×2 为正交阵, 满足
QTQ=QQT=I.令
A=QΛ~QT,其中Λ~=[λ100λ2],则不难看出
A 为对称阵, 且由于
Λ~ 的对角元均大于
0, 可知
A 可逆.此外,
A2=QΛ~QTQΛ~QT=QΛ~2QT=QΛ2QT=Σ.接下来, 令
Z=A−1(X−μ),则有
X=AZ+μ, 且由推论
4.1.10 可得
fZ(z)=fX(Az+μ)⋅∣detA∣=(2π)2detΣ1exp(−2zTAΣ−1Az)⋅det(A2)=(2π)2detΣdetΣexp(−2zTA(A2)−1Az)=(2π)21exp(−2zTz),故
Z∼N(0,I), 引理得证.
接下来我们即可考察正态分布参数 μ 与 Σ 的具体意义.
设 X=(X1,X2)∼N(μ,Σ). 则μ=[E[X1]E[X2]],Σ=[Var(X1)Cov(X2,X1)Cov(X1,X2)Var(X2)].
证明. 先考虑 X∼N(0,I) 的情况.由引理 4.5.2, 可得 X1,X2 相互独立, 且每个 Xi 均服从 N(0,1).故E[X1]=E[X2]=0,Var(X1)=Var(X2)=1,以及Cov(X1,X2)=Cov(X2,X1)=E[(X1−E[X1])(X2−E[X2])]=0,故待证命题对于 μ=0,Σ=I 的情形成立.
接下来考虑一般情形.记
μ=[μ1μ2],Σ=[σ11σ21σ12σ22].由引理
4.5.3 可得, 存在可逆矩阵
A=[aij]∈R2×2 以及随机向量
Z=(Z1,Z2)∼N(0,I) 满足
X=AZ+μ 以及
AAT=Σ, 即
Xi=j∑aijZj+μi, ∀i,以及j∑aijakj=σik, ∀i,k.对
Xi 取期望即得到
E[Xi]=j∑aijE[Zj]+μi=μi,i=1,2.而
Xi 的方差则为
Var(Xi)=Var(j∑aijZj+μi)=j∑aij2Var(Zj)=j∑aij2=σii,i=1,2,其中我们利用了定理
4.2.7 以及式 (
2.5.1).
X1 与
X2 的协方差则为
Cov(X1,X2)=E[(X1−E[X1])(X2−E[X2])]=E[(j∑a1jZj)(k∑a2kZk)]=j,k∑a1ja2kE[ZjZk]=j∑a1ja2j=σ12.证毕.
在搞清了二维正态分布参数的意义后, 我们可以将二维正态分布的密度函数写成另外一种形式: 设 X=(X1,X2) 服从二维正态分布, 令 μi=E[Xi], σi=Var(Xi), ρ 为 X1,X2 的相关系数, 则由[Var(X1)Cov(X2,X1)Cov(X1,X2)Var(X2)]−1=[σ12ρσ1σ2ρσ1σ2σ22]−1=1−ρ21[σ1−2−ρ(σ1σ2)−1−ρ(σ1σ2)−1σ2−2],可得fX(x1,x2)=2πσ1σ21−ρ21exp{−2(1−ρ2)1[(σ1x1−μ1)2 −2ρσ1σ2(x1−μ1)(x2−μ2)+(σ2x2−μ2)2]}.
下面我们考虑二维正态分布的边缘分布.
设 X=(X1,X2) 服从二维正态分布, 则 X1 与 X2 各自均服从一维正态分布.
证明. 为了证明上的简洁, 不妨设 (X1,X2)∼N(0,Σ), 其中 Σ 正定; 一般情形的证明方法是类似的.
记
Ξ=[ξij]=Σ−1, 则
Ξ 也是正定矩阵, 其对角元
ξ22 大于
0.将
xTΞx 展开:
xTΞx=ξ11x12+ξ22x22+2ξ12x1x2=(ξ11−ξ22ξ122)x12+ξ22(x2+ξ22ξ12x1)2,(4.5.2)其中我们对
ξ22x22+2ξ12x1x2 做了配方. 由此得
fX(x) 可表示为
fX(x)=(2π)2detΣ1exp[−21(ξ11−ξ22ξ122)x12]⋅exp[−21ξ22(x2+ξ22ξ12x1)2].将上式对
x2 在实数轴上求积分, 即得到
fX1(x1)=exp[−21(ξ11−ξ22ξ122)x12]⋅∫−∞+∞(2π)2detΣexp[−21ξ22(x2+ξ12x1/ξ22)2]dx2.对上式右端的积分做换元
y=x2+ξ12x1/ξ22 后, 不难看出该积分为一个与
x1 无关的常数, 将这个常数暂记为
c, 则有
fX1(x1)=c⋅exp[−21(ξ11−ξ22ξ122)x12].而由式 (
4.5.2)
可看出
ξ11−ξ122/ξ22>0: 否则可以令
x1=0 以及
x2=−ξ12x1/ξ22, 则此时
x=(x1,x2) 非零且满足
xTΞx≤0, 与
Ξ 是正定矩阵相矛盾.再结合上式给出的
fX1 的表达式, 即可看出
X1 服从某个一维正态分布.同理可得
X2 服从某个一维正态分布.
接下来, 我们证明正态分布的随机变量经过可逆的仿射变换后依然服从正态分布.
设 X=(X1,X2)∼N(μ,Σ), M∈R2×2 为一可逆矩阵, η∈R2, 则随机向量Y=MX+η服从正态分布 N(Mμ+η,MΣMT).
证明. 由引理
4.5.3 可知, 存在可逆矩阵
A∈R2×2 以及随机向量
Z∼N(0,I) 满足
X=AZ+μ 以及
AAT=Σ, 从而有
Y=MAZ+(Mμ+η)=BZ+(Mμ+η),其中我们记
B=MA. 由于
M 与
A 均为可逆矩阵, 因此
B 也可逆. 此外,
BBT=MAATMT=MΣMT.接下来即可利用推论
4.1.10 得到
==fY(y)=fZ(B−1(y−(Mμ+η)))⋅∣detB∣1(2π)21exp(−2(y−(Mμ+η))T(BT)−1B−1(y−(Mμ+η)))⋅det(BBT)1(2π)2det(MΣM)1exp(−2(y−(Mμ+η))T(MΣMT)−1(y−(Mμ+η))),故
Y∼N(Mμ+η,MΣMT).
由定理 4.5.5 与 4.5.6, 还可得到如下推论:
设 X=(X1,X2)∼N(μ,Σ), α=(α1,α2)∈R2 为非零向量, β∈R 为一实数. 令Y=αTX+β=j∑αjXj+β,则 Y∼N(αTμ+β,αTΣα).
证明. 由于
α 非零, 故可以找到一个非零向量
α′=(α1′,α2′) 使得
α 与
α′ 线性无关. 令
M=[α1α1′α2α2′],η=[β0],并令
Z=MX+η, 则
Y 就是随机向量
Z 的第一个分量. 由定理
4.5.6 可知
Z 服从二维正态分布, 再由定理
4.5.5 可得
Y 服从一维正态分布, 该正态分布的参数可通过计算
Y 的期望与方差直接得到, 具体的计算过程交给读者完成.