QR 分解 设 A 是 n 阶可逆方阵, 则存在唯一的分解A = QR 其中 Q 是 n 阶正交方阵, R 是对角元都是正数的上三角矩阵.
证明 : 记
A 的列向量为
A = [ α 1 ⋯ α n ] . 由 Gram-Schmidt 正交化和归一化的过程, 我们得到一个对角元都是正数的上三角矩阵
R 使得
[ α 1 ⋯ α n ] = [ β 1 ⋯ β n ] R 这里
{ β 1 , ⋯ , β n } 是标准正交基. 记
Q = [ β 1 ⋯ β n ] , 则
Q 是正交方阵且
A = QR .
下证唯一性. 假设有 Q 1 R 1 = Q 2 R 2 , 这里 Q 1 , Q 2 是正交阵, R 1 , R 2 是对角元都是正数的上三角矩阵. 则 R 1 R 2 − 1 = Q 1 − 1 Q 2 是正交阵并且是对角元都是正数的上三角矩阵R 1 R 2 − 1 = ⎣ ⎡ a 11 0 ⋯ 0 ∗ a 22 ⋯ ⋯ ⋯ ⋯ ⋯ 0 ∗ ∗ ⋯ a nn ⎦ ⎤ a ii > 0
由列向量的标准正交性易知
R 1 R 2 − 1 只能是对角阵, 且
a ii = 1 . 即
R 1 R 2 − 1 = I n . 由此得
R 1 = R 2 , Q 1 = Q 2 .
QR 分解有很多应用. 比如考虑线性方程组A x = b 这里 A 是可逆矩阵. 我们知道它有唯一解 x = A − 1 b . 在实际应用中计算矩阵的逆 A − 1 通常很复杂. 如果我们有矩阵的 QR 分解 A = QR , 则上述方程等价于R x = Q T b 此时 R 是上三角方阵, 方程很容易求解.
更一般的, QR 分解可以推广到任意长方形矩阵.
设 A 是 m × n 实矩阵, 这里 m ≥ n . 则存在 m 阶正交阵 Q 和 m × n 矩阵 R = [ R 1 0 ] , 其中 R 1 是对角元非负的 n 阶上三角矩阵, 使得A = QR
这也可以通过 Gram-Schmidt 正交化证明, 具体细节留作练习.
最小二乘法 最小二乘法 (Least Squares Method) 是一种优化方法, 用于拟合数据点并找到最佳的拟合曲线. 其基本目标是通过最小化拟合曲线与数据点之间的误差平方和来找到最佳的参数.
例如我们有一组数据 ( t i , y i ) 如图, 希望用一个线性函数 y = a t + b 来拟合这组数据. 即目标是找到 a , b 使得⎣ ⎡ t 1 t 2 ⋮ t n 1 1 ⋮ 1 ⎦ ⎤ [ a b ] = ⎣ ⎡ y 1 y 2 ⋮ y n ⎦ ⎤ 我们把待求的拟合参数记作未知变量 x = [ a b ] , 则上述关系变成求解线性方程组 A x = y .
然而实际上数据不可能严格落在一条直线上, 因此这个线性方程组是没有解的. 退而求其次, 我们可以寻找 x 使得如下的平方误差最小x min ∥ A x − y ∥ 2 或 x min ∥ A x − y ∥ 从而拟合出一条相对比较符合原始数据的直线.
一般地, 给定 m × n 实矩阵 A 和向量 y ∈ R m , 求解x ∈ R n min ∥ A x − y ∥ 这一问题称为最小二乘问题. 这个问题的解 x 称为线性方程组 A x = y 的最小二乘解.
当然如果线性方阵组 A x = y 本身有解的话, 那么它的解自然是最小二乘解. 这个问题的核心是处理线性方阵组 A x = y 没有解的情况. 从几何上看, 矩阵 A 定义了一个线性映射A : R n → R m 令 W ⊂ R m 是这个映射的象, 即所有形如 A x 的向量构成的集合. W 是 R m 的一个线性子空间. 由命题 5.2.12 我们知道x ∈ R n min ∥ A x − y ∥ = ∥ y − p W ( y ) ∥ 这里 p W ( y ) 是 y 向 W 的正交投影. 因此最小二乘问题的解即为线性方程组A x = p W ( y ) 的解. 由 p W ( y ) ∈ W , 这个线性方程组的解存在, 其通解的自由参数个数是 n − rank A .
x 是线性方程组 A x = y 的最小二乘解当且仅当A T A x = A T y
证明 : 对任意的向量
z ∈ R n , c ∈ R m , 我们有
⟨ A z , c ⟩ = ( A z ) T c = z T A T c 故
c ∈ W ⊥ 当且仅当
⟨ A z , c ⟩ = z T A T c = 0 对所有
z 成立, 即等价于
A T c = 0 .
x 是最小二乘解当且仅当 A x = p W ( y ) , 即A x − y ∈ W ⊥ 由上述讨论这等价于A T ( A x − y ) = 0 即 A T A x = A T y □
我们也可以通过微积分的方法来证明这个结论. 考虑 n 个变量的函数f ( x ) = ∥ A x − y ∥ 2 最小二乘解即为函数 f 的最小值. 另一方面, f ( x ) = ( A x − y ) T ( A x − y ) = x T A T A x − 2 x T A T y + y T y
由于 A T A 半正定, 这是一个凸函数, 最小值即为 f 的极值. 求解极值方程∂ x i ∂ f = 0 即得 A T A x = A T y
由上述命题, 我们可以得到如下求解最小二乘问题的算法. 不妨设 A 的列向量是线性无关的, 此时最小二乘法的解是唯一的. 设 A 的 QR 分解为A = QR = Q [ R 1 0 ] = [ Q 1 Q 2 ] [ R 1 0 ] 由假设, R 1 是可逆 n 阶上三角矩阵. 代入最小二乘解的方程 A T A x = A T y , 我们得到R 1 T R 1 x = [ R 1 T 0 ] [ Q 1 T Q 2 T ] y = R 1 T Q 1 T y 即R 1 x = Q 1 T y 由于 R 1 是上三角方阵, 这个方程组很容易求解.
广义逆 矩阵的广义逆是一种对矩阵的 “逆” 这个概念的推广. 广义逆在矩阵不可逆或者矩阵不是方阵的情况下, 提供了一种类似逆矩阵的替代方法, 广泛应用于求解线性方程组.
设 A 是 m × n 矩阵. 如果 n × m 矩阵 X 满足A X A = A 则称 X 为 A 的一个广义逆.
矩阵的广义逆总是存在的, 而且并不唯一. 我们用符号 A − 来表示 A 的一个广义逆. 我们考虑实矩阵的情况. 对 A 作奇异值分解A = U Σ V T 这里 U 是 m 阶正交阵, V 是 n 阶正交阵. 则( U Σ V T ) X ( U Σ V T ) = U Σ V T 即 Σ V T X U Σ = Σ
代入 Σ = [ Σ r 0 0 0 ] , 这里 Σ r = diag ( σ 1 , ⋯ , σ r ) [ Σ r 0 0 0 ] V T X U [ Σ r 0 0 0 ] = [ Σ r 0 0 0 ] 得到 X 的通解为V T X U = [ Σ r − 1 ∗ ∗ ] 即 X = V [ Σ r − 1 ∗ ∗ ] U T
因此对于 m × n 矩阵A = U [ Σ r 0 0 0 ] V T 它的广义逆的一般形式为 m × n 矩阵A − = V [ Σ r − 1 ∗ ∗ ] U T 这里 ∗ 是任意数. 这里面有一个特别的广义逆V [ Σ r − 1 0 0 0 ] U T 称为 Moore–Penrose 逆. 我们将在 Moore–Penrose 逆 详细讨论 Moore–Penrose 逆的刻画和性质.
线性方程组 A x = b 有解的充分必要条件是b = A A − b 这里 A − 是 A 的任意一个广义逆. 此时 A − b 是方程的一个特解.
证明 : 假设
x 0 是线性方程组
A x = b 的解, 则
b = A x 0 = A A − A x 0 = A A − b 反之, 假设
b = A A − b 成立. 令
x 0 = A − b , 则
A x 0 = A A − b = b 成立 我们知道, 对于 n 阶可逆方阵 A , 线性方阵组 A x = b 具有唯一解x = A − 1 b 对于一般的 m × n 矩阵 A , 广义逆给出了类似的公式: 假设方阵组 A x = b 有解, 则 x = A − b 给出了一个具体的解.
A 是 m × n 矩阵, A − 是 A 的某个取定的广义逆. 则齐次线性方程组 A x = 0 的通解为x = ( I n − A − A ) z 这里 z 是任意 n 维列向量. 特别地, 如果线性方程组 A x = b 有解, 则它的通解为x = A − b + ( I n − A − A ) z
证明 : 由A ( I n − A − A ) z = ( A − A A − A ) z = 0 知对任意 z , ( I n − A − A ) z 是齐次方程组的解.
设
x 0 是齐次线性方程组
A x = 0 的任意一个解, 即
A x 0 = 0 . 取
z = x 0 , 则
x 0 = ( I n − A − A ) x 0 = ( I n − A − A ) z 即
x 0 可以表达为命题要求形式.
如果线性方程组 A x = b 无解, 我们可以考虑它的最小二乘问题. 设 A 的奇异值分解A = U [ Σ r 0 0 0 ] V T 我们考虑一个特殊的广义逆 (即 Moore–Penrose 逆) A − = V [ Σ r − 1 0 0 0 ] U T
这个广义逆满足A T A A − = = V [ Σ r 0 0 0 ] U T U [ Σ r 0 0 0 ] V T V [ Σ r − 1 0 0 0 ] U T V [ Σ r 0 0 0 ] U T = A T 即 A T ( I m − A A − ) = 0 . 考虑 x 0 = A − b . 对任意向量 y ∈ R n ⟨ A y , b − A x 0 ⟩ = y T A T ( I m − A A − ) b = 0 因此 A x 0 即为 b 向 A 的像的投影. 故 x 0 = A − b 给出了一个最小二乘解. 在 Moore–Penrose 逆 节中, 我们将说明在复线性空间中也有类似的结论.
矩阵的谱范数 设 A 是 m × n 实矩阵, 其谱范数 ∥ A ∥ 定义为:
∥ A ∥ = x = 0 max ∥ x ∥ ∥ A x ∥ = ∥ x ∥ = 1 max ∥ A x ∥ 其中, ∥ A x ∥ 是 R m 中向量 A x 的欧几里得范数, ∥ x ∥ 是 R n 中向量 x 的欧几里得范数.
矩阵的谱范数满足如下基本性质:
1.
非负性 : ∥ A ∥ ≥ 0 , 且 ∥ A ∥ = 0 ⟺ A = 0
2.
齐次性 : 对任意 α ∈ R , ∥ α A ∥ = ∣ α ∣∥ A ∥
3.
三角不等式 : ∥ A + B ∥ ≤ ∥ A ∥ + ∥ B ∥
4.
乘积性质: ∥ A B ∥ ≤ ∥ A ∥∥ B ∥
5.
若 U , V 是正交方阵, 则 ∥ U A V T ∥ = ∥ A ∥
证明 : 我们证明最后一条性质, 其他留作练习. 由于正交方阵保持欧几里得范数, 我们有
∥ U A V T ∥ = x = 0 max ∥ x ∥ ∥ U A V T x ∥ = x = 0 max ∥ V T x ∥ ∥ A V T x ∥ = y = V T x y = 0 max ∥ y ∥ ∥ A y ∥ = ∥ A ∥ 证明 : 设
A 的奇异值分解为
A = U Σ V T , 则
∥ A ∥ = ∥Σ∥ . 由
Σ = ⎣ ⎡ ⎣ ⎡ σ 1 0 ⋯ 0 0 σ 2 ⋯ ⋯ ⋯ ⋯ ⋯ 0 0 0 ⋯ σ r ⎦ ⎤ 0 0 0 ⎦ ⎤ 得知
∥Σ∥ = x = 0 max ∥ x ∥ ∥ A x ∥ = x = 0 max x 1 2 + ⋯ + x n 2 σ 1 2 x 1 2 + ⋯ + σ r 2 x r 2 = 1 ≤ i ≤ r max σ i 这个命题给出了最大奇异值的几何解释, 即线性映射A : R n → R m 把向量长度伸缩最大的倍数. 我们下面说明, 其他奇异值均有类似的几何解释.
考虑一个 n 阶实对称方阵 S . 由命题 5.4.5 , 存在一组标准正交基 β 1 , ⋯ , β n 使得每个 β i 都是 S 的特征向量. 不妨设其对应的特征值 λ 1 ≥ λ 2 ≥ ⋯ ≥ λ n .
对任意向量 x ∈ R n , 在这组基下的线性表达为x = c 1 β 1 + ⋯ + c n β n 由此可得x T x x T S x = c 1 2 + ⋯ + c n 2 λ 1 c 1 2 + ⋯ + λ n c n 2
易知λ 1 = x = 0 max x T x x T S x 类似的, 我们有λ i = x = 0 x ∈ Span { β i , ⋯ , β n } max x T x x T S x = x = 0 x ∈ Span { β 1 , ⋯ , β i − 1 } ⊥ max x T x x T S x
设 A 是 m × n 实矩阵. 我们把上述例子中的方法应用到半正定实对称方阵 S = A T A . 设 A 的奇异值为 σ 1 ≥ σ 2 ≥ ⋯ ≥ σ r > 0 , 即 A T A 的非零特征值为 σ 1 2 ≥ σ 2 2 ≥ ⋯ ≥ σ r 2 . 设 β 1 , ⋯ , β r 是 R n 的标准正交基并且构成 A T A 的特征向量A T A β i = { σ i 2 β i 0 1 ≤ i ≤ r i > r
则我们有σ 1 = x = 0 max x T x x T A T A x = x = 0 max ∥ x ∥ ∥ A x ∥ 并且 β 1 达到这个最大值σ 1 = ∥ β 1 ∥ ∥ A β 1 ∥
然后考虑 β 1 的正交补空间, 得到次大的奇异值σ 2 = x = 0 x ∈ Span { β 1 } ⊥ max x T x x T A T A x = x = 0 x ∈ Span { β 1 } ⊥ max ∥ x ∥ ∥ A x ∥ 这样我们依次得到第 i 个奇异值的几何解释σ i = x = 0 x ∈ Span { β 1 , ⋯ , β i − 1 } ⊥ max ∥ x ∥ ∥ A x ∥
图 1. 蓝色和绿色表示奇异值方向, 黑色表示特征值方向
矩阵极限 矩阵的谱范数给出了一个描述矩阵之间 “距离” 的方法.
我们称一组 m × n 矩阵 A k 收敛于 m × n 矩阵 B , 如果k → ∞ lim ∥ A k − B ∥ = 0 此时我们记k → ∞ lim A k = B
设 A = ( a ij ) 是 m × n 实矩阵. 则i , j max ∣ a ij ∣ ≤ ∥ A ∥ ≤ i , j ∑ ∣ a ij ∣
证明 : 设
A = ⎣ ⎡ u 1 T ⋮ u m T ⎦ ⎤ 这里 u k = ⎣ ⎡ a k 1 ⋮ a kn ⎦ ⎤ ∈ R n 对任意 x ∈ R n 且 ∥ x ∥ = 1 , 我们有A x = ⎣ ⎡ u 1 T ⋅ x ⋮ u m T ⋅ x ⎦ ⎤ = ⎣ ⎡ ⟨ u 1 , x ⟩ ⋮ ⟨ u m , x ⟩ ⎦ ⎤ 由 Cauchy–Schwarz 不等式, ∥ A x ∥ ≤ i ∑ ∣ ⟨ u i , x ⟩ ∣ ≤ i ∑ ∥ u i ∥∥ x ∥ = i ∑ ∥ u i ∥ ≤ i ∑ j ∑ ∣ a ij ∣
另一方面, 考虑
R n 中的标准基
e j . 由
A e j = ⎣ ⎡ a 1 j ⋮ a nj ⎦ ⎤ 因此对任意指标
i , j ∥ A ∥ ≥ ∥ A e j ∥ ≥ ∣ a ij ∣ 命题得证.
这个命题说明, 矩阵极限成立k → ∞ lim A k = B 当且仅当 A k 的每个矩阵元都收敛到 B 中对应的矩阵元.
作为一个应用, 我们考虑 n 阶实方阵 A . 由矩阵范数的乘积性质, 我们有∥ ∥ n ! A n ∥ ∥ ≤ n ! ∥ A ∥ n 由于级数n = 0 ∑ ∞ n ! ∥ A ∥ n = e ∥ A ∥ 收敛, 上述谱范数的估计可以证明矩阵级数N → ∞ lim k = 0 ∑ N k ! A k 收敛. 我们把这个极限矩阵方便地记为 e A e A := k = 0 ∑ ∞ k ! A k
并且
∥ e A ∥ = ∥ ∥ k = 0 ∑ ∞ k ! A k ∥ ∥ ≤ k = 0 ∑ ∞ ∥ ∥ k ! A k ∥ ∥ ≤ k = 0 ∑ ∞ k ! ∥ A ∥ k = e ∥ A ∥ 由如上级数公式容易证明, e A 是可逆矩阵, 并且它的逆是 e − A . 即e A e − A = I n 指数矩阵 e A 具有和指数函数 e x 非常类似的性质.
设 A , B 是两个相互交换的 n 阶方阵, 即满足 A B = B A . 则e A e B = e A + B
证明 :
e A + B = A B = B A = 利用 = = n = 0 ∑ ∞ n ! ( A + B ) n n = 0 ∑ ∞ n ! 1 k = 0 ∑ n ( k n ) A k B n − k n = 0 ∑ ∞ k + m = n ∑ k ! m ! A k B m ( k = 0 ∑ ∞ k ! A k ) ( m = 0 ∑ ∞ m ! B m ) = e A e B 两个方阵如果不交换, A B = B A , 则有如下的 Baker-Campbell-Hausdorff 公式e A ⋅ e B = e A + B + 2 1 [ A , B ] + 12 1 [ A , [ A , B ]] − 12 1 [ B , [ A , B ]] + ⋯
微分方程中的应用 现在我们引入一个变量 t , 考虑随 t 变化的矩阵e t A = k = 0 ∑ ∞ k ! t k A k 对矩阵等式d t d ( k ! t k A k ) = ( k − 1 )! t k − 1 A k . 求和, 可以得到
d t d e t A = A e t A
对任意向量 y 0 ∈ R n , 考虑如下向量函数y ( t ) = e t A y 0 由上述讨论知d t d y = A e t A y 0 = A y 并且在 t = 0 时有 y ( 0 ) = y 0 . 因此 y ( t ) = e t A y 0 给出了如下齐次线性常微分初值问题的解{ d t d y = A y y ( 0 ) = y 0
进一步, 我们可以考虑非齐次线性常微分方程组{ d t d y = A y + b ( t ) y ( 0 ) = y 0 这里 b ( t ) = ⎣ ⎡ b 1 ( t ) ⋮ b n ( t ) ⎦ ⎤ 是随时间变化的向量. 上述方程等价于d t d ( e − t A y ) = e − t A b ( t ) 两边积分, 我们得到e − t A y − y 0 = ∫ 0 t e − s A b ( s ) d s
因此y = e t A y 0 + ∫ 0 t e ( t − s ) A b ( s ) d s 给出了非齐次线性常微分方程组{ d t d y = A y + b ( t ) y ( 0 ) = y 0 的解.