相似与对角化 两个 n 阶方阵 A 与 B 称为是相似的, 如果存在 n 阶可逆方阵 P 使得A = PB P − 1
容易验证, 相似关系构成一个等价关系, 即满足
•
自反性: A 与 A 相似
•
对称性: 若 A 与 B 相似, 则 B 与 A 相似
•
传递性: 若 A 与 B 相似, B 与 C 相似, 则 A 与 C 相似
如果 A 与 B 相似, f ( x ) 是任意一个多项式. 则 f ( A ) 与 f ( B ) 相似.
证明: 设
A = PB P − 1 . 则对任意正整数
m A m = ( PB P − 1 ) ( PB P − 1 ) ⋯ ( PB P − 1 ) = P B m P − 1 由此易知
f ( A ) = P f ( B ) P − 1 .
如果 A 与 B 相似, 则它们具有相同的特征多项式. 特别地, 我们有Tr A = Tr B det A = det B
证明: 设
A = PB P − 1 . 则
det ( λ I − A ) = = = det ( λ I − PB P − 1 ) = det ( P ( λ I − B ) P − 1 ) det ( P ) det ( λ I − B ) det ( P − 1 ) det ( λ I − B ) n 阶方阵 A 称为可对角化, 如果 A 相似于一个对角阵 diag ( λ 1 , ⋯ , λ n ) . 这里diag ( λ 1 , ⋯ , λ n ) := ⎣ ⎡ λ 1 0 ⋯ 0 0 λ 2 ⋯ ⋯ ⋯ ⋯ ⋯ 0 0 0 ⋯ λ n ⎦ ⎤
如果 A 相似于 diag ( λ 1 , ⋯ , λ n ) , 则 A 的特征多项式和这个对角阵相同φ ( λ ) = ( λ − λ 1 ) ( λ − λ 2 ) ⋯ ( λ − λ n ) 因此这个对角阵的元素即为 A 的特征值.
假设 A 可对角化, A = P diag ( λ 1 , ⋯ , λ n ) P − 1 , 即A P = P diag ( λ 1 , ⋯ , λ n ) 记 P 的列向量为 { β 1 , ⋯ , β n } P = [ β 1 β 2 ⋯ β n ] 由 P 可逆知 rank P = n , 因此 { β 1 , ⋯ , β n } 构成一组基.
等式 A = P diag ( λ 1 , ⋯ , λ n ) P − 1 可以写成A [ β 1 β 2 ⋯ β n ] = [ β 1 β 2 ⋯ β n ] ⎣ ⎡ λ 1 0 ⋯ 0 0 λ 2 ⋯ ⋯ ⋯ ⋯ ⋯ 0 0 0 0 λ n ⎦ ⎤ 即A β i = λ i β i , i = 1 , ⋯ , n 这说明 β i 是属于 λ i 的特征向量. 由上述讨论, 我们证明了如下结论
n 阶方阵 A 可对角化当且仅当存在一组基 { β 1 , ⋯ , β n } 使得每个 β i 都是 A 的特征向量.
在这个情况下, 我们把任意向量 x 通过基 { β 1 , ⋯ , β n } 来线性表达: x = i ∑ c i β i . 则矩阵 A 乘在向量 x 上很容易计算出A x = i ∑ c i λ i β i
并不是每个方阵都可以对角化, 例如A = ⎣ ⎡ λ 0 0 ⋯ 0 0 1 λ 0 ⋯ 0 0 0 1 ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ λ 0 0 0 0 ⋯ 1 λ 0 ⎦ ⎤ A 的特征值只有 λ 0 , 我们考虑它的特征向量. 齐次线性方程组( λ 0 I n − A ) x = 0 ⟺ ⎣ ⎡ 0 0 ⋯ 0 0 − 1 0 ⋯ 0 0 0 − 1 ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 0 0 0 0 ⋯ − 1 0 ⎦ ⎤ ⎣ ⎡ x 1 x 2 ⋮ x n − 1 x n ⎦ ⎤ = 0 的解为 x 1 = c , x 2 = x 3 = ⋯ = x n = 0 . 因此 λ 0 的特征向量只有一个线性无关的元素, 它不可能构成 n 维空间 (n > 1 ) 的一组基. 这说明方阵 A 不可对角化.
如果数域 k 上 n 阶方阵 A 具有 n 个互不相同的特征值在 k 中, 则 A 可以对角化.
证明 : 设
A 的特征值为
λ 1 , ⋯ , λ n . 由假设这些特征值互不相同. 设
β i 是属于
λ i 的一个特征向量. 我们下面证明
{ β 1 , ⋯ , β n } 线性无关. 由此知
{ β 1 , ⋯ , β n } 构成
n 维空间的一组基, 因此
A 可对角化.
假设有系数 c 1 , ⋯ , c n 使得c 1 β 1 + c 2 β 2 + ⋯ + c n β n = 0 两边依次乘以 A , A 2 , ⋯ , A n − 1 , 我们得到⎩ ⎨ ⎧ c 1 β 1 + c 2 β 2 + ⋯ + c n β n = 0 λ 1 c 1 β 1 + λ 2 c 2 β 2 + ⋯ + λ n c n β n = 0 ⋯⋯ λ 1 n − 1 c 1 β 1 + λ 2 n − 1 c 2 β 2 + ⋯ + λ n n − 1 c n β n = 0
我们可以把这组方程写成矩阵的形式[ c 1 β 1 c 2 β 2 ⋯ c n β n ] ⎣ ⎡ 1 1 ⋯ 1 λ 1 λ 2 ⋯ λ n λ 1 2 λ 2 2 ⋯ λ n 2 ⋯ ⋯ ⋯ ⋯ λ 1 n − 1 λ 2 n − 1 ⋯ λ n n − 1 ⎦ ⎤ = 0 记 P = [ c 1 β 1 c 2 β 2 ⋯ c n β n ] , Q = ⎣ ⎡ 1 1 ⋯ 1 λ 1 λ 2 ⋯ λ n λ 1 2 λ 2 2 ⋯ λ n 2 ⋯ ⋯ ⋯ ⋯ λ 1 n − 1 λ 2 n − 1 ⋯ λ n n − 1 ⎦ ⎤ , 则上式为PQ = 0
由 Vandermonde 行列式
det Q = i > j ∏ ( λ i − λ j ) = 0 故
Q 可逆. 因此
PQ = 0 ⟹ P = 0 , 即
P 的每列
c i β i = 0 . 由于
β i 都是非零向量, 我们得出
c i = 0 , i = 1 , ⋯ , n . 这证明了
{ β 1 , ⋯ , β n } 是线性无关的向量.
设 A = ⎣ ⎡ 2 0 0 1 3 1 0 0 1 ⎦ ⎤ , 计算 A 100 .
我们首先计算 A 的特征多项式
∣ ∣ λ − 2 0 0 − 1 λ − 3 − 1 0 0 λ − 1 ∣ ∣ = ( λ − 2 ) ( λ − 3 ) ( λ − 1 ) A 有 3 个不同的特征值 2 , 3 , 1 , 因此可对角化.
我们计算特征值 λ 1 = 2 , λ 2 = 3 , λ 3 = 1 对应的特征向量 β 1 , β 2 , β 3 ( λ 1 − A ) β 1 = ⎣ ⎡ 0 0 0 − 1 − 1 − 1 0 0 1 ⎦ ⎤ β 1 = 0 ( λ 2 − A ) β 2 = ⎣ ⎡ 1 0 0 − 1 0 − 1 0 0 2 ⎦ ⎤ β 2 = 0 ( λ 3 − A ) β 3 = ⎣ ⎡ − 1 0 0 − 1 − 2 − 1 0 0 0 ⎦ ⎤ β 3 = 0 取 β 1 = ⎣ ⎡ 1 0 0 ⎦ ⎤ 取 β 2 = ⎣ ⎡ 2 2 1 ⎦ ⎤ 取 β 3 = ⎣ ⎡ 0 0 1 ⎦ ⎤
记矩阵P = [ β 1 β 2 β 3 ] = ⎣ ⎡ 1 0 0 2 2 1 0 0 1 ⎦ ⎤ 容易计算P − 1 = ⎣ ⎡ 1 0 0 − 1 1/2 − 1/2 0 0 1 ⎦ ⎤
我们得到相似变化 A = P ⎣ ⎡ 2 0 0 0 3 0 0 0 1 ⎦ ⎤ P − 1 . 因此A 100 = = = P ⎣ ⎡ 2 0 0 0 3 0 0 0 1 ⎦ ⎤ 100 P − 1 = P ⎣ ⎡ 2 100 0 0 0 3 100 0 0 0 1 ⎦ ⎤ P − 1 ⎣ ⎡ 1 0 0 2 2 1 0 0 1 ⎦ ⎤ ⎣ ⎡ 2 100 0 0 0 3 100 0 0 0 1 ⎦ ⎤ ⎣ ⎡ 1 0 0 − 1 1/2 − 1/2 0 0 1 ⎦ ⎤ ⎣ ⎡ 2 100 0 0 3 100 − 2 100 3 100 ( 3 100 − 1 ) /2 0 0 1 ⎦ ⎤
相似变换的几何含义 设 f : k n → k n 是一个线性映射. 我们知道可以把 f 对应于一个 n 阶方阵 A . 具体而言, 取 k n 的标准基 { e 1 , ⋯ , e n } , 计算f ( e j ) = i ∑ a ij e i 则 A = ( a ij ) . 实际上, 除了标准基, 我们也可以取另外一组基作类似的构造.
设 f : k n → k n 是一个线性映射. 给定 k n 的一组基 { α 1 , ⋯ , α n } , 设f ( α j ) = i ∑ a ij α i 则方阵 A = ( a ij ) 称为 f 在这组基 { α 1 , ⋯ , α n } 下的表示矩阵.
我们把 f 在基 { α 1 , ⋯ , α n } 下的表示矩阵写成矩阵关系[ f ( α 1 ) f ( α 2 ) ⋯ f ( α n ) ] = [ α 1 α 2 ⋯ α n ] ⎣ ⎡ a 11 a 21 ⋯ a n 1 a 12 a 22 ⋯ a n 2 ⋯ ⋯ ⋯ ⋯ a 1 n a 2 n ⋯ a nn ⎦ ⎤
如果我们取 k n 中两组不同的基 { α 1 , ⋯ , α n } 和 { β 1 , ⋯ , β n } . 设 f 在基 { α 1 , ⋯ , α n } 下的表示矩阵为 A , 在基 { β 1 , ⋯ , β n } 下的表示矩阵为 B . 那么矩阵 A 和 B 是什么关系?
由于 { α 1 , ⋯ , α n } 是一组基, 我们可以把向量 β j 在这组基下作线性展开β j = i ∑ p ij α i 写成矩阵的形式[ β 1 β 2 ⋯ β n ] = [ α 1 α 2 ⋯ α n ] ⎣ ⎡ p 11 p 21 ⋯ p n 1 p 12 p 22 ⋯ p n 2 ⋯ ⋯ ⋯ ⋯ p 1 n p 2 n ⋯ p nn ⎦ ⎤ 这个 n 阶方阵 P = ( p ij ) 称为从基 { α 1 , ⋯ , α n } 到基 { β 1 , ⋯ , β n } 的过渡矩阵.
一组基 { α 1 , ⋯ , α n } 到另一组基 { β 1 , ⋯ , β n } 的过渡矩阵 P 是可逆矩阵, 且 P − 1 是基 { β 1 , ⋯ , β n } 到基 { α 1 , ⋯ , α n } 的过渡矩阵.
证明 : 设
{ α 1 , ⋯ , α n } 到基
{ α 1 , ⋯ , α n } 的过渡矩阵为
Q . 则
[ β 1 β 2 ⋯ β n ] = [ α 1 α 2 ⋯ α n ] P [ α 1 α 2 ⋯ α n ] = [ β 1 β 2 ⋯ β n ] Q 把两个等式复合, 我们得到
[ α 1 α 2 ⋯ α n ] = [ α 1 α 2 ⋯ α n ] PQ 即
[ α 1 α 2 ⋯ α n ] ( I n − PQ ) = 0 由
{ α i } 的线性无关性, 我们得到
PQ = I n .
设线性映射 f : k n → k n 在基 { α 1 , ⋯ , α n } 下的表示矩阵为 A , 在基 { β 1 , ⋯ , β n } 下的表示矩阵为 B . 设基 { α 1 , ⋯ , α n } 到基 { β 1 , ⋯ , β n } 的过渡矩阵为 P . 则A = PB P − 1
证明 : 过渡矩阵关系为
[ β 1 β 2 ⋯ β n ] = [ α 1 α 2 ⋯ α n ] P 由于 f 是线性映射, 两边作用映射 f 给出[ f ( β 1 ) f ( β 2 ) ⋯ f ( β n ) ] = [ f ( α 1 ) f ( α 2 ) ⋯ f ( α n ) ] P 代入 f 在基下表示矩阵的关系[ f ( α 1 ) f ( α 2 ) ⋯ f ( α n ) ] = [ f ( β 1 ) f ( β 2 ) ⋯ f ( β n ) ] = [ α 1 α 2 ⋯ α n ] A [ β 1 β 2 ⋯ β n ] B 我们得到[ β 1 β 2 ⋯ β n ] B = [ α 1 α 2 ⋯ α n ] A P
再次代入过渡矩阵关系, 上述等式变为
[ α 1 α 2 ⋯ α n ] PB = [ α 1 α 2 ⋯ α n ] A P 即
[ α 1 α 2 ⋯ α n ] ( PB − A P ) = 0 由
{ α i } 的线性无关性, 我们得到
PB = A P .
这个命题给出了相似变换的几何含义: 相似变换是同一个线性映射 f : k n → k n 在不同基下表示矩阵之间的变换.