给定函数 f:Ω→R, 我们上次课定义它的微分 df(x). 当 x 给定的时候, 这是一个 Rn 上的线性函数. 仿照一维的理论, 对一阶导数求导就应该得到二阶导数. 然而, 此时为了定义 f 的二阶导数, 我们就需要对 x↦df(x) 求微分. 此时, (不严格地讲) 映射 f:x↦df(x) 是一个从 Ω 到 Hom(Rn,R)≃Rn 的映射, 这是向量值的函数. 所以, 我们自然地想到对向量值的函数 f:Ω→Rm 定义微分. 当然, 我们还可以考虑 df(x) 的每个分量 (依赖于坐标系的选取) 然后要求每个分量都可微, 至少从形式上看, 后一种做法失于简洁和美观.
假设 Ω 是 Rn 中的区域, Ω′ 是 Rm 中的区域, 给定映射 f:Ω→Ω′. 如果存在线性映射df∣∣x=x0=df(x0):Rn→Rm,使得对于 Rn 中的 v→0 时, 我们有f(x0+v)=f(x0)+df(x0)v+o(v),即v→0lim∣v∣∣f(x0+v)−f(x0)−df(x0)v∣=0,我们就称 f 在 x0 处可微并且称线性映射 df(x0) 是 f 在 x0 的微分. 如果 f 在 Ω 的每个点处都可微, 我们就称 f 是 Ω 上面的可微映射.
1. | 在上述微分的定义中, 我们完全没有用到 Rn 和 Rm 上的坐标系. 实际上, 在下面的极限中v→0lim∣v∣∣f(用到 Rn 上的加法结构x0+v)−f(x0)−df(x0)v用到 Rm 上的加法结构∣=0,我们只用到了 Rn 和 Rm 上的线性结构和它们上面的范数 (我们分别用了蓝色和红色表示, 其中红色的是定义域 Rn 上的范数, 蓝色的是值域 Rm 上的范数) . 据此, 我们可以将上述定义进行推广: 给定赋范线性空间 (V1,∥⋅∥1) 和 (V2,∥⋅∥2), Ω1⊂V1 和 Ω2⊂V2 是非空的开集, f:Ω1→Ω2 是映射. 如果存在线性映射df∣∣x=x0=df(x0):V1→V2,使得对于 V1 中的 v→0 时, 我们有v→0lim∥v∥1∥f(x0+v)−f(x0)−df(x0)v∥2=0,我们就称 f 在 x0 处可微并且称线性映射 df(x0) 是 f 在 x0 的微分. |
2. | 假设 f 在 Ω 上可微. 那么, 给定 x∈Ω, df(x)∈Hom(Rn,Rm)≈Rmn (可以视作是 m×n 的矩阵, 这里我们用坐标比较方便) 也在一个向量空间中取值的. (然而, 如果在一般的 (无限维的) 的赋范线性空间上定义微分, 我们会要求 df(x)∈Hom(V,W) 是所谓的连续线性映射, 这里不展开讨论, 有兴趣的同学可以在泛函分析的课程上学习) . 所以, 当 x 变化的时候, 我们就得到一个映射Ω→Rnm, x↦df(x).我们可以对它求导数来定义它的微分. 高阶的微分不是这门课程的重点. |
3. | 假设 f 在 x0∈Ω 处可微分, 我们就有映射df(x0):Rn→Rm.由于这些映射依赖于点, 特别地, 依赖于 x0∈Ω (和 f(x0)∈Ω′) , 我们用 Tx0Ω 代表它的定义域的线性空间 Rn, 用 Tf(x0)Ω′ 代表它的值域的线性空间 Rm, 这样子, 我们形式上就有df(x0):Tx0Ω→Tf(x0)Ω′.符号 Tx0Ω 代表的是 Ω 在 x0 处的切空间 (=切平面) , Tf(x0)Ω′ 代表的是 Ω′ 在 f(x0) 处的切空间, 我们会有专门的例子来理解这个对象, 目前大家可以暂时将它们理解为好的记号. |
我们上次课定义了方向导数和偏导数, 这都是一维的对象. 下面的命题表明, 我们可以用偏导数这些一维的对象来描述 df(x0) 这个高维的对象:
假设 V=Rn 和 W=Rm, 我们在 V 上用坐标系 {xi}i=1,⋯,n, 在 W 上用坐标系 {yj}j=1,⋯,m (把空间写成 V 和 W 是强调这些空间可以不用具体的坐标来描述) . 考虑 f:V→W (我们也可以考虑 f 定义在 V 中某个区域上) , 用坐标来写, 我们有: x↦f(x)=(f1(x1,⋯,xn),f2(x1,⋯,xn),⋯,fm(x1,⋯,xn)).有时候还写成y1=f1(x1,⋯,xn), y2=f2(x1,⋯,xn),⋯,ym=fm(x1,⋯,xn).那么, 我们有
1. | 假设 f 在 x0 处可微, 那么每个分量函数 fj 在 x0 处都可微, 其中 j=1,2,⋯,m. |
2. | 如果每个分量函数 fj 在 x0 处都可微 (其中 j=1,2,⋯,m) , 那么 f 在 x0 处可微. |
特别地, 如果 f 在 x0 处可微, 那么映射 df(x0):Rn→Rm 可以用 m×n 的矩阵(∂xi∂fj(x0))j=1,⋯,mi=1,⋯,n来表示 (我们将这个矩阵称作是 f 在 x 处的 Jacobi 矩阵, 并记作 Jac(f) 或者 J(f), 它只是微分在一个特殊的坐标系下的表达) .
证明. 我们首先证明, f 在 x0 可微等价于每个分量 fj (j=1,⋯,m) 都可微. 假设 f 在 x0 处可微, 此时 df:Rn→Rm 有定义并且是线性映射. 由于我们在 Rn 上选定了基 {∂xi∂}i⩽n, 在 Rm 上选定了基 {∂yj∂}j⩽m, 我们可以把这个线性映射用矩阵 (Jji)j⩽mi⩽n, 来表示.
首先, 用分量表达, 我们有∣v∣∣f(x0+v)−f(x0)−df(x0)v∣=∣v∣∣∣(⋯,fj(x0+v)−fj(x0),⋯)−(⋯,∑i=1nJjivi,⋯)∣∣=∣v∣j=1∑m∣∣fj(x0+v)−fj(x0)−i=1∑nJjivi∣∣2.
由于当 v→0 时, 上述左边为 o(1), 所以, 限制到每个分量, 我们就有o(1)⩾∣v∣∣∣fj(x0+v)−fj(x0)−i=1∑nJjivi∣∣.按定义, 这表明 fj 是可微分的 (因为我们用线性映射在 x0 附近逼近了 fj) . 反过来, 假设对每个 j⩽m, 我们都有∣v∣∣∣fj(x0+v)−fj(x0)−i=1∑nJjivi∣∣=o(1),那么, ∣v∣∣f(x0+v)−f(x0)−df(x0)v∣=∣v∣j=1∑m∣∣fj(x0+v)−fj(x0)−i=1∑nJjivi∣∣2⩽j=1∑m∣v∣∣∣fj(x0+v)−fj(x0)−i=1∑nJjivi∣∣=m×o(1)=o(1),
所以 df(x0) 存在.
我们令
v=t∂xi0∂, 即
vi0=t 而其它分量
=0. 此时, 根据微分的定义, 上面的式子的左边是
o(1) 项 (
t→0) . 计算右边, 我们得到
o(1)=tj=1∑m∣∣fj(x0+(0,⋯,0,t,0⋯,0)只有第i0个位置非0)−fj(x0)−Jji0t∣∣2.对于一个特定的指标
j0, 我们自然有
⩾j=1∑m∣∣fj(x0+(0,⋯,0,t,0⋯,0))−fj(x0)−Jji0t∣∣2∣∣fj0(x0+(0,⋯,0,t,0⋯,0))−fj0(x0)−Jj0i0t∣∣.所以,
o(1)=t∣∣fj0(x0+(0,⋯,0,t,0⋯,0))−fj0(x0)−Jj0i0t∣∣.按照定义, 这表明
fj0 的沿着
xi0 偏导数存在并且等于
Jj0i0, 这表明
Jji=∂xi∂fj(x0).命题得证.
上述命题表明, 映射可求微分等价于其分量可求微分, 所以, 我们可以通过继续对分量求微分来引入 k-次可导的概念 (就是每次求完微分之后这个微分的每个分量都能再求微分) . 所以, 我们可以定义 Ck(Ω,Rm), 这是 k 次微分仍然连续的映射的空间. 根据上次课程用偏导数判定微分存在性的定理, 我们知道只要 f 的连续 k 次偏导数 (可能是沿着不同方向的) 存在并且连续, 那么映射就是 Ck 的. 这是一个非常方便有效的判断方式.
我们现在研究符合映射的微分, 也就是所谓的链式法则.
假设 Ωj⊂Rmj 是开集, 其中 j=1,2,3, f:Ω1→Ω2, g:Ω2→Ω3 是映射. 假设 f 在点 x1∈Ω1 处可微, g 在点 x2=f(x1)∈Ω2 处可微, 那么复合映射 g∘f 在 x1 处可微, 并且(d(g∘f))(x1)=(dg)(f(x1))∘df(x1).
上述映射的复合可以用下面的交换图来表示: 那么, 它们所对应的微分 (在线性的层次上) 也可以用类似的交换图来表示: 我们之前引入的符号更好的描述了这个场景: 对于映射 df(x1):Rm1→Rm2, 我们将 x1 所对应的 Rm1 记作 Tx1Ω1, 将 Rm2 记作是 Tf(x1)Ω2, 那么, 我们有映射df∣∣x=x1:Tx1Ω1→Tf(x1)Ω2.从而, 上面的交换图表可以写成
证明. 链式法则的推导与一维的情形如出一辙: 令
x2=f(x1)∈Ω2, 按照定义有
f(x1+h)=f(x1)+df(x1)h+δ(h),g(f(x1)+ℓ)=g(f(x1))+dg(x2)ℓ+Δ(ℓ),其中
h∈Rm1,
ℓ∈Rm2,
h→0lim∣h∣∣δ(h)∣=limℓ→0∣ℓ∣∣Δ(ℓ)∣=0. 据此, 我们有
g(f(x1+h))−g(f(x1))=g(f(x1)+df(x1)h+δ(h))−g(f(x1))=dg(x2)(df(x1)h+δ(h))+Δ(f′(x0)h+δ(h))==dg(x2)∘df(x1)(h)dg(x2)(df(x1)h)+dg(x2)(δ(h))+Δ(f′(x0)h+δ(h)).所以,
=⩽hg(f(x1+h))−g(f(x1))−dg(x2)∘df(x1)(h)hdg(x2)(δ(h))+hΔ(f′(x0)h+δ(h))C∣∣hδ(h)∣∣+o(1)∣∣∣f′(x0)h+δ(h)∣Δ(f′(x0)h+δ(h))∣∣×⩽C1∣∣h∣f′(x0)h+δ(h)∣∣∣.由此可见, 这是一个
o(1) 项, 按照微分的定义,
d(g∘f)(x1)=dg(x2)∘df(x1).这就完成了证明.
作为推论, 我们可以计算反函数 (逆映射) 的微分:
给定区域 Ω1⊂Rn1 和 Ω2⊂Rn2 和可微映射 f:Ω1→Ω2. 假设 f 是双射并且其逆映射 f−1:Ω2→Ω1 是可微的, 那么
• | n1=n2; |
• | df(x) 是可逆的 (等价于 Jac(f)(x) 的行列式是非零的) . |
此时, 对于任意的 y∈Ω2, 我们有df−1(y)=(df∣∣x=f−1(y))−1.
证明. 我们令
Ω3=Ω1,
g=f−1,
x1=x,
x2=y,
g∘f=Id, 其中
Id:Ω1→Ω1, x↦x,是单位映射, 它的微分在每个点处都是单位映射 (线性) . 根据链式法则, 我们就有
Id=dg(y)∘df(x).根据矩阵的秩的理论, 我们知道
n1⩽n2. 用
f−1 替换
f, 我们就得到
n2⩽n1. 这就证明了维数的部分. 上面的等式已经蕴含了逆映射的微分的计算.
上个学期我们对于 n×n 的矩阵定义了指数映射exp:Mn(R)→Mn(R), A↦eA=k=0∑∞k!Ak.我们现在计算它的微分 dexp. 固定 A∈Mn(R), 我们要找到dexp(A):Mn(R)→Mn(R),其中, 我们把 Mn(R) 视作是 Rn2. 对于任意较小的 V∈Mn(R), 我们有eA+V−eV=n=0∑∞n!1((A+V)n−An)现在强行展开 (A+V)n−An (注意矩阵 A 和 V 的乘法未必交换) . 通过将 V 的二次项 (以及更高次数的项) 放到一起, 我们得到(A+V)n−An=k=0∑n−1AkVAn−1−k+Qn(V).二项式展开的一共不超过 2n 项, 所以 Qn(V) 中至多有 2n 项. 我们上学期证明过 (无论你选取什么样的范数) , 存在常数 c (依赖于范数) , 使得对任意的 n×n 的矩阵 A 和 B, 我们都有∥A⋅B∥⩽c∥A∥∥B∥.上述 Qn(V) 的一个通项形如 AAVVAA⋯AA, 这是一个由 n 个 A 和 V 排出来的长度为 n 的字符串, 其中至少有 2 个 V. 我们可以要求 ∥V∥⩽∥A∥, 因为最终我们会令 V→0 (除非 A=0, 此时 Qn(V)=Vn, 下面的结论仍然成立) , 所以∥AAVVAA⋯AA∥⩽cn−1∥A∥∥A∥∥V∥∥V∥∥A∥∥A∥⋯∥A∥∥A∥.那么, 我们得到∥Qv(V)∥⩽2n×(cn−1∥V∥2∥A∥n−2).从而, 我们有⩽∥∥exp(A+V)−exp(A)−n=0∑∞n!1(k=0∑n−1AkVAn−1−k)∥∥n=0∑∞∥∥n!1Qn(V)∥∥⩽(n=0∑∞n!(2c∥A∥)n)c∥A∥2∥V∥2=c∥A∥2e2c∥A∥∥V∥2.那么, 我们注意到右端的项是 o(∥V∥) 并且 n=0∑∞n!1(∑k=0n−1AkVAn−1−k) 是收敛的. 所以, dexp(A)(V)=n=0∑∞n!1(k=0∑n−1AkVAn−1−k)特别地, 如果 A 和 V 可交换, 那么 dexp(A)(V)=exp(A)V. 我们还有dexp(0)=Id.
有了链式法则, 我们可以讨论更换坐标系的问题. 这是个核心的话题, 我们在中学的时候就已经在使用这个概念, 比如说我们经常在极坐标和 Descartes 坐标系之间转换. 我们首先用映射的语言来描述极坐标: 令Ω1=R2−{(x,0)∣∣x⩾0}⊂R2, Ω2=R>0×(0,2π)={(r,ϑ)∣∣r>0,ϑ∈(0,2π)}.
我们通常用的 x=rcosϑ 和 y=rsinϑ 可以用如下的映射来写: Φ:Ω2→Ω1, (r,ϑ)↦(rcosϑ,rsinϑ).由于在 Ω1 上我们给定了 (x,y) 作为坐标, 在 Ω2 上我们给定了 (r,ϑ) 作为坐标, 所以我们可以用 Jacobi 矩阵来表示上述映射的微分: dΦ=Jac(Φ)=(∂r∂x∂r∂y∂ϑ∂x∂ϑ∂y)=(cosϑsinϑ−rsinϑrcosϑ).这个线性映射自然是可逆的, 它的行列式是 r.