x↦exp(xA) 的导数
按照导数的定义, 如果 (V,∥⋅∥) 是赋范线性空间, f:R→V 是映射, 我们可以定义导数f′(x0)=x→x0limx−x0f(x)−f(x0).(如果极限存在的话) 特别地, f′(x0)∈V. 我们来研究我们最爱的例子: exp. 令 V=Mn(R) 为矩阵的空间 (复数系数的矩阵的证明是一致的) , A 是一个给定的 n×n 的矩阵, 考察映射f:R→Mn(R), x↦exA.我们计算 f′(x0). 按定义, 我们有hf(x0+h)−f(x0)=he(x0+h)A−ex0A=ex0AhehA−1,其中我们用到了矩阵 x0A 与 hA 可交换. 由此可见 (在证明 (ex)′=ex 的时候也做了同样的事情) , 只要计算 f′(0) 即可. 利用定义, 我们有hehA−1=k=1∑∞k!1hk−1Ak=A+k=1∑∞(k+1)!1hkAk+1.根据矩阵乘法对于范数的关系 (∥A⋅B∥⩽c∥A∥∥B∥, 其中 ∥⋅∥ 是任意一个指定的范数) , 我们有∥k=1∑∞(k+1)!1hkAk+1∥⩽hk=1∑∞(k+1)!1ck∥A∥k+1⩽chec∥A∥.从而, f′(0)=A. 进一步, 我们知道f′(x)=AexA=Af(x).
中值定理的应用
上一次最后提到了 Lagrange 中值定理的一个推论 1:
f∈C([a,b]) 并且 f 在 (a,b) 上可微, 如果 f′(x)≡0 并且 f(a)=c, 那么 f(x)≡c. 换而言之, 如下的常微分方程{f′(x)=0,f∣∣x=a=c,存在唯一的解 f(x)=c.
证明. 用反证法: 如果存在某个
x1∈(a,b) 使得
f(x1)=c, 那么, 在
[a,x1] 上使用 Lagrange 中值定理, 就有
x0∈(a,x1), 使得
f′(x0)=x1−af(x1)−c=0.矛盾.
这个推论实际上对于在赋范线性空间中取值的映射也成立:
给定映射 f∈C([a,b];V), f 在 (a,b) 上可微. 如果 f′(x)≡0, f(a)=c, 那么对任意的 x∈[a,b], f(x)=c.
我们满足于
V=Rn 是有限维的情形, 此时,
f:R→Rn 可以用分量
(f1(x),⋯,fn(x)) 表达并且
f′(x)=(f1′(x),⋯,fn′(x))=0 ⇔ fk′(x)≡0, 任意的 k=1,⋯,n.所以, 利用
1 维的情况就可以得到结论.
如果 V 是无限维的赋范线性空间, 比如说 (C([0,1]),∥⋅∥∞), 我们一方面没有 Lagrange 中值定理, 所以不能用本来的证明; 一方面想把问题约化成 1 维的情况的做法不是很容易推广 (我们的确能做到这一点) . 然而, 我们不打算在这个问题上继续深入 (除非我们想仔细的研究一下微分方程理论) , 有限维的情况对我们就足够用了.
作为应用, 我们仍然回到 exp 这个例子: 考虑可微映射 f:R→Mn(R), 假设它满足如下的微分方程{f′(x)=A⋅f(x),f∣∣x=0=In,其中, In 为 n×n 的矩阵. 我们知道, x↦exA 是这个方程的一个解. 我们现在说明, 这是唯一的解. 实际上, 我们有e−xA(f′−Af)=0⇒e−xAf′+(e−xA)′f=0.如果我们有 Leibeniz 法则的话 (两个函数相乘之后求导数的法则) , 那么就有(e−xAf)′=0.这是把一个表达式写成全微分的技巧. 根据唯一性的命题, 我们知道 e−xAf(x)≡I, 所以我们就证明了 f(x)=exA (因为 eAe−A=In) .
回到 Leibniz 法则的问题, 如果 f 和 g 是 n×n 矩阵中取值的函数, 我们有(f⋅g)′(x0)=h→0limhf(x0+h)g(x0+h)−f(x0)g(x0)=h→0limhf(x0+h)(g(x0+h)−g(x0))+h→0limh(f(x0+h)−f(x0))g(x0)=f(x0)g′(x0)+f′(x0)g(x0).这个证明和最基本的函数版本的证明没有任何的区别.
利用 Lagrange 中值定理, 我们可以进一步联系单调性和导数:
假设实值函数 f∈C0([a,b]) 并且 f 在 (a,b) 上可微. 那么, 下面的两条性质是等价的:
特别地, 如果对任意 x, f′(x)>0, 那么函数是严格递增的 (反之不然) .
证明. 2) ⇒ 1) 用导数的定义即可: 由于 f(x) 递增, 所以 f(x+h)−f(x) 与 h 的符号是一致的, 从而hf(x+h)−f(x)⩾0.令 h→0 即可.
1) ⇒ 2) 用反证法: 如若不然, 存在 x1<x2, 使得 f(x1)>f(x2), 根据 Lagrange 中值定理, 存在 x0∈[x1,x2], 使得f′(x0)=x2−x1f(x2)−f(x1)<0.矛盾.
如果
f′(x)>0, 为了说明函数是严格递增的, 我们仍然用反证法: 如若不然, 存在
x1<x2, 使得
f(x1)⩾f(x2), 根据 Lagrange 中值定理, 存在
x0∈[x1,x2], 使得
f′(x0)=x2−x1f(x2)−f(x1)⩽0.矛盾.
我们现在证明导函数的介值定理.
假设 f 在 [a,b] 上可微, f′(a)<f′(b). 那么, 对于任意的 c∈(f′(a),f′(b)), 都存在 x0∈(a,b), 使得 f′(x0)=c.
存在在 [a,b] 上可微的函数 f, 它的导数不一定连续 (因此不能直接使用连续函数的介值定理) : f(x)={x2sin(x1), 0, x=0;x=0很明显, 我们有f′(x)={2xsin(x1)−cos(x1), 0, x=0;x=0我们来说明 f′(x) 在 0 处不连续. 实际上, 我们考虑两个点列 {xn}n⩾1 和 {yn}n⩾1, 其中xn=2nπ1, yn=(2n+1)π1.我们有 n→∞limxn=n→∞limyn=0, 但是, n→∞limf′(xn)=−1, n→∞limf′(yn)=1.
证明. 通过把
f 换为
f(x)−cx, 我们不妨假设
c=0,
f′(a)<0<f′(b). 在这种假设下,
f 连续但是不是单调的函数 (因为导数是改变符号的) , 根据介值定理,
f 不能是单射. 所以, 存在
x1,x2∈[a,b], 使得
f(x1)=f(x2), 那么, Rolle 中值定理就给出了
c 的存在性.
另一个版本的中值定理叫做 Cauchy 中值定理, 描述了两个不同函数之间关系:
假设有实值函数 f,g∈C([a,b]) 并且 f 和 g 均在 (a,b) 上可微. 假设对任意的 x∈(a,b), g′(x)=0. 那么, 存在 x0∈(a,b), 使得g′(x0)f′(x0)=g(b)−g(a)f(b)−f(a).
我们注意到, 结合 Darboux 的定理,
g′(x)=0 这个条件意味着
g′(x) 要么恒为正, 要么恒为负, 所以函数是严格单调的. 特别地, 这说明
g(a)=g(b), 从而上式右边是良好定义的.
尽管这个命题可能在一些较难的习题中大显身手, 但就本身的深刻程度而言不过是 Rolle 中值定理的一个无关痛痒的推广. 然而, 我们给出两个不同的证明并且解释怎么理解这个命题. 对一个命题有 (编) 一个感性的认识在学习数学中是非常重要的.
证明.
1. | 我们定义如下的函数: F(x)=f(x)−f(a)−g(b)−g(a)f(b)−f(a)(g(x)−g(a)).因为 F(b)=F(a)=0, 所以 Rolle 中值定理可用. 这是一个技术性的证明, 想法和 Lagrange 中值定理的证明如出一辙. (很多习题册上的题目都是根据这个想法来编的, 作业中我们会见到几个例子 (比较有技巧性, 但其实没有多大意思) ) . |
2. | 这个证明比第一个证明复杂很多, 然而在概念的层次上要更清晰也包含了更多的理解. 首先, 我们观察到如果 g(x)=x, 那么这个定理就是 Lagrange 中值定理. 证明的主旨是将一般的 g 的情况化为这个已知情况, 只需要微分几何中一些最朴素的想法. 利用 g′(x)=0, 我们知道 g:I=[a,b]→J=[g(a),g(b)] 是同胚, 即连续的双射并且逆映射也是连续的. 我们需要将 g 想成用 I 来重新参数化 J=[g(a),g(b)]. 比方说, 给定 R 上的区间 J=[0,1], 我们假设 R 上用的坐标是 y, 那么, 我们可以用 y 来表示 (参数化) I 中的点. 考虑映射g:[0,2]→[0,1], x↦2x.此时, 我们可以用通过 g 用 x∈[0,2] 来 (参数化) 描述 J 中的点: x=1 对应的是 J 中的 0.5 这个点. 我们现在认为 J=[g(a),g(b)] 是基本的几何对象. 本来 f 是 I 上的函数, 我们可以通过上述参数化将 f (通过复合) 视作是 [g(a),g(b)] 上的函数: JIYg−1f∘g−1f我们要考虑 f(g−1)(y)=f∘g−1 这个函数. 根据 Lagrange 中值定理 (对 f∘g−1:J→R 来用) , 我们有 g(a)−g(b)f∘g−1(g(a))−f∘g−1(g(b))=(f∘g−1)′(c).不难认出, 这就是要证明的等式. 这个证明表明, Cauchy 中值定理实际上是 Lagrange 中值定理在不同的参数化下的表述 (从这个角度看, f 和 g 的位置不是对等的) . |
另外, 我们会问这个定理直观上说了什么 (有没有比较容易记住的方式) ? 这里可以看出向量值函数的威力: 考虑映射
F:[a,b]→R2, x↦(g(x)f(x)).这个映射的像是
R2 上的一条曲线段. Cauchy 中值定理说的是存在曲线上的点
x0, 使得其切线方向
F′(x0) 和两个端点的连线
(g(b)f(b))−(g(a)f(a)) 是同方向的. 在图上看起来这与 Rolle/Lagrange 中值定理的几何直观是一致的. 事实上, 我们还可以定义
F:[a,b]→S1, x↦f′(x)2+g′(x)2(f′(x),g′(x)).这个是切线的方向的函数, 由于
(g(b)f(b))−(g(a)f(a)) 也决定了
S1 中的一个方向, 这个定理的叙述变得类似于这种情况下的介值定理 (
S1 是
1 维的) . 此时, 我们很自然地看到为什么需要研究在其它空间上取值的函数 (映射) .
三角函数的研究
由于有了导数作为新的工具, 我们可以来研究 sinx 和 cosx 的周期性了. 三角函数是解析的方式来定义的, 即用级数来定义: cosx=k=0∑∞(2k)!(−1)kx2k, sinx=k=0∑∞(2k+1)!(−1)kx2k+1.它们具有周期性是一个很深刻的事实. 我们令F:R→R2, x↦F(x)=(cosxsinx).用 J 表示矩阵 J=(−1 0 0 1). 那么, 根据 (cosx)′=−sinx 和 (sinx)′=cosx, 我们发现 F 满足如下的微分方程⎩⎨⎧F′=JF,f∣∣x=0=(10).我们还把 F(x) 写成F(x)=(S(x),C(x)), S(x)=sin(x), C(x)=cos(x).
如果你采取其它方式定义 sinx 和 cosx 的话, 比如说按照中学的方式定义的 sinx 和 cosx, 你应该也能证明 sinx 和 cosx 满足上述的关系, 根据解的唯一性, 我们就知道这两种定义方式是一致的.
三角函数的解析表达式没有给出它们更多的信息, 我们利用函数的微分来研究 cosx 和 sinx 在 R⩾0 上的行为:
由于 S′(0)=C(0)=1, 根据连续性, S 在某个 [−δ,δ] 上面是严格递增的 (δ 是较小的正数) . 在区间 (0,δ) 上, 由于 C′(x)=−S(x)<0, 从而, C(x) 是严格递减的; 在区间 (−δ,0) 上, 由于 S(x)<0, 从而 C(x) 是严格递增的. 这表明 0 是 C(x) 的一个局部最大点 (这不意外, 因为 ∣C(x)∣⩽1 且 C(0)=1) . 这一段推导可以用如下的图像来表示:
我们下面要证明说一定能找到一个 A>0, 使得在 [0,A] 上, C(x) 是单调递减的并且在 A 处 C(x) 变成了 0. 考虑使得 C 在 [0,A) 上都 >0 的最大可能的 A.
我们先说明 A=+∞. 如若不然, 如果 S′=C>0, 所以 S 是 (0,+∞) 是严格递增的函数. 在 x=δ, 我们令 s=S(δ)>0, 从而, 当 x⩾δ 时, S(x)⩾s>0. 我们考虑如下的代数变形 (此时, 如果有积分的语言的话会更自然) : S(x)⩾s ⇔(C(x)+sx)′<0.这是把一个表达式写成全微分的技巧. 这表明函数 C(x)+sx 在 [δ,∞) 上递减, 所以, 对任意的 x⩾δ, 由于我们假设了 C(x)>0, 所以我们有C(δ)+sδ⩾C(x)+sx>sx.令 x→+∞, 这自然是不可能的!
此时, 上面所描述的 A<∞ 存在. 根据连续性, 在 A 处, 有 C(A)=0. 根据 C∣∣[0,A]⩾0, 我们知道 S 在 [0,A] 上上升, 所以 S(A)>0. 我们现在计算 S(A) 的值. 为此, 我们证明对任意满足上述微分方程的 S(x) 和 C(x), 都有 (S(x))2+(C(x))2≡1. 证明是利用导数判别: 一个函数是常数当且仅当它的导数恒为零. ((S(x))2+(C(x))2)′=2S(x)S′(x)+2C(x)C′(x)=0.而 ((S(x))2+(C(x))2)∣∣x=0=1. 据此, 我们知道 S(A)=1.
作为上面推导的总结, 我们知道存在常数 A, 使得 S(0)=0, S(A)=1 并且 S 在 [0,A] 上严格递增; C(0)=1, C(A)=0 并且 C 在 [0,A] 上严格递减.
重复上面的推导 (请同学自己补充细节) , 我可以找到 B>0, 使得 S(A)=1, S(A+B)=0 并且 S 在 [A,A+B] 上严格递减; C(A)=0, C(A+B)=−1 并且 C 在 [0,A] 上严格递减.
我们定义 π=A+B, 按照上面的推导, 它是 S(x)=sinx 在正实轴上第一个零点.
此时, 考虑函数 (C(x)S(x))=−(C(x+π)S(x+π)). 很明显, (CS) 和 (CS) 解一样的微分方程 (同样的初值) , 所以根据唯一性, 我们得到S(x)=S(x)=−S(x+π), C(x)=C(x)=−C(x+π).从而, S(x)=S(x+2π), C(x)=C(x+2π).这说明 2π 是 S 和 C 的周期. 另外, S 在 [0,π] 上面为正, 在 [π,2π] 上面为负. 这表明 2π 是 S 的最小周期; 类似地, 2π 是 C 的最小周期.
脚注