有了前面的准备, 我们开始看谱聚类方法的相合性. 首先看规范方法, 由于 Lsym 和 Lrw 的第二特征向量之间只差一个变换 D−1, 而其是对角元为正的对角阵, 故在 K=2 的情形下的算法是等价的. 这里我们只考虑前者的收敛性, 对后者类似.
第一步: 构造与 Ln′ 对应的 C(X) 上算子 Un′
注意到 Ln′=Dn−1/2LnDn−1/2=I−Dn−1/2WnDn−1/2, 我们以相似度函数 s 对 Wn 作连续化, 则可作如下构造:
• | 度函数 [degree functions] dn(x)=∫Xs(x,y)dPn(y),d(x)=∫Xs(x,y)dP(y) |
• | 规范化相似度函数 [normalized similarity functions] hn(x,y)=dn(x)dn(y)s(x,y),h(x,y)=d(x)d(y)s(x,y) |
• | 积分算子 [integral operators] Tn′:f↦∫Xhn(x,y)f(y)dPn(y),Tn:f↦∫Xh(x,y)f(y)dPn(y),T:f↦∫Xh(x,y)f(y)dP(y) |
• | 最后得到 C(X) 上的算子 Un′=I−Tn′,U′=I−T,其中 I 为恒等映射. |
以上构造具有如下性质:
在问题的预先假设下, 有
1. | dn,d∈C(X), 并且有一致的下界 l>0 及上界 ∥s∥∞<+∞; |
2. | Tn′,Tn,T 的算子范数具有一致的上界 ∥s∥∞/l, 且是 C(X) 上的紧算子; |
3. | 关系式 Ln′∘ρn=ρn∘Un′ 成立. |
第二步: 算子 Un′ 与矩阵 Ln′ 的谱关系
按照前面的分析, 我们希望 fn∈C(X) 是算子 Un’ 的一个特征函数, 即 Un′fn=λfn, 这样就有Ln′vn=Ln′(ρnfn)=ρn(Un′fn)=λρnfn=λvn,即 vn=ρnfn 为 Ln′ 关于特征值 λ 的特征向量. 因此, 我们的目标是找到 Un′ 关于 Ln′ 第二特征值 λ2 的特征函数 fn∈C(X): 将该特征值问题写成(1−λ2)fn(x)=Tn′fn(x)=∫Xhn(x,y)fn(y)dPn(y)=n1i=1∑nh(x,Xi)fn(Xi)=n1i=1∑nh(x,Xi)vni,故只要 λ2=1, 我们就有fn(x)=n(1−λ2)∑i=1nh(x,Xi)vni.由于 vn 在每次抽样后可由 Ln′ 的第二特征向量给出, 故上式给出了 fn∈C(X) 的确切定义.
上述推导过程可以在任意特征值上进行, 结合算子 Tn′ 的紧性与矩阵 Ln′ 的对称半正定性, 我们可以总结得到:
算子 Un′ 与矩阵 Ln′ 的谱具有如下对应关系:
1. | 具有相同的特征值; |
2. | 关于同一个特征值 λ=1 的特征函数 f∈C(X) 及特征向量 v=(v1,⋯,vn)∈Rn 具有如下的一一对应关系: v=ρnf,f(x)=n(1−λ)∑i=1nh(x,Xi)vi; |
3. | Un′=I−Tn′ 的谱 σ(Un′)={1}∪σ(Ln′) 由有限个重数有限的非负特征值和 σess(Un′)={1} 组成. |
对于特征值的非负性, 与矩阵 Ln′ 的半正定性fTLn′f=21i,j=1∑nwij(difi−djfj)2≥0,∀f∈Rn类似地, 我们也可以将 Un′ 视为 L2(Pn) 函数空间上的算子, 利用函数内积⟨Un′f,f⟩=∫X(f(x)−∫Xhn(x,y)f(y)dPn(y))f(x)dPn(x)=∫X∫Xs(x,y)(dn(x)f(x)−dn(y)f(y))dn(x)f(x)dPn(y)dPn(x)=21∫X∫Xs(x,y)(dn(x)f(x)−dn(y)f(y))2dPn(y)dPn(x)≥0,∀f∈L2(Pn)直接得到算子 Un 的非负性.
同理, 由空间 X 的紧性有 C(X)⊂L2(P), 于是可以推知, U′=I−T 的谱由至多可数个重数有限的非负特征值组成. 此外还可以得到其本性谱为 σess(U′)={1}.
第三步: 随机算子序列 {Un′} 的收敛性
由于紧收敛性能够带来谱的收敛性, 我们考虑证明 {Un′} 紧收敛到 U′. 首先需要证明逐点收敛性, 即对任意的 f∈C(X), 应有 ∥Un′f−U′f∥∞→0. 为此, 我们先考虑几个具有较好性质的函数集:
在预先假设下, 以下 C(X) 的子集SHg⋅H:={s(x,⋅):x∈X}:={h(x,⋅):x∈X}:={g(⋅)h(x,⋅):x∈X},∀g∈C(X)均为 Glivenko-Cantelli 类, 即成立f∈Fsup∣∣∣∣∣∫Xf(y)dPn(y)−∫Xf(y)dP(y)∣∣∣∣∣n→∞0a.s.,F=S,H,g⋅H.
证明. 以
S 为例进行证明, 另两个类似: 首先由
s 是紧度量空间
X 上的连续函数, 可知
s 在
X 上一致连续, 从而对任意
ε>0, 都存在
δ>0, 只要
x,x′∈X 的距离小于
δ, 就有
∥s(x,⋅)−s(x′,⋅)∥∞<ε/2.而由
X 的紧性可知存在有限个点
x1,⋯,xk∈X, 使得
X=i=1⋃k(Bδ(xi)∩X)⟹S⊂i=1⋃kBε/2(s(xi,⋅)).若记括号
[l,u] 表示满足
l≤f≤u 的函数
f, 则有
S⊂i=1⋃k[s(xi,⋅)−2ε,s(xi,⋅)+2ε],其中每个括号的
L1(P)-长度均为
ε, 故子集
S 的
∥⋅∥L1(P)-括号数 [bracketing number]
N[ ](ε,S,L1(P))=k<∞. 由
ε 的任意性, 结合
Glivenko-Cantelli 定理 (参考书 Weak Convergence and Empirical Processes 中定理 2.4.1) 即可得到结论.
借助此命题我们可以证明:
证明. 对任意的 f∈C(X), 我们有∥Tn′f−Tf∥∞≤∥Tn′f−Tnf∥∞+∥Tnf−Tf∥∞.
• | 第二项由定义即为 ∥Tnf−Tf∥∞=x∈Xsup∣∣∣∣∣∫Xh(x,y)f(y)dPn(y)−∫Xh(x,y)f(y)dP(y)∣∣∣∣∣,根据 f⋅H 是 Glivenko-Cantelli 类可知其 a.s. 收敛到 0; |
• | 对于第一项, 由定义及命题 1.2 中对度函数的下界估计, 我们有 ∥Tn′f−Tnf∥∞≤∥f∥∞x∈Xsup∫X∣hn(x,y)−h(x,y)∣dPn(y)≤∥f∥∞∥s∥∞x,y∈Xsup∣∣∣∣∣∣dn(x)dn(y)1−d(x)d(y)1∣∣∣∣∣∣≤l2∥f∥∞∥s∥∞x,y∈Xsup∣∣∣∣d(x)d(y)−dn(x)dn(y)∣∣∣∣≤l2∥f∥∞∥s∥∞x,y∈Xsup∣∣∣∣∣∣d(x)d(y)+dn(x)dn(y)d(x)d(y)−dn(x)dn(y)∣∣∣∣∣∣≤2l3∥f∥∞∥s∥∞x,y∈Xsup∣dn(x)dn(y)−d(x)d(y)∣,而用同样的拆项技巧, 借助命题 1.2 中对度函数的上界估计, 可以进一步得到 x,y∈Xsup∣dn(x)dn(y)−d(x)d(y)∣≤x,y∈Xsup(∣dn(x)dn(y)−dn(x)d(y)∣+∣dn(x)d(y)−d(x)d(y)∣)=x,y∈Xsup(∣dn(x)∣∣dn(y)−d(y)∣+∣d(y)∣∣dn(x)−d(x)∣)≤∥s∥∞x,y∈Xsup(∣dn(y)−d(y)∣+∣dn(x)−d(x)∣)=2∥s∥∞x∈Xsup∣dn(x)−d(x)∣=2∥s∥∞x∈Xsup∣∣∣∣∣∫Xs(x,y)dPn(y)−∫Xs(x,y)dP(y)∣∣∣∣∣,进而根据 S 是 Glivenko-Cantelli 类, 可知该项也 a.s. 收敛到 0. |
进一步我们可以得到:
证明. 由命题 3.2 我们已经得到逐点收敛性, 故只需证明存在 N∈N, 使得 ⋃n>N(Tn′−T)BC(X) a.s. 是相对紧的. 注意到这是一个连续函数集合, 我们考虑利用 Arzela-Ascoli 定理加以证明:
• | 一致有界性: 根据命题 1.2 中对 Tn’,T 的范数估计, 可以得到 n∈N,f∈BXsup∥(Tn′−T)f∥∞=n∈Nsup∥Tn′−T∥L(C(X))≤l2∥s∥∞; |
• | 等度连续性: 我们需要对足够大的 n 及所有 f∈BC(X), 估计 ∣∣∣∣[(Tn′−T)f](x)−[(Tn′−T)f](x′)∣∣∣∣≤∣∣∣∣(Tf)(x)−(Tf)(x′)∣∣∣∣+∣∣∣∣(Tn′f)(x)−(Tn′f)(x′)∣∣∣∣. ∘ | 先看第一项, 按照定义以及各函数的上下界估计可以得到 ∣∣∣∣(Tf)(x)−(Tf)(x′)∣∣∣∣≤∥f∥∞∫X∣h(x,y)−h(x′,y)∣dP(y)≤y∈Xsup∣∣∣∣∣∣d(x)d(y)s(x,y)−d(x′)d(y)s(x′,y)∣∣∣∣∣∣≤l3/21y∈Xsup∣∣∣∣s(x,y)d(x′)−s(x′,y)d(x)∣∣∣∣≤l3/21y∈Xsup∣∣∣∣(s(x,y)−s(x′,y))d(x′)−s(x′,y)(d(x)−d(x′))∣∣∣∣≤l3∥s∥∞∥s(x,⋅)−s(x′,⋅)∥∞+2l2∥s∥∞∣d(x)−d(x′)∣,从而对任意 ε>0, 存在 δ>0, 使得只要 x,x’ 的距离小于 δ1, 就有 ∣∣∣∣(Tf)(x)−(Tf)(x′)∣∣∣∣<3ε; | ∘ | 对于第二项, 作同样的处理可得 ∣∣∣∣(Tn′f)(x)−(Tn′f)(x′)∣∣∣∣≤l3∥s∥∞∥s(x,⋅)−s(x′,⋅)∥∞+2l2∥s∥∞∣dn(x)−dn(x′)∣,进一步我们需要将含 dn 的项关于足够大的 n 作一致估计 ∣dn(x)−dn(x′)∣≤∣dn(x)−d(x)∣+∣d(x)−d(x′)∣+∣d(x′)−dn(x′)∣≤2∥dn−d∥∞+∣d(x)−d(x′)∣. |
总之有 ∣∣∣∣[(Tn′−T)f](x)−[(Tn′−T)f](x′)∣∣∣∣≤C1∥s(x,⋅)−s(x′,⋅)∥∞+C2∣d(x)−d(x′)∣+C3∥dn−d∥∞,其中前两项由空间 X 的紧性, 可知连续函数 s,d 都是一致连续的; 最后一项在命题 3.2 的证明中已经得到 a.s. 收敛到 0 (由 S 是 Glivenko-Cantelli 类) . |
最后, 根据各收敛性的关系, 可知:
第四步: 谱的收敛性
现在我们已经得到了算子序列的紧收敛性, 我们的最终目的是得到其特征函数的收敛性.
首先由上一节的结论, 可知对任意 z∈ρ(T), 有 Tn’−zIsT−zI a.s., 由此我们称算子 T 的近似序列 {Tn’} 在所有 z∈ρ(T) 处是稳定的 [stable] .
由此, 对于 U′ 的孤立特征值 λ=1, 存在其邻域 Δ⊂C 使得n→∞limσ(Ln′)∩Δ=n→∞limσ(Un′)∩Δ={λ}.
但是文章中给出了更强的结果:
在预先假设下, 对于 U′ 的孤立特征值 λ=1, 存在其邻域 Δ⊂C 及 N∈N, 使得当 n>N 时, σ(Ln′)∩Δ={λn}, 且 λn→λ a.s.
进一步, 令算子 Prn′:C(X)→C(X) 是关于 λn 的谱投影, Pr′ 是关于 λ 的谱投影, 则 Prn′pPr′ a.s.
若 λ 是一个单特征值, 则还有特征向量的收敛性: 设 vn=(vn1,⋯,vnn)=ρnfn 是 Ln′ 关于 λn 的特征向量, f 是 U′ 关于 λ 的特征函数, 则存在一列 {an}⊂{−1,1}, 使得i=1,⋯,nsup∣anvni−f(Xi)∣=∥anvn−ρnf∥∞≤∥anfn−f∥∞→0a.s.特别地, 对任意 b∈R, 集合 {anfn>b} 收敛到 {f>b}, 即它们的对称差满足P({anfn>b}△{f>b})→0.
没有搞明白的问题:
1. 怎么保证在 n 足够大时, 这个邻域就只交出 Ln′ 的一个特征值?
2. 怎么保证 λ 是单根时, λn 也是单根? 这样才能通过算子序列的强稳定性给出特征向量的收敛性.