5. 算法的稳定性
稳定性的分析由矩阵的扰动理论给出. 这也将给出上述算法 3 中归一化行向量的需要.
5.1特征空间的扰动理论
此小节参考自 Rajendra Bhatia 的 Matrix Analysis 一书中 Section VII.1-3.
对复规范阵 [normal matrix/operator] () 及 , 以 表示到 在 中特征值对应特征向量所张成子空间的正交投影 [orthogonal projection] .
对于不相交的 , 由复规范变换的特征分解, 可知 与 的像是正交的. 当另一个复规范阵 接近 时, 我们理所当然地期待 与 的像接近正交.
若确实如此, 这两个投影算子复合应当得到接近于 0 的算子. 因此我们考虑用 对 进行估计, 有如下结果:
定理 5.1.1. 若 被一个宽为 的圆环分离, 则对矩阵的任一保酉变换的范数 , 我们有
注 5.1.2. 常见的 Frobenius 范数 (数值分析中讲过在 Givens 变换下不变) 、2-范数 (矩阵的最大奇异值) 都是保酉变换的.
此外, 上述 与 “接近正交” 也可以通过它们的 “夹角” 来表述, 这将给出两个子空间的距离定义, 详见参考书, 此处不再赘述.
5.2稳定性分析
此小节参考自文章 A Tutorial on Spectral Clustering 的 Section 7.
最简单的情形: 当相似度图恰好有 个连通分支时, 其 Laplace 矩阵 恰好有 个 0 特征向量, 由此直接给出了聚类方式. 加上扰动之后, 设新的 Laplace 矩阵为 , 我们希望当 较小时, 其前 个特征向量比较接近原来 个分支的指示向量.
一般而言, 由于 都是实对称阵, 其特征值均为实数 ( 与 具有相同的特征值, 也都是实数) , 因此要利用上述定理, 我们需要找到一个有限区间 同时包含 和 的前 个特征值. 直观上看, 当 越小、 的第 个特征值与第 个特征值的距离 [eigengap] 越大时, 区间 就越容易取. 一旦取出, 和 的特征空间之距离即可被上界 所控制, 故可见扰动越小、特征值距离越大, 算法的误差越小, 从而越稳定.
根据这个观察, 我们可以得到:
• | 选取聚类数 的一个准则: 尽量让 较大. 为此, 我们经常画出 的特征值图 (俗称手肘图/崖底碎石图) , 通过图象的 “拐点” 来确定较好的 ; |
• | 在上述最简单的情形中, 的前 个特征向量确实接近于 , 故可以按照分量的大小 (接近 1 或者接近 0) 有效地给出聚类方式; 同理, 我们由可以得到 的前 个特征向量为 , 从而 的前 个特征向量为 (见 2.4 末尾的推导) . 由此可见, 当图中存在度很小的顶点 时, 虽然 有一个特征向量 使得 , 但其值很小, 会导致扰动之后与其余 的扰动混淆, 从而会出现误判. 因此, 若使用 进行谱聚类, 我们要求对特征向量组成矩阵 的各行进行归一化, 以减弱这种不稳定性因素 (对 3.2 的补充) . 然而在实际中, 可能其余 在扰动后还是与 相当, 归一化之后会变得更大, 因此在这种极端情形下, 用 进行谱聚类的方法是不稳定的. |