6. 算法的相合性
本节参考自文章 Consistency of Spectral Clustering 的 Section 3-8.
假设数据点 是从一个潜在的概率分布中提取的, 目标是对数据空间 进行划分. 为此, 我们需要分析上述谱聚类方法的相合性, 即当样本量 时, 结果是否存在好的极限行为.
以下分析都在 的情形下进行, 且为了明晰样本量, 给以上所用的矩阵记号加上下标 :
• | 非规范 Laplace 矩阵 |
• | 规范 Laplace 矩阵 |
此时我们关注 Laplace 矩阵的第二特征向量 , 以它们的正负来分成两类. 为了研究极限行为, 我们将这个聚类过程抽象为: 给出离散空间 上的一个函数 , 使得 , 并根据其函数值的正负我们希望函数列 在某种意义下趋于整个数据空间 上的函数 , 从而通过其函数值的正负来给出数据空间的划分.
我们预先假设:
• | 数据空间 是紧度量空间, 是其上的 Borel 代数 (即 Borel 集构成的 -代数) ; |
• | 是空间 中的概率测度, 是从 中独立抽取的样本点, 它们形成离散概率测度 (经验分布) 序列 ; |
• | 相似度函数 是对称、连续的, 其中 为正常数. |
为了收敛性讨论和计算的方便, 我们采用连续函数空间 , 我们知道它是一个 Banach 空间 (由 是紧度量空间) . 于是, 我们想要得到一个连续的极限函数 , 需要函数列 也在相同的空间中, 故需要定义一个限制算子 [restriction operator] 来达到上述效果 , 从而通过来证明算法的收敛性. 于是问题的关键在于:
• | 由 Laplace 矩阵的第二特征向量 构造出相应的 ; |
• | 证明 在 中收敛. |
在进行分析之前, 我们需要一些预备知识. 由于分析的篇幅也比较大, 我们分多个页面进行展示.