4. 随机游走观点

本节主要参考自文章 A Tutorial on Spectral Clustering 的 Section 6.

聚类目标的另一个直观表述: 找相似度图的一个分割, 使得该图上的随机游走 [random walk on the similarity graph] 长时间停留在同个类中, 而很少从一个类到另一个类.

4.1基本概念与记号

定义 4.1.1. 转移概率 [transition probability] : 从 的概率为 , 构成的转移矩阵 [transition matrix] 为

定义 4.1.2. 平稳分布 [stationary distribution] : 满足 (这里将 个点的概率分布写成了行向量) , 即找 的零空间. 考虑当图连通时 , 从而

4.2随机游走与 Ncut

由于当 不可约、非周期 ( 刻画了这个随机过程) 时, 有极限行为故对任意的初始分布 , 我们有由此, 在一般情况下, 平稳分布是 1-范数意义下的极限分布, 于是我们只需以平稳分布起始, 考虑顶点子集之间的转移概率: 因为随机游走过程是一个 Markov 链, 故只需考虑将这个概率简记为 , 则有可见在 时, 该目标函数即表示了在两个类之间游走的平均概率. 一般地有右侧的每一项表示了从第 类 “逃离” 的概率.

4.3往返距离

图上两点的距离也可以用它们在随机游走中往返时间的期望来表示, 也称往返距离 [commute distance/resistence distance] . 与最短距离不同的是, 多条最短路可以减少往返时间, 所以这个距离更能反映出顶点分布的密集程度, 更适合用于聚类算法.

计算

此部分参考自文章 Random Walks on Graphs: a Survey 的 Section 3.

为了计算往返时间的期望, 我们先计算从顶点 出发到达 所需时间的期望 [access time] . 它有诸多计算方法, 这里利用 Laplace 矩阵及其谱来给出: 首先由全期望公式易见写成矩阵的形式, 即知 是对角阵 (非对角元由上式为 0) . 注意到因此该对角阵的对角元由 构成, 故而由 , 可将该式化为这是一个关于 的方程, 但由于 存在 0 特征值, 所以不能直接取逆求出, 并且由此可知只要找到一个解 , 那么对任意向量 , 也是解 (因为 的 0 特征向量) . 因此, 利用 我们可以求出唯一解. 为此, 先利用 的广义逆 [generalized inverse / pseudo-inverse] 得到一个解然后令 是其对角元组成的向量, 即可得到是满足要求的解. 由此, 顶点 间的往返距离为

聚类的考虑

由对称半正定阵 的谱分解 可知也是对称半正定的, 从而我们可以将 用标准欧式内积表示为其中 表示 的第 个行向量, 将其记为 , 则有由此, 往返距离可以看作是: 先将图的顶点按照 嵌入到欧式空间 中, 然后用欧式度量来衡量它们的距离, 由此进行聚类.

在谱聚类算法中, 我们只采用了 的前 个特征向量, 并且直接将顶点 嵌入为它们拼成的矩阵的行向量 , 而后进行聚类. 和这里的 能否发挥相似的作用?

当图恰好有 个连通分支时, 我们已经知道 能够恰好按连通分支分为 类. 但此时 的前 个特征值均为 0, 因此每个 的前 个元素均为 0, 也即 的前 列信息被完全丢弃.

当图连通时, 关于 0 特征值只有一个特征向量 , 因此 的第一个元素在聚类中均不起作用; 并且, 的前几个非零特征值较小, 它们对应的特征向量在 的作用下, 会发挥较大的作用, 所以在这个情形下, 确实发挥了相似的作用.