Spectral Clustering 从入门到入门

0x00 Introduction

写这篇文章的由头是因为自己前一阵读了Thomas N. Kipf, Max Welling大佬的Semi-Supervised Classification with Graph Convolutional Networks 这篇文章。文章核心在于怎么用数学的方式减小用在Graph数据上神经网络的运算量。因为之前所接触的神经网络限于Andrew NG的两门课，故而没接触过处理Graph的情况。这里的Graph指点集，边集构成的图。这篇文章并非paper的讲解。只是记录一下我关于Graph Clustering这个领域的入门心得。

Figure 1

0x01 Graph Clustering

直觉上: Graph Clustering是把一个大的图分割成多个子图。如图Figure 1 所示，我们希望cluster之间的相似度尽可能小，希望同一个cluster里点的相似度尽可能大。
数学上: 我们可以写出这样的函数:

$ Cut(A_1,A_2,...,A_k) := \frac{1}{2} \sum_{i=1}^{k}W(A_i,\bar A_i) $

这里的$\bar A_i $表示集合A的补集， $W(A,B)$ 代表对所有属于A集合的点i 到所有属于B集合的点j 相似度求和。

$ W(A,B) := \sum_{i\in A,j\in B}w_{ij} $

于是目标就变成了最小化Cut函数。

但是可以想象如果把每个节点都设为一个cluster的话Cut函数一定会取得最小值，但这并不是我们想要的。
改进：
直觉上：我们希望每个cluster尽可能大。
数学上：我们可以加上一个约束项，对于'大'的不同理解我们有两种改进方式。

$ RatioCut(A_1,A_2,...,A_k) := \frac{1}{2}\sum_{i=1}^{k}\frac{W(A_i,\bar A_i)}{\left | A_i \right |} = \sum_{i=1}^{k}\frac{cut(A_i,\bar A_i)}{\left | A_i \right |} $

$ Ncut(A_1,A_2,...,A_k) := \frac{1}{2}\sum_{i=1}^{k}\frac{W(A_i,\bar A_i)}{vol(A_i)} = \sum_{i=1}^{k}\frac{cut(A_i,\bar A_i)}{vol(A_i)} $

RatioCut 认为集合里面包含的点的数量多叫做'大'；

Ncut认为集合里面边权重和越大，那么集合越'大'；

0x02 Laplacian Matrix

需要先把刚才的内容放在一边，生硬的先讲拉普拉斯矩阵。根据定义 $ L= D - A $ ，L就是拉普拉斯矩阵。

Figure 2

定义里面D 代表一个图的Degree Matrix，A代表图的Adajacency Matrix.

Degree Matrix, D:

$
\begin{bmatrix}
2 &0 & 0 & 0 & 0 &0 \\
0& 3 & 0 & 0 & 0 & 0\\
0& 0& 2 & 0 & 0 &0 \\
0& 0 & 0 &3 & 0 &0 \\
0& 0& 0& 0 &3 &0 \\
0& 0& 0 &0 & 0 &1
\end{bmatrix} $

Adajacency Matrix, A:

$
\begin{bmatrix}
0 & 1 & 0 & 0 & 1 &0 \\
1& 0 & 1 & 0 & 1 & 0\\
0& 1& 0 & 1 & 0 &0 \\
0& 0 & 1 &0 & 1 &1 \\
1& 1& 0& 1 &0 &0 \\
0& 0& 0 & 1 & 0 &0
\end{bmatrix}
$

Then D - A = L , L:
$
\begin{bmatrix}
2 & -1 & 0 & 0 & -1 &0 \\
-1& 3 & -1 & 0 & -1 & 0\\
0& -1& 2 & -1 & 0 &0 \\
0& 0 & -1 &3 & -1 &-1 \\
-1& -1& 0& -1 &3 &0 \\
0& 0& 0 & -1 & 0 &1
\end{bmatrix}
$

拉普拉斯矩阵有如下性质：

L是对称半正定矩阵 (symmetric and positive semi-definite matrix)，对于每个 $f \in \mathbb{R}^n $ ，下面式子成立:

$ f'L f=\frac{1}{2}\sum_{i,j=1}^{N}w_{ij}(f_i-f_j)^2 $

$Proof$ :

$f'Lf $

$= f'Df - f'Wf $

$= \sum_{i=1}^{n}d_if_i^2 - \sum_{i,j=1}^{n}f_if_jw_{ij}$

$=\frac{1}{2}(\sum_{i=1}^{n}d_if_i^2 - 2\sum_{i,j=1}^{n}f_if_jw_{ij} + \sum_{j=1}^{n}d_jf_j^2 )$

$ =\frac{1}{2}\sum_{i,j=1}^{n}w_{ij}(f_i-f_j)^2 $

L有n个非负，实数特征值，最小的为0, 最小的特征值$0$所对应的特征向量是$\vec{1}$

$0=\lambda_1 \leq \lambda_2 ... \leq \lambda_n$

0x03 Eigenvalue & Eigenvectors 特征值 & 特征向量

这里A是一个矩阵，$\vec{v}$是一个向量，$\lambda$是一个实数

$ A\vec{v} = \lambda\vec{v} $

满足上式的$\vec{v}$是特征向量，$\lambda$为其对应的特征值

0x04 Connect RatioCut to Laplacian Matrix

目标是 min $RatioCut(A_1,A_2...A_j...A_k)$

为此我们引入{$A_1,A_2...A_j...A_k$}的指示向量 $h_j = \{h_1,h_2...h_i...h_n\}$ , j = 1...k, i = 1... N; j表示子集下标, i 表示样本下标, 具体的值为:

$h_{j,i}=\begin{cases}
\frac{1}{\sqrt{|A_j|}} & \text{ if } v_i \in A_j\\
0 & \text{ if } v_i \notin A_j
\end{cases}$

每一个子集$A_j$对应一个指示向量$h_j$，每个$h_j$里面有N个元素分别代表N个样本点的指示结果。如果在原始数据中第i个样本被分割到了子集$A_j$中，那么$h_j$的第i个元素值为$\frac{1}{\sqrt{|A_j|}}$,否则为0.
这里$h_j$是一个长度为N的向量

$\begin{align*}
h_j^TLh_j &=h_j^T(D-W)h_j \\
&=h_j^TDh_j - h_j^TWh_j \\
&= \sum_{m=1}\sum_{n=1}h_{j,m}h_{j,n}D_{m,n} -\sum_{m=1}\sum_{n=1}h_{j,m}h_{j,n}w_{m,n} \\
&=\sum_{m=1}h_{j,m}^2D_{m,m} - \sum_{m=1}\sum_{n=1}h_{j,m}h_{j,n}w_{m,n} \\
&= \frac{1}{2}(\sum_{m=1}h_{j,m}^2D_{m,m} - 2 \sum_{m=1}\sum_{n=1}h_{j,m}h_{j,n}w_{m,n} + \sum_{n=1}h_{j,n}^2D_{n,n})
\end{align*}
$

步骤解释：
第一第二步：拉普拉斯变换
第三步：把矩阵的乘法变成element-wise乘法
第四步：由于D是对角阵，非主对角线元素为0。
第五步：代数变换

然后：

$\begin{align*}
h_j^TLh_j &= \frac{1}{2}(\sum_{m=1}h_{j,m}^2D_{m,m} - 2 \sum_{m=1}\sum_{n=1}h_{j,m}h_{j,n}w_{m,n} + \sum_{n=1}h_{j,n}^2D_{n,n}) \\
&=\frac{1}{2}(\sum_{m=1}\sum_{n=1}h_{j,m}^2w_{m,n} - 2\sum_{m=1}\sum_{n=1}h_{j,m}h_{j,n}w_{m,n} + \sum_{n=1}\sum_{m=1}h_{j,n}^2w_{n,m})\\
&=\frac{1}{2}\sum_{m=1}\sum_{n=1}(h_{j,m}-h_{j,n})^2
\end{align*}
$

步骤解释：
第一步到第二步：$D_{m,m} = \sum_{n=1}w_{m,n}$，即把Degree 矩阵还原成邻接矩阵来表达
第二步到第三步：对于$w$矩阵而言，里面的元素非0即1；二次展开
进一步, 把$h_{j,i}$ 代入上式:
$\begin{align*}
h_j^T L h_j &=\frac{1}{2}\sum_{m=1}\sum_{n=1}(h_{j,m}-h_{j,n})^2 \\
&=\frac{1}{2}(\sum_{m \in A_j,n \in \bar A_j}w_{m,n}(\frac{1}{\sqrt{|A_j|}} - 0)^2 + \sum_{m \in \bar A_j,n \in A_j}w_{m,n}( 0 - \frac{1}{\sqrt{|A_j|}})^2) \\
&=\frac{1}{2}(\sum_{m \in A_j,n \in \bar A_j}w_{m,n} \frac{1}{|A_j|} + \sum_{m \in \bar A_j,n \in A_j}w_{m,n} \frac{1}{|A_j|}) \\
&= \frac{1}{2} (cut(A_j,\bar A_j) \frac{1}{|A_j|}+ cut(\bar A_j,A_j)\frac{1}{|A_j|})\\
&= \frac{cut(A_j,\bar A_j)}{|A_j|} \\
&= RatioCut(A_j,\bar A_j)

\end{align*}
$
推到这里，很显然$h_{j,i}$的奇怪的值是为了得到这个结果而凑出来的。(摊手)
进一步，因为在引入指示变量的时候，每一个元素都只能放在一个类里面，所以可以得到这个性质：$h_i \ast h_j = 0, i \neq j$ , 且 $h_i \ast h_i = 1$，即指示向量之间正交，于是：
\begin{align*}
RatioCut(A_1,A_2...A_k) &= \sum_{i=1}^kh_i^T L h_i\\
&=\sum_{i=1}^k(H^TLH)_{ii} \\
&= Tr(H^TLH)
\end{align*}
这里随后一步解释一下，Tr ()表示求矩阵的Trace的和，$H^TLH$ 是一个k*k 的矩阵。一个矩阵的Trace等于这个矩阵特征值的总和。[5]
另外一个需要解释的点在于：
$Lh_j = \lambda h_j$ 这里$h_j, \lambda$可以理解为L的一组特征值特征向量，在等式两个都左乘一个$h_j^{'}$ 即 $h_j$的转置：
$
h_j^{'} L h_j = \lambda h_j^{'} h_j \\
(Here : h_j^{'} h_j = 1 ) \\
h_j^{'} L h_j = \lambda
$
所以我们可以用特征值求和，也就是Trace，来代表$RatioCut(A_1,A_2...A_k)$

所以现在的问题从 $arg\min_{H}Ratiocut(A_1,A_2...A_k) $ 变为 $arg\min_{H}Tr(H^TLH) , s.t. H^TH = I$
在之前的推导过程中我们人为设定了一组特征向量, 即指示向量$h_j$，其中的元素要么是0，要么是$\frac{1}{\sqrt{|A_j|}}$，如果我们用同样的方式去求H，那为了得到最优解，需要遍历$(C_k^1)^N $种情况。

于是我们想不通过特征向量，直接求特征值。

既然我们要分成k类，那我们就对L求前k个特征值，这里说的前后指的是把特征值按大小排序，取前k小的。然后求和以后就是最有的RatioCut解，然后我们根据这个特征值再去得到特征向量。根据特征向量来决定聚类。
但是这时候对应的特征向量, 比如$h_j$里面的元素就不是离散的值了，而是连续的值。

解决这个问题的一个方式是，我们得到了$h_1,h_2...h_k$ 之后用对于$h_j$ 里面的元素，看它距离0或者$\frac{1}{\sqrt{|A_j|}}$哪个近，就改成哪个值。在变换完之后，我们相当于得到了k个中心，然后把N个点和k个中心进行一次K-means。

类似的对于N-Cut的推导在[3]里面可以看到。

ref:

[1] https://blog.csdn.net/v_JULY_v/article/details/40738211
[2] https://arxiv.org/pdf/0711.0189.pdf
[3] https://blog.csdn.net/yc_1993/article/details/52997074
[4] https://www.cnblogs.com/xingshansi/p/6702174.html
[5] https://zh.wikipedia.org/wiki/%E8%B7%A1

机器学习系统 UW CSE 599W: Systems for ML 笔记 (上篇)

- June 10, 2020

Search This Blog

YG Overflow