稀疏子空间聚类(Sparse Subspace Clustering, SSC)是一种处理高维数据的聚类方法
,特别适用于当数据分布在多个低维子空间上的情况。
SSC 利用了稀疏表示
的概念来估计数据点之间的关系,并以此构建相似度矩阵
,最终通过谱聚类
技术将数据点分配到各自的子空间中。
稀疏子空间聚类 (SSC)
基本概念
假设有一组数据点集合 ,其中
是高维空间中的点
。
这些点分布在 个低维子空间上,每个子空间的维数远小于数据点的原始维度,即
。
稀疏表示
稀疏表示
是指在给定的字典中,使用尽可能少的非零元素来表示某个信号的过程
。
在 SSC 中,这个“信号”就是数据点
,而字典则是由数据集本身构成的。
换句话说,每个数据点都可以表示为其余数据点的加权和
,权重向量称为稀疏表示系数。
SSC 的数学模型
对于数据点 ,我们寻找一个
稀疏系数向量
,使得
可以由其他数据点的线性组合来逼近
,同时使
数学上,这个问题可以表示为以下优化问题:
其中:
是
数据点组成的矩阵,
是第
个数据点的
稀疏表示系数向量,
和
表示不使用自身表示自身,避免了自循环。
相似度矩阵构建
一旦我们得到了所有数据点的稀疏表示系数
,我们可以构建一个
相似度矩阵
通常, 可以定义为
这里
谱聚类
有了相似度矩阵 ,接下来的步骤是使用谱聚类来将数据点聚类到各自的子空间中。
谱聚类首先会构建图拉普拉斯矩阵
,然后计算其特征向量,并通过 K-means 或其他聚类算法将特征向量聚类。
其中 是度矩阵,其对角线元素是
总结
SSC 的目标公式可以概括为上述的稀疏表示问题,它通过寻找稀疏系数矩阵来揭示数据点之间的内在子空间结构。
通过谱聚类,SSC 最终将数据点划分到它们所属的子空间中,即使在高维和噪声环境下也能保持良好的性能。
请注意,实际应用中,求解稀疏表示问题可能需要使用特定的优化算法,例如基追踪(Basis Pursuit)、正交匹配追踪(Orthogonal Matching Pursuit)或交替方向乘子法(Alternating Direction Method of Multipliers, ADMM)。
所有评论(0)