Wang S, Liu X, Liu L, et al. Highly-efficient incomplete large-scale multi-view clustering with consensus bipartite graph[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 9776-9785.
多视图聚类任务因为可以融合来自不同视图的信息用于提交聚类性能,近年来受到了很多的关注。现有的多视图聚类方法大多有个假设,即:每个样本在所有的视图都是可见的。而实际的生活中,不完整的多视图无处不在,这就催生了不完整多视图聚类的研究。但现有的不完整多视图聚类较为复杂,在面对大规模数据集时通常会耗费大量的计算资源和时间。本文提出了一个基于二部图的不完整多视图聚类方法来解决上述问题。具体来说,通过将多视图锚点学习和不完整二部图统一到一个框架中,以相互配合实现性能的提升。通过尝试使用灵活的二部图来处理不完整多视图聚类,本文提出的方法只需要样本数的线性复杂度,很容易应用到大规模的数据集上。
二部图一种已经被广泛的应用于大规模数据集的多视图谱聚类中。二部图主要的优点是从代表样本点中选择/采样较少比例,并且来探索这些锚点与每个样本之间的关系。传统的多视图二部图框架中每个视图的计算可以写成:
对于给定视图对应的
,首先通过构造
来定义视图的不完整性,
例如对于包含5(n=5)个样本的整体数据,若在第
个视图缺失第
个和第
个样本即
,则
表示为:
由上述定义,可以得出包含了
-th视图内的所有完整样本。按照二部图的定义,单是图的二部图的构建可以写成:
对应上面的例子,
,而
是
个
stack在一起。
的对位相乘结果的每一行为当前这个特征维度在每个样本的表示,每一列为当前样本的表示,全
代表该样本在给定视图中缺失。
通过这样的设计,原本空间复杂度降低到了
,其中
。
参数更新是使用的交替更新的方式,因为能力有限,这里不做推导。
感觉框架关于锚点的更新和
的计算是重点。是否可以将其使用深度学习框架进行优化将会是一个思考方向。