经过大规模预训练的扩散模型(Diffusion Models)凭借其在生成高质量图像方面的卓越表现,已在各种专业场景中展现出巨大潜力。本文将探讨如何将这种模型作为创新工具,用于视觉数据挖掘。研究假设,若一个条件扩散模型能在特定数据分布上生成良好图像,则能基于此模型定义符合当前数据分布的典型性度量(typicality measure)。此度量能涵盖多层次、多角度的语义概念,精准捕捉数据中的典型视觉元素,如地理位置、时间戳及语义标签等。
此外,本文通过一系列实验验证,基于扩散模型的数据挖掘方法相较于传统手段展现出更优秀的扩展能力。该方法无需明确比较所有视觉元素对,且凭借扩散模型的zero-shot能力,能灵活适应不同风格、分布的数据集,实现更高效的数据挖掘。本研究团队来自法国埃菲尔大学和UC,其成果已被计算机视觉顶级会议ECCV 2024录用。
论文题目:Diffusion Models as Data Mining Tools 论文链接:https://arxiv.org/abs/2408.02752 代码仓库:https://github.com/ysig/diff-mining 项目主页:https://diff-mining.github.io/
一、引言
视觉数据挖掘旨在从大型视觉数据集中发现各种模式,如从街景图集、人脸历史图像或汽车照片中识别独特的数据分布。传统方法主要依赖判别技术,如聚类和对比学习,这些方法在大规模数据集中扩展性不佳。相比之下,生成式模型在图像合成等任务中取得突破,能预训练并隐式存储海量视觉数据。本文旨在将生成式扩散模型转化为可扩展的视觉数据挖掘工具,以识别海量数据中的典型视觉元素。
上图展示了本文方法在不同数据集上挖掘典型视觉元素的效果。作者首先使用带有图像级标签(如时间、地理或场景标签)的数据微调条件扩散模型,随后用该模型计算图像的典型性度量,选择最典型的图像块,并提取其特征进行数据挖掘。
二、方法
2.1 扩散模型基础
扩散模型是近年来兴起的生成式模型,通过逐步添加噪声将目标图像转换为模糊中间状态,再逐步去噪实现图像合成。训练过程中,模型需学习噪声退火过程,预测带噪图像以重建原始图像。这种迭代过程使扩散模型能学习复杂的多模态数据分布。
本文方法基于潜在扩散模型(Latent Diffusion Model, LDM),在预训练编码器潜在空间上建模,降低模型复杂度,提高扩展性。
2.2 典型性度量
为利用预训练扩散模型进行视觉数据挖掘,本文提出基于扩散模型的“典型性”度量,用于衡量视觉元素与特定标签(如地理位置、时间戳)的相关性。该度量通过比较带标签与无标签条件下扩散模型的重建损失来反映标签对合成的影响程度。具体计算形式为:
[ T(x) = \sum_{t=1}^T \left( \ell(x_t^{(c)}) – \ell(x_t) \right) ]
其中,( \ell(x_t^{(c)}) )表示在时间步t下带标签c的重建损失,而( \ell(x_t) )为无标签条件。典型性度量能准确反映视觉元素与标签的关联度。
2.3 视觉元素挖掘
在得到典型性度量后,作者对各类数据集执行数据挖掘。步骤如下:
- 计算图像块典型性度量:在图像块级别计算典型性,因图像包含多个视觉元素,块级分析能更细粒度地识别代表性区域。
- 选择最具代表性的视觉元素:从每张图像中选取最具典型性的5个非重叠块,再从所有图像中挑选最具代表性的1000个视觉元素。
- 聚类视觉元素:使用k-means聚类方法总结这些视觉元素。在聚类前,使用DIFT特征进行嵌入,DIFT是专为扩散模型设计的特征提取方法,能很好捕获视觉内容的语义。聚类结果按中位典型性值排序并展示前6个最具代表性的簇。
相比传统基于成对比较的方法,本文方法利用扩散模型的内部表示计算典型性,无需成对比较,因此能很好地扩展到大规模数据集。
三、实验效果
实验在4个不同类型的数据集上进行,包括CarDB、FTT、G3和Places365。实验结果表明,本文方法能准确挖掘出与标签相关的视觉元素,如汽车的车灯造型、人脸的眼镜款式等。此外,该方法还能跨地理位置分析视觉元素变化趋势及在医疗影像分析中定位疾病部位。这些发现验证了本文方法的有效性和广泛应用前景。
四、总结
本文提出将扩散模型作为视觉挖掘工具的新方法,利用生成式模型学习到的丰富特征定义新型典型性度量。该方法在保持强扩展性的同时,有效发现大规模视觉数据中的有意义模式。这种“分析即合成”的数据挖掘思路不仅实验验证性能良好,而且在实际应用中展现出广泛价值。特别是在跨地理位置的视觉元素分析和医疗影像分析等领域提供了新思路和技术路径。