最近,南加州大学、哈佛大学等机构的研究团队推出一项创新方法,被命名为DreamDistribution。这种基于提示学习的方法不仅可以让生成模型学到视觉属性共性和变化,还能通过几张参照图片实现无限创造的多样性。
方法概述:个性化生成的三步骤
DreamDistribution的训练方法主要分为三个关键步骤:
1. 提示学习
采用类似于Textual Inversion的提示学习方法,更新固定长度的提示嵌入,冻结其他下游文本编码器和扩散模型的参数。
2. 提示分布学习
引入提示分布学习,保存多个长度相同的文本提示嵌入,通过正交损失项确保提示在语义空间内的特征不同。
3. 优化整体分布
使用重参数方法进行多次可导采样,最终的损失函数包括与下游生成模型相同的图片重建损失和正交损失函数。
实验与结果:多样性与质量并存
DreamDistribution展现了出色的多样性和质量,相较于基线模型,其生成的图像在视觉上更富变化和创新。通过自动评估指标以及人类评估,该方法在质量和多样性方面均取得了显著的优势。
多样性评估
通过12种多样化图像场景的训练,DreamDistribution在Density和Coverage指标上实现了最佳的覆盖率和多样性。
质量评估
DreamDistribution在FID、CLIP-I和DINO等质量度量上均达到最佳质量,显示其在高质量图像生成方面的卓越表现。
提示分布的可控性:创意尽在掌握
DreamDistribution不仅能通过文本引导的提示编辑实现个性化生成,还可以通过调整分布的方差来控制生成的多样性。不同的提示分布可以混合生成新颖的图片,为用户提供更大的创作自由度。
应用于3D生成:跨足更广领域
DreamDistribution的独立性使得学到的提示分布可以轻松应用于其他文字提示驱动的生成任务,如文字生成3D。实验证明,在3D生成任务上同样能体现多样性生成和文本提示编辑等功能。
DreamDistribution聚焦于图片集层面的个性化生成任务,为图像生成带来更多样性和创新性。虽然还存在一些改进空间,但这项研究为未来在更广领域提升生成效果提供了奠基石。详细内容请参考原文。
通过DreamDistribution,创新的视觉生成正迎来新的可能性,让AI个性创作的时代更加丰富多彩。