在最近的一篇谷歌研究论文"TryOnDiffusion: A Tale of Two UNets" 中,一个由科技巨头的软件工程师和高级研究科学家组成的多元化团队引起了全球服装行业的强烈关注。这项研究的目标是在给定两张图片的情况下一张是展示某个人,另一张是展示另一个人所穿的服装生成一张图像,展示这件服装可能在输入的人身上的样子。这是一个具有挑战性的目标,因为它需要在生成服装的细节保持真实性的同时,扭曲服装以适应不同的人体姿势和形状变化。
过去的方法要么专注于服装细节的保留,但不能有效地处理姿势和形状的变化,要么允许在保持期望的形状和姿势的同时试穿服装,但却缺乏服装的细节。然而,这篇论文提出了一个基于扩散的架构,将两个UNets(称为Parallel-UNet)结合起来,使我们能够在一个网络中保留服装细节,并对服装进行大幅度的姿势和身体变化的扭曲。
(同一个模特穿不同的衣服1)
让我们用最通俗易懂的语言来解析一下这个系统的运行原理。
试想一下你正在画一幅画。首先,你需要准备画布(即目标人物的图片)和颜料(即目标服装的图片)。然后,你需要剔除画布上的原有色彩(也就是原有的服装),只保留人物的轮廓和姿势,同时从颜料图片中提取出服装的图案和质地。
接下来,你需要用一个名为Parallel-UNet的“魔法画笔”(这是本研究的核心贡献)来作画。你将画布和颜料一同放入128x128的Parallel-UNet中,它会自动将服装图案和人物轮廓融合在一起,生成一个初步的试穿图像。然后,这个初步的试穿图像被送入更大的256x256的Parallel-UNet中,进行进一步的细化和完善。最后,这个256x256的图像被送入一个标准的超分辨率扩散器中,生成一张高清的1024x1024的试穿图像。
(同一个模特穿不同的衣服2)
那么,这个“魔法画笔”Parallel-UNet是如何工作的呢?
实际上,Parallel-UNet包括两部分:一部分是人物-UNet,另一部分是服装-UNet。人物-UNet接收无服装的人物图片和噪声图像作为输入。而服装-UNet则接收已经剪裁过的服装图片作为输入。这两部分在处理过程中会通过一个交叉关注机制来将服装特征和人物特征融合在一起。此外,人物和服装的姿势也被送入一系列线性层中,计算出姿势的嵌入,然后通过注意力机制融入到人物-UNet中。同时,这些姿势嵌入还被用于在所有尺度上调节人物-UNet和服装-UNet的特征。
在论文发布后,TryOnDiffusion引起了广泛的讨论和反响。消费者,设计师和零售商都看到了它的巨大潜力:它能高效地提供高质量的虚拟试衣体验,有助于人们更好地选择合适的服装,也有助于设计师和零售商更好地展示和推广他们的产品。在许多方面,这篇论文的发表标志着虚拟试衣领域的一次重大突破。
在国内,我们也可以看到一些创业公司在尝试提供类似的服务并已经将其产品化。比如说,MatchU.AI光锥之外也在走在这个领域的前沿,提供了一套AI产品以满足服装行业的需求。
MatchU.AI(光锥之外)提供了“AI生图”的功能,用户可以选择一个预制的或者自己创建的“服装模型”,再配合一个“数字模特”和背景,就可以用AI技术生成一张男女模特穿着指定服装的图像。这就像是在虚拟世界里进行的时装秀,而观众就是用户自己。
其次,他们提供“图集管理”功能,用户可以在这里查看和管理自己使用AI生成的图片,并可以下载高清图片。这就如同有一个私人的AI摄影师,随时准备好为你拍摄最满意的照片。
再来,也可以自己训练服装,服装管理功能允许用户选择一个服装类别,上传至少9张符合要求的训练图片集,以此来生成“AI服装模型”。用户还可以查看、删除这些模型,甚至可以用自建的“AI服装模型”和“AI生图”功能生成AI模特图。这就如同有一个AI的时尚顾问,帮助用户随时随地试穿各种风格的服装。
在目前的平台上,已经上线了包括AI生成图和图集管理在内的多个功能
在AI生成图的部分,用户可以根据自己的需求生成专属服装模型,并快速生成高质量的AI模特图。这里分为"系统模型"和"我的模型"两种类型。"系统模型"指的是初始化系统设定的几套衣服模型,用户可以结合模特自由搭配穿衣风格。而"我的模型"则是用户自己在"服装管理"模块练习的专属衣服模型,也可以结合模特自由搭配穿衣风格。
除此之外,Matchu.AI(光锥之外)还提供了"数字模特"和"拍摄景观"两种功能。"数字模特"是与服装模型搭配使用的AI模特,而"拍摄景观"则是数字模特的生图背景。
在平台的"服装模型管理"功能中,用户可以自行上传拍摄的服装照片进行模型训练。具体步骤和注意事项如下:
首先,用户需要注意拍摄的背景应为白色,并且可以用手机进行拍摄。在上传的照片中,需要包括全身、半身和细节三个部分的照片,每个部分至少需要上传3张。而且,用户可以选择拍摄单件上衣或裙装,也可以拍摄上衣和裤装(裙)的搭配。不过需要注意,目前平台还不支持单独的裤装和半裙。
在拍摄照片时,全身、半身和细节照片都有一定的要求。例如,全身照片和半身照片都需要包括正面、左斜30度和右斜30度的拍摄角度,以及闭襟、开襟和扎进裤装的服装状态。而细节照片则需要展示领型、口袋/拉链以及袖口或裤腰。
在提交训练任务后,页面会显示训练状态,包括训练成功、训练失败和训练取消三种状态。如果训练成功,用户可以点击"去创作"按钮,进入AI生图页进行创作。如果训练失败或取消,用户可以点击"编辑"按钮,进入"服装管理-工作区",对提交的任务进行编辑,编辑完成后提交的是新的训练任务。训练的时间会实时更新,平均每个任务约需要30分钟。
建立服装垂直大模型
Matchu.AI(光锥之外)采用的模型结构类似Parallel-UNet的交叉注意力结构,相比于使用stable diffusion的lora来说,他们的技术在实现对服装和模特的同时控制和生成方面有着更大的优势。长期来看,这种技术可能会带来更好的结果。
此外,Matchu.AI(光锥之外)通过用户上传模型,以及基于AI的自动化标识和训练系统,正在尝试构建一个专注于服装领域的垂直模型。这一举措不仅有助于提高模型的效果和准确性,同时也有可能打开一条全新的商业路径。
为了让用户上传服装模型更为便捷,Matchu.AI(光锥之外)创新地提供了一种直接拍摄服装照片上传的方式,而无需将衣服穿在模特身上。这种方式旨在尽可能多地收集各类服装的训练数据,从而帮助构建垂直的服装模型,提升AI的学习效率和精确度。
这种精细打磨的服装垂直模型,不仅可以作为服装企业电商店铺的宣传图片,其潜力和应用场景的想象空间更大。未来,用户可能只需通过文本输入,就可以生成一张精美的服装和模特照片。这种新颖的生成方式不仅可以为服装设计师提供丰富的设计灵感,同时,也可作为社交媒体上的热门内容,引发大众的广泛讨论和关注。技术创新无疑正在打开一扇新的大门,引领服装行业向前发展。
未来,Matchu.AI(光锥之外)还有可能和C站模型大神,合作推出特色的服装模型,非常值得期待。
这种基于人工智能的虚拟试衣技术的应用场景非常广泛:
首先,它可以为用户提供试穿灵感。通过AI生成的模特图,用户可以预览各种服装在自己身上的效果,从而做出更符合自己个性和喜好的选择。
其次,对于服装品牌来说,这项技术可以帮助它们生成高质量的营销图片。通过“数字模特”和“AI服装模型”,品牌可以轻松制作出各种各样的宣传图片,大大提升了营销效率和效果。
此外,这项技术还可以为设计师提供灵感。设计师可以通过AI生图功能,尝试各种不同的服装设计和搭配方案,从而激发新的设计思考。
对于国内有出海需求的品牌来说,这项技术更是提供了巨大的便利。因为数字化的试衣过程可以轻松跨越语言和文化的障碍,帮助品牌更好地适应和进入海外市常
最后,这种虚拟试衣技术甚至有可能成为新的社交内容平台。用户可以在平台上分享自己的试穿效果和搭配心得,与其他用户交流和互动,从而形成一个充满创意和活力的社区。
当然,目前这项技术也还有一些挑战:
首先,目前的技术还很难做到将虚拟图像和实际服装做到100%的相似。因为服装的材质、颜色、透明度等特性可能会受到光照、角度等多种因素的影响,这些都是目前技术难以完全模拟的。
其次,对于服装上的文字logo等细节,当前的技术还无法做到完整还原。这可能会影响到用户的试衣体验,也可能影响到品牌的形象和识别度。
因此,虽然这项技术已经取得了显著的进步,但还有很多技术难题需要解决。我们期待着科技的持续发展,让虚拟试衣技术更加成熟和完善。