谷歌本周公布了OpenAI自吹自打的DALLE-2文本-图像生成器的新挑战者,并对其竞争对手的努力进行了抨击。
这两种模式都将文本提示转换为图片。但谷歌的研究人员称,他们的系统提供了“前所未有的照片真实感和深度语言理解”。
在样本质量和图像-文本对齐方面,人类评分者更喜欢Imagen而不是DALLE-2
名为Imagen的系统使用一个大型的预先训练的语言模型作为文本编码器。一连串的扩散模型将用户的文字转化为图片。在测试中,谷歌团队表示,Imagen“明显优于”DALL-E 2。
Imagen vs DALL-E 2在DrawBench上的对比:a)图像-文本对齐,b)图像逼真度。
Imagen的开发人员甚至发明了一种新方法来衡量他们的作品是否至高无上。这个名为DrawBench的基准测试比较了人类对不同文本到图像生成器输出的判断。
不出所料,谷歌的指标给谷歌的系统打了高分。研究人员在他们的研究论文中说:“通过DrawBench,广泛的人类评估表明,Imagen的性能明显优于最近的其他方法。”
DALL-E 2可能很难正确地为对象分配颜色特别是对于包含多个对象的提示。
图片和参数确实令人印象深刻,但谷歌没有提供机会仔细审查结果。你可以在Imagen网站上尝试一些交互式的演示,但这些只允许你使用一小部分短语来组成一个有限的句子。
在模型和代码公开发布之前,愤世嫉俗者会怀疑谷歌是在挑拣结果。
在文本类别的DrawBench提示上,对比Imagen和DALL-E 2的定性。Imagen在带引号文本的提示符方面明显优于DALL-E 2。
谷歌对保持模型私有的解释与OpenAI给出的解释相呼应:系统太危险了,不能发布。
研究人员警告说,生成式方法会传播错误信息,引发骚扰,并加剧边缘化。
研究人员说:“我们的初步评估还表明,Imagen编码了一些社会偏见和刻板印象,包括对生成浅肤色人的整体偏见,以及倾向于将不同职业的形象与西方性别刻板印象相一致。”
Imagen在位置、文本和描述方面的表现明显优于DALL-E 2
该团队得出结论,Imagen“目前还不适合公众使用”但它确实为未来的发布提供了希望。
我谨慎地等待他们的更新。作为每天为文章创作图像的人,人工智能实验室竞相提供更好结果的前景很有吸引力。
另一方面,我不希望我们的机器人霸主用算法取代艺术家。
本文由升哲科技编译,转载请注明。