绘画和音乐都是人们喜闻乐见的艺术形式。不过由于技术门槛,大多数人只能作为观众(听众)参与其中。想象一下,你只需要用文字描述你的图像作品,人工智能就能帮助你生成一幅图画。如今,人工智能正准备帮助更多普通人能够深入参与到艺术创作中去。
人工智能研究机构OpenAI创建了一个新的版本的DALL-E,即文本到图像的生成程序。DALL-E 2相比前代系统具有更高的分辨率和更低的延迟,它可以将用户使用文字描述内容生成对应图片。还包括新的功能,比如编辑现有的图像。该工具没有直接向公众发布。但研究人员可以在线注册预览该系统,OpenAI希望以后可以在第三方应用中嵌入并使用该系统。
DALL-E源自艺术家达利(Salvador Dalí)和著名机器人瓦利(WALL-E)的组合词,于2021年1月首次亮相。这是对人工智能视觉表达概念能力的一次有限但引人注目的测试。当时,OpenAI表示,它将继续在该系统的基础上构建,同时检查潜在的危险,如图像生成中的偏见或错误信息的产生。它试图使用技术保障和新的内容策略来解决这些问题,同时也减少了计算负载,并推进了模型的基本功能。
著名的西班牙加泰罗尼亚画家,因为其超现实主义作品而闻名。达利是一位具有非凡才能和想象力的艺术家,他的作品把怪异梦境般的形象与卓越的绘图技术和受文艺复兴大师影响的绘画技巧令人惊奇地混合在一起。某种程度上,人工智能生成的图片也会出现这样的效果。
WALL-E是一个知名的电影形象。
DALL-E 2的新功能之一是图像修复。用户可以从现有的图片开始,选择一个区域,并告诉模型编辑它。例如,你可以在客厅的墙上画一幅画,然后用另一幅画代替它,或者在咖啡桌上放一瓶花。该模型可以填充(或删除)对象,同时会考虑房间中阴影的方向等细节。而以往只有专业的设计师通过诸如PS之类的专业图形软件才能实现这样的操作。另一个功能称为变化,用户可以上传一个初始的图像,然后创建一系列局部变化的图片。还可以混合两张图片,生成包含这两幅图片所有元素的新图片。
DALL-E 2建立在CLIP上,这是一种计算机视觉系统,OpenAI去年发布了该系统。OpenAI的研究科学家普拉夫拉达里瓦尔(Prafulla Dhariwal)说:“DALL-E 1只是采用了我们从语言中提取的GPT-3方法,并将其应用于生成一幅图像:我们将图像压缩成一系列单词,刚刚学会了预测接下来会发生什么。”他指的是许多文本AI应用使用的GPT预训练模型。但是,文字匹配并不一定能理解到人们认为最重要的性质,而且预测过程限制了图像的真实性。CLIP最初设计目的是像人类一样查看图像并归纳成一组文字描述来总结它们的内容,而OpenAI在这个过程中不断重复创建“unCLIP”一个倒推版本,从描述开始并以图像方式呈现工作结果。DALL-E 2使用一种称为扩散的过程生成图像,Dhariwal描述为从一个“点”开始,然后填充一个越来越详细的图案。
有趣的是,一份关于unCLIP的草案说,它在一定程度弥补了CLIP的一个弱点:事实是,人们可以通过给一个物体贴上一个表示其他东西的单词。比如说到苹果时,我们会给出Iphone的标签,但工具“仍然会以很高的概率生成苹果的图片”,即使使用了标签错误的图片。“该模型从未生成Iphone的图片。”
DALL-E 2的完整模型从未公开发布,但在过去的一年中,其他开发人员已经打磨他们自己的工具来模仿了它的一些功能。最受欢迎的主流应用程序之一是Wombo的Dream移动应用程序,它可以生成用户描述的各种艺术风格的图片。如今,OpenAI不会发布任何新模型,但开发人员可以利用它的技术发现来更新他们自己的AI产品。