科技新闻讯 11月7日消息,在周一美国旧金山举办的首届全球开发者大会“OpenAI DevDay”上,OpenAI发布了一系列新API(应用程序接口)。
在把文本到图像模型DALL-E 3首先集成到ChatGPT和Bing Chat之后,OpenAI周一正式发布了DALL-E 3的API。OpenAI表示,与之前发布的DALL-E和DALL-E 2类似,该API包含内置的调节功能,有助于防止滥用。
DALL-E 3 API提供了不同的格式和质量选项,以及从1024×1024到1792×1024的分辨率,价格从每张生成的图像0.04美元起。但是与DALL-E 2 API相比,它有一定的局限性至少目前是这样。
与DALL-E 2 API不同,DALL-E 3不能通过让模型替换现有图像的某些区域或创建现有图像的变体来创建图像的编辑版本。
OpenAI表示,当一个生成请求被发送到DALL-E 3时,它会“出于安全原因”或“添加更多细节”自动重写--这可能会导致不太精确的结果。
此外,OpenAI现在提供了文本到语音的API--Audio API。它提供了六种预设的声音--Alloy、Echo、Fable、Onyx、Nova和Shimer--可供选择,还有两种生成式人工智能模型变体。它从今天开始正式运行,每输入1000个字符的起价为0.015美元。
OpenAI首席执行官山姆奥特曼(Sam Altman)表示:“这比我们听到的任何其他东西都要自然得多,可以使应用程序更自然地互动,更容易访问。它还开启了许多用例,如语言学习和语音辅助。”
与一些语音合成平台和工具不同,OpenAI没有提供一种方法来控制生成的音频的情感影响。该公司指出,“某些因素”可能会影响生成的声音,比如会大声读出文本中的大写或语法,但这些影响在OpenAI的内部测试产生了“不同的结果”。OpenAI要求使用的开发者告知用户音频是由人工智能生成的。
在一份相关的公告中,OpenAI发布了其开源自动语音识别模型的下一个版本--Whisper large-v3。该公司声称,该模型在跨语言方面具有更高的性能。Whisper large-v3已被发布在GitHub,开发者可在获准的情况下进行下载。(无忌)