划重点
1
新的OpenAI软件内置了音频和视觉理解功能。
2
OpenAI的AI语音助手可以提高自动化客户服务代理的表现。
3
OpenAI有望在年底前完成GPT-5的训练,并公开发布。
科技新闻讯5月11日消息,据国外媒体报道,在追求开发能像人类一样交流的人工智能的竞赛中,OpenAI又有了新动作。该公司准备揭示一种全新的人机对话技术,该技术能同时使用声音和文本,并具备识别物体和图像的能力。据两位有幸目睹这款新型人工智能的人士披露,ChatGPT的开发团队已经向特定客户展示了其部分功能,其中包括比现有产品更为出色的逻辑推理能力。
这一技术成果是OpenAI首席执行官山姆奥特曼(SamAltman)宏伟愿景中的又一重要进化。他的最终目标是开发出一种类似于斯派克琼斯(SpikeJones)执导的电影《她》(Her)中的虚拟助手那样的先进人工智能,并努力使现有的语音助手,如苹果的Siri,变得更加实用和智能。
据一位内部消息人士透露,OpenAI可能最早在下周一的一次公开活动中预览这款升级后的人工智能。这一时间比谷歌I/O开发者大会早一天,此举意在抢在谷歌发布一系列人工智能产品之前,占据市场先机。
OpenAI认为,具备视觉和音频功能的智能助手有可能像智能手机一样,引发一场科技革命。从理论上讲,这样的助手将能胜任许多目前难以想象的任务,例如担任学生撰写论文或解决数学问题的导师,或在人们需要时提供周围环境的信息,如翻译路标或解释如何修理汽车故障等。
由于这项新技术的规模庞大,目前还无法在个人设备上运行。然而,在不久的将来,客户将能够通过云端的版本来改进OpenAI软件已有的功能,例如自动客户服务代理。据一位知情人士透露,新软件的音频功能将帮助这些代理更好地理解呼叫者的语气,甚至能察觉到他们在提出要求时是否带有讽刺意味。
OpenAI已经开发出可以转录音频和将文本转换为语音的软件,但这些功能是通过独立的会话AI模型实现的。而新模型则将这些功能融为一体,从而使得新的多模态模型在理解图像和音频方面表现更佳,并且相比功能较弱的模型,使用起来更为迅捷。
作为OpenAI的最大资助者,微软有权自由使用OpenAI的技术。微软可以利用OpenAI的新型人工智能来改进自家的语音助手,或者尝试将其缩小规模,以便在小型设备上运行,这包括带有前置摄像头的可穿戴设备,这些设备能够捕捉客户周围的环境信息。
目前尚不清楚OpenAI何时会向付费用户提供这些新功能。但据一位使用过聊天机器人ChatGPT的人士表示,OpenAI最终计划将这些功能整合到其聊天机器人的免费版本中。该人士还透露,OpenAI的目标是使支持这些功能的新型AI模型比该公司目前销售的最先进的GPT-4Turbo更为经济实惠。在回答某些类型的问题时,新模型的表现甚至已经超越了GPT-4Turbo。然而,值得注意的是,新模型仍然会犯下错误,即出现所谓的“幻觉”现象。
GPT-5年底前发布?
与此同时,谷歌的高管们也怀揣着利用人工智能开发卓越助手的宏伟愿景。去年12月,谷歌展示了其对话式人工智能Gemini的视频,它能实时响应语音指令,并识别出人们正在注视的图像。然而,随后该公司澄清,这些高级功能实际上需要研究人员使用图像和文本进行模型提示,而非视频演示中展示的简单对话。
此外,除了图像和文本处理,Gemini虽然增添了音频分析能力,但它在理解许多传统语音命令上仍有局限,也无法像Siri或谷歌助手(GoogleAssistant)等传统语音助手那样流畅地与用户交流。
OpenAI同样在奋力前行,以保持其相对于Meta等竞争对手的领先地位。今年4月,Meta发布了开源人工智能模型Llama3,其性能超越了当前许多会话式人工智能模型,并赢得了人工智能应用开发者的广泛赞誉。
OpenAI即将推出的这款具备音频和视觉功能的新模型,只是其众多研发项目中的冰山一角。外媒消息称,该公司正致力于开发一款与谷歌竞争的网络搜索引擎,并研发名为计算机使用代理的自动化软件,旨在加速软件开发及其他基于计算机的任务。此外,尽管尚未公开,但OpenAI已经发布了人工智能视频生成器Sora的预览版本,这一创新在好莱坞引起了巨大轰动。
尤为引人注目的是,OpenAI正全力以赴开发GPT-5,并期望它能比一年多前发布的GPT-4实现重大飞跃。据与OpenAI高层有过深入讨论的人士透露,该公司有望在年底前完成GPT-5的训练并公之于众。
OpenAI的产品和人工智能模型开发速度相当快,这导致了一些先前宣布的项目并未得到足够的关注。例如,尽管OpenAI曾向开发者承诺,到今年第一季度,他们能够通过为其商店开发定制聊天机器人来实现盈利,但至今该公司尚未推出具体的实施方案。
然而,提升视觉和音频功能有望助力OpenAI在数百万乃至数十亿台苹果设备上运行其对话式人工智能。近几个月来,苹果与OpenAI就下一代iPhone操作系统如何整合OpenAI的模型进行了深入探讨。然而,这位ChatGPT的制造者面临着激烈的竞争,苹果同时也在与谷歌进行类似的谈判。
据悉,OpenAI的CEO山姆奥特曼(SamAltman)还与知名iPhone设计师乔尼艾维(JonyIve)携手合作,共同研发一款人工智能消费设备。这款设备有望从艾默生集团和ThriveCapital等投资者那里筹集高达10亿美元的资金。这一举措意味着,奥特曼将加入大型科技公司和初创企业的行列,竞相发布人工智能设备和可穿戴设备。
然而,目前最先进的人工智能模型由于体积庞大,必须在云端运行,并依赖互联网连接才能正常工作。因此,开发具备复杂视觉和音频功能的对话式人工智能可能需要数月甚至数年的时间,才能将其缩小到足以在设备上运行的尺寸。
分级定价策略
据一位与OpenAI高管密切交流的人士透露,OpenAI今年有望创造数十亿美元收入,该公司正计划推出一种全新的定价模式。若客户选择预付费预订Token(用于大语言模型处理或生成的单词),该公司将提供高达50%的折扣。
目前,OpenAI主要采取按需定价策略,其大语言模型每生成百万Token的费用在几美分至120美元不等,而一些大型客户则能享受到批量折扣的优惠。提前付款以获取折扣的策略在云计算领域已相当普遍,如微软Azure、谷歌云和亚马逊AWS的客户,均能通过提前预订服务器容量来显著降低成本。
通过引入更灵活的定价机制,OpenAI旨在与其他模型开发商以及旨在协助开发者以更低成本运行开源模型的初创公司展开更有力的竞争。这些初创公司,通常被称为人工智能服务器经销商或推理服务提供商,他们对成本效率的重视有时会导致他们以越来越低的价格提供同样的大模型服务,有时甚至低于成本价。
为了进一步帮助开发者降低成本,OpenAI已通过批处理API(BatchAPI)为开发者提供了一种经济高效的解决方案。这是OpenAI在4月份推出的一种应用程序编程接口,允许开发者批量上传模型查询,并在愿意等待长达24小时响应的前提下,享受更为优惠的价格。而像TogetherAI和Anyscale这样的人工智能服务器经销商则声称,在他们的平台上运行开源模型比使用OpenAI的模型要便宜六倍之多。(编译/金鹿)