文 | 乌鸦智能说
在OpenAI 春季发布会的第二天,2024 年谷歌 I/O大会正式召开。
或许出于反击OpenAI的需要,谷歌为这个大会准备了很多东西:从基座模型 Gemini 升级到新的AI语音助手 Astra、新的文生视频模型Veo,以及更强大的文生图模型Imagen3。
这个大会开了整整两个小时,时长是OpenAI发布会的四倍。但从结果来说,似乎没有任何令人惊艳的地方。就连最可能成为爆款的AI语音助手Astra,也在GPT-4o衬托下显得“平平无奇”。
发布会效果比不过就算了,关注度也比不过。甚至在谷歌发布会召开的今天,OpenAI还主动释放出首席科学家Ilya Sutskever离职的消息。
这两场紧紧挨着的发布会,也很好诠释了两者当下的处境:在OpenAI不断阻击下,谷歌始终是那个活在OpenAI阴影下的人。
AI产品全面升级
在发布会上,最重要的自然是基座模型Gemini的升级,此次升级大致可以归结为:更长上下文、轻量版本、个性化机器人。
升级后的Gemini 可以分析比以前更长的文档、代码库、视频和音频记录。据透露,它最多可以容纳 200 万 token。这是之前的两倍,新版 Gemini 1.5 Pro支持所有商用型号中最大的输入。
为了满足不同场景的需求,谷歌还发布了新的轻量级模型:Gemini 1.5 Flash。据介绍,Gemini 1.5 Flash是 Gemini 1.5 Pro 的“精炼”版本,同样拥有多达 200 万个 token 上下文窗口,且和Gemini 1.5 Pro一样,拥有多模态功能,适合处理摘要、聊天、图片分析和视频字幕、以及从长文本和表格中提取数据等。
在定价上,Gemini 1.5 Flash 的价格定为每 100 万 tokens 35 美分,这比 GPT-4o 的每 100 万 tokens 5 美元的价格要便宜得多。
对于 Gemini 的订阅用户,可以使用谷歌新推出的「Gems」功能,类似于 OpenAI 的 GPT 商店。用户可以自行创建Gems,与其进行交流互动。
除了Gemini外,谷歌还对文生图模型Imagen2进行了升级。DeepMind 负责人 Demis 声称,与 Imagen 2 相比,Imagen 3 能够更准确理解图像的文本提示词,并且生成的图片更具创造性和细节。为了减轻人们对深度伪造的可能性的担忧,Imagen3将使用SynthID,可将不可见的加密水印应用于媒体。
在升级模型的同时,谷歌还发布了多款新品,包括新的AI语音助手Astra以及文生视频模型 Veo。
Astra 能够通过设备的摄像头识别物体和场景,并用自然语言进行交互。官方介绍,Astra 使用了 Gemini Ultra 的高级版本。在演示视频中,谷歌的 AI 助手能够通过摄像头视频,识别 " 什么东西能发出声音 "、" 现在身处何地 " 等指令。
DeepMind CEO Demis Hassabi表示,这样的 AI 助手需要像人类一样理解这个动态且复杂的世界。需要记得住它看到的东西,这样才能理解对话并付诸于行动。同时它也得能积极主动接受教导,以及自然、无延迟地进行交流。
而视频生成模型Veo直接对标OpenAI 的 Sora,可以根据文本提示创建大约一分钟长的 1080p 视频剪辑。Veo 可以捕捉不同的视觉和电影风格,包括风景和延时镜头,并对已生成的镜头进行编辑和调整。
与Sora类似,Veo展现了对物理规律的一定理解,比如流体动力学和重力等。这与其训练数据有关,官方人员承认有些数据来自 YouTube。
更强的AI搜索来了
AI搜索的升级,也是本次发布会的一大亮点。
在此次发布会上,谷歌推出了AI Overviews(AI 概览),该功能将AI结果加入到搜索内容呈现,即当用户进行提问时,页面顶部将提供 AI 生成的答案。
官方人员表示,AI 概览不会出现在每个搜索结果中,目前主要针对于更复杂的问题。每次用户进行搜索时,谷歌会在后台进行算法价值判断,以决定是否提供由 AI 生成的答案还是直接提供传统的网页链接。
去年以来,谷歌一直在通过其搜索生成体验(SGE)测试 AI 驱动的可能性。谷歌搜索主管 Liz Reid 表示,在其 AI 概述功能的测试期间,谷歌观察到人们点击了更加多样化的网站。据介绍,该功能面向全平台推出,从 Web 网页、App 到 Android 设备,预计将在本周内全面开放,在年底推广到更多国家。
除了提供答案外,搜索还新增了行程规划功能,帮用户制定更为详细的规划。比如,用户可以输入诸如“为四口之家计划三天的膳食”之类的查询,并获取这三天的链接和食谱。
与此同时,谷歌也强化了多模态方面的搜索表现。比如,谷歌推出了AI 驱动的“圈搜索”功能,允许 Android 用户使用转圈等手势立即获得答案。这一设计的初衷是,让用户在手机上的任何地方都可以更自然地通过一些操作(例如圈癣突出显示、涂鸦或点击)来使用 Google 搜索。
此外,用户还能通过结合视频进行搜索。比如,用户在旧货店买了一台唱片机,但打开时无法工作,带有针头的金属部件在意外漂移。用视频搜索能够,更清晰、准确地反馈这个问题。
此次谷歌推出AI搜索,是对Perplexity等AI搜索玩家崛起的直接回应。自生成式AI崛起开始,搜索被认为是AI应用最成熟的场景。无论是流量数据还是估值,Perplexity都有着不错的表现。
根据Similarweb数据,Perplexity今年前三月的流量分别为4560万、4954万和6149万,不断增长。在估值方面,根据 TechCrunch 最新报道,Perplexity 正在筹集至少 2.5 亿美元资金融资,最新估值在 25~30 亿美元之间。
尽管用户体量依然差谷歌几个量级,但Perplexity仍然在一个Google长期霸占的市场利用AI获得了阶段性颠覆成果。
从此次发布会看,与其他AI搜索相比,谷歌AI搜索的差异性有限,更多体现在多模态。换句话说,仅从功能上看,谷歌的AI搜索并未与Perplexity们拉开质的差距。
被“压制”的谷歌
谷歌的I/O大会仅比OpenAI的春季功能更新会晚一天,两者很容易被人拿来进行对比。
要说重视程度,谷歌肯定完爆OpenAI。OpenAI的发布会开了仅仅半个小时,主要介绍了新模型GPT-4o和ChatGPT在语音和视觉功能上的升级。而谷歌则开了整整两个小时,一口气拿出来十来款新品及升级,所有武器库倾巢而出,全面对标OpenAI。
但努力并不意味着最后的结果。尽管谷歌发布产品很多,但没有任何一款给人带来GPT-4o那样的惊艳感,显得多少有些“鸡肋”。
发布会效果比不过就算了,流量也比不过。就在谷歌发布会的同一时间,OpenAI首席科学家Ilya Sutskever在X发布了自己离开OpenAI消息,再次抢走了谷歌发布会的关注度。
一个无比残酷的事实是,自2022年12月ChatGPT发布以来,曾经AI领域的扛把子谷歌就一直被OpenAI压制得死死的,毫无还手之力。
去年2月,OpenAI的ChatGPT风靡全球,谷歌草草推出了聊天机器人Bard,产品却不如预期。先是演示中出现事实错误,让谷歌母公司一夜之间市值蒸发千亿美元;而后也没能以性能表现吸引足量用户,据Similarweb的数据,Bard全球月访问量只有2.2亿次,仅为ChatGPT的1/8。
2月16日大年初七,谷歌放出其大模型核弹Gemini 1.5,并将上下文窗口长度扩展到100万个tokens。Gemini 1.5 Pro可一次处理1小时的视频、11小时的音频、超过3万行代码或超过70万字的代码库,向还没发布的GPT-5发起挑战。没过几天,OpenAI发布了文生视频大模型Sora,后来的结果大家都知道了。
如今,这样的故事还在延续。至少到目前为止,OpenAI的策略很成功,通过锚定谷歌的产品发布节奏,死死压制住了谷歌。这也谷歌AI始终摆脱不了一个外界印象:
谷歌AI很强,但与OpenAI相比,还不够。