展会信息港展会大全

面壁智能发布多模态大模型MiniCPM-o 2.6,让AI一直“睁着眼”
来源:互联网   发布日期:2025-01-17 19:31:29   浏览:239次  

导读:AI未来指北特约作者 郝博阳编辑 郑可君在科幻电影《Her》中,主角Theodore爱上了一个能看能听、富有同理心的AI助手Samantha。这个故事上映时看似遥不可及,但在过去的十年里,AI领域的进展让这个未来逐渐清晰。2024年5月,OpenAI的GPT-4o让我们看到了一个能实现类似Samantha般自然交互的AI系统它能实时理解视频、识别语音,并以自然的方式回应。然而,这样的系统被锁在云端的数 ......

AI未来指北特约作者 郝博阳

编辑 郑可君

在科幻电影《Her》中,主角Theodore爱上了一个能看能听、富有同理心的AI助手Samantha。

这个故事上映时看似遥不可及,但在过去的十年里,AI领域的进展让这个未来逐渐清晰。2024年5月,OpenAI的GPT-4o让我们看到了一个能实现类似Samantha般自然交互的AI系统它能实时理解视频、识别语音,并以自然的方式回应。然而,这样的系统被锁在云端的数据中心里,需要强大的算力支持和稳定的网络连接。

面壁智能最新发布的MiniCPM-o 2.6,正在试图改变这一现状。这个只有8B参数的模型相当于GPT-4o尺寸的一小部分成功将类似能力搬到了端侧设备上。更令人惊讶的是,在某些特定场景下,这个"小模型"的表现甚至超越了它的云端前辈,比如GPT-4o和Claude 3.5 Sonnet。

小身材,大能量如果说Deepseek V3让人叫绝的是用极低的训练成本,训练出了非常强大的模型,那MiniCPM-o 2.6就是用很小的参数,在视觉理解和语音类任务方面获得了出色的效果,在其他领域也没有什么短板。

面壁智能发布多模态大模型MiniCPM-o 2.6,让AI一直“睁着眼”

视觉理解方面,它在MMVet基准测试中的排名仅次于GPT-4。在OpenCompass综合评估中得分70.2,超过了同期的一些主流大模型。

语音处理能力也相当扎实,MiniCPM-o 2.6的LibriSpeech测试成绩98.3分,Speech Llama Questions得分71.7分,AudioArena评测获得1200分,多项指标接近顶尖水平,仅次于GPT-4o。

在各类具体任务上,包括TextVQA(85.8分)、ChartQA、DocVQA等细分场景,以及跨语言理解如英译中等方向,都展现出了不错的基础能力。考虑到模型规模,这些表现算是相当不错了。

真正视频理解要让AI一直在观察"大多数声称支持视频理解的AI其实都不够格,"面壁智能的一位研究员在展示系统时告诉科技新闻,"它们的所谓'视频理解',实际上就是在用户提问后抓取几个关键帧来分析。

这就像看电影时一直闭着眼睛,只在别人问问题时才睁开眼看一眼。你觉得这样能真正理解剧情吗?

这就是当前很多视频理解AI的痛点。

因为这些视频理解模型实际上都是"照片模型"的扩展。它们采用"询问驱动"的方式工作:等待用户提问,然后从视频中截取几个关键帧来分析。

这种方法有几个致命的缺陷:

首先,它们无法捕捉视频中的动态信息。有些动作的变化它可能无法理解。

其次,它们缺乏对前文的感知能力。在一个悬疑片段中,早期场景中的细微线索可能是理解后续情节的关键。但这些模型只能看到用户提问时刻的画面,完全错过了重要的上下文信息。

永远睁着眼睛的观察者而这次面壁智能的新模型采用了完全不同的方法。MiniCPM-o 2.6被设计成一个"永远睁着眼睛的观察者"它会持续处理输入的视频流,不断更新自己对场景的理解,即使在没有用户提问的时候也保持着持续观察。

这种设计在实际应用中展现出显著优势。在一个测试场景中,研究人员让模型观看一段"三仙归洞"魔术视频。传统的视频AI只能看到最终的结果三个杯子和一个不知所踪的小球。而MiniCPM-o 2.6能够准确追踪整个过程:魔术师的手法、小球的运动轨迹、以及关键的误导动作。

面壁智能发布多模态大模型MiniCPM-o 2.6,让AI一直“睁着眼”

在这种持续的“流式”视频理解下。模型不仅能看到“发生了什么”,还能更好的理解“为什么”和“怎么做到的”。

这种卓越表现一方面来自于其端到端的流式处理架构。传统语音模型通常需要ASR(语音识别)、LLM(语言理解)、TTS(语音合成)等多个独立模块协同工作,而MiniCPM-o通过统一的流式骨干网络,将这些步骤融为一体。这不仅降低了延迟,提高了效率,更重要的是能实现更自然的语音交互体验,突破了以往模块化方案的瓶颈。

另一方面就要靠MiniCPM-o 2.6的另一个技术创新了。

端到端的稠密化信息处理实现这种持续性的视频理解并非易事,面壁团队开发了一套创新的流式处理机制,让MiniCPM-o 2.6模型能够在有限的计算资源下持续处理视频流。

它的核心绝招就是“稠密化”也就是极致的压缩和细小的切片。

这个系统的核心是一个名为OTDM(Omni-modality Time Division Multiplexer)的组件。它把一般模型中离线的模态编码器/解码器改为在线版本,以适应流式输入/输出。

如果我们不对模型实时接收到的信息做分组,视频帧声音信号和声音信号的不断涌入会冲垮模型本身的上下文限制,模型会在这样的信息洪流中"崩溃"。而只截取其中的极少帧又会出现视频理解的障碍。

OTDM采用了一种优雅的解决方案:它将音视频的时间切成1s左右的片段,而且在每个片段中只处理最重要的信息。

这既能保证信息的相对完整性,又不至于让响应时间过长。比如如果模型没切片,那一个十秒的视频,它至少得处理五秒才能开始回答。

面壁智能发布多模态大模型MiniCPM-o 2.6,让AI一直“睁着眼”

除了切片外,通过精心设计的压缩算法,模型能够用极其紧凑的方式存储视频信息。在处理180万像素的高清画面时,它只需要生成640个视觉token,这比传统方法节省了75%的计算资源。这直接提升了推理速度、首令牌延迟、内存使用及功耗表现。还能让模型记得更久,包含更多信息点。

在极致的压缩和对时间的细致切片之下,MiniCPM-o 2.6才能做到持续关注视频流,建立起完整的情境理解。也因此能回答问题时才能联系到之前看到的所有细节。

在面壁给出的另外一个例子里,MiniCPM-o 2.6和开发人员玩了一个记忆牌游戏。在大概15秒左右的游戏过程中,模型依然能记得最开始牌摆放的位置。

面壁智能发布多模态大模型MiniCPM-o 2.6,让AI一直“睁着眼”

这一系列模型上的革新,使得在实时流式视频理解能力的代表榜单 StreamingBench上,MiniCPM-o 2.6 性能足以比肩GPT-4o、Claude-3.5-Sonnet,超过其他开源端侧模型。

面壁智能发布多模态大模型MiniCPM-o 2.6,让AI一直“睁着眼”

这种能力在实际应用中有非常重要的意义。比如在自动驾驶系统里,它需要不仅要看到当前的路况,还要记得前几秒发生的一切;或者一个安保系统,它需要理解一个可疑行为的整个发展过程,而不是孤立的片段。

拓展语音理解和生成的边界除了视频理解方面的加强,MiniCPM-o 2.6在听和说上也有一些拓展,比如加入了对环境音的理解。

在测试中,它能准确识别GPT-4o都难以捕捉的复杂音频环境:嘈杂咖啡厅里的多人对话、街道上的环境声、甚至远处的背景音乐。这些动作与场景的声音,有时候对于理解场景和动作本身也非常关键。另外,对于这些背景音的辨别也能让模型在识别语音时有更好的抗干扰能力。

另一方面,MiniCPM-o 2.6和GPT-4o一样,能够随时被打断,且具备情感与语气表达。你还可以控制语音生成的音色和风格,在展示阶段,工作人员给我们展示了一段MiniCPM-o 2.6模仿特朗普的演示,语调确实很准确。而且作为中国模型,它也能熟练掌握部分方言,比如四川话。

对于端侧AI,也许多模态能力更重要在当下大模型公司更追求强化学习带来的复杂推理能力时,面壁科技选择了发布新的多模态模型,提升了其实时和长效的理解能力,这看似有点没跟上时代潮流。

但端侧设备最大的优势就是贴近用户的真实场景,它能第一时间获取最丰富的环境信息。如果不能实时理解这些多模态信息,再强大的推理也只能纸上谈兵。

想象一个滴滴司机的场景,疲惫的司机在晚上11点正在送最后一位乘客,传统的疲劳检测只覆盖眼动和点头情况,但真实世界远比这要复杂:司机说话声音越来越低,空调声音盖过了导航,路况不好时方向盘握得更紧...这些细节都是疲劳驾驶的预警。一个真正有用的AI助手必须能实时理解这些多模态信息,在危险发生前就做出预警。

因为算力限制,端侧的核心可能不是能回答多少复杂问题,做出多少步推理,而是能否准确理解真实场景是否能及时做出恰当响应。

在Apple Intelligence频繁跳票,多模态功能尚未上线的年末,OpenAI和谷歌接连推出了GPT-4V正式版和Project Astra。这两个产品的核心都瞄准了多模态理解。

而这可能才是端侧AI的真正痛点。

解决了它,也许我们才迈出了AI超越Chatbot,进入AI硬件的第一步。

赞助本站

AiLab云推荐
展开

热门栏目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能实验室 版权所有    关于我们 | 联系我们 | 广告服务 | 公司动态 | 免责声明 | 隐私条款 | 工作机会 | 展会港