作者|陶然 编辑|魏晓
赶在春节前最后一周,字节掏出了今年国产语音大模型的天花板,豆包实时语音大模型。/p>
收官之作,依然延续了过去大半年字节AI团队的风格不掏则已,一掏就是王炸。
从年中的基础模型、视频生成模型,到年尾的视觉理解模型,对比同行来看豆包通常不是那个发的最快的,可一旦做出来,基本就预定了赛道内未来一段时间的No.1。
实时语音模型,又是这个节奏。
对话模型的风口由OpenAI掀起,GPT-4o实时对话刚发布那会儿,圈里人惊呼Her或者Jarvis这类影视作品中的AI助理概念神终于出现在了现实当中。
国内玩家自然也是也迅速跟进,本就擅长语音技术的科大讯飞在八月更新了“超拟人交互”,豆包之前的国内AI顶流Kimi也在10月份更新了实时AI电话(但本质上是T2S,转文字处理再转回语音输出)。
不过现在豆包来了,而且又双后来居上、直接封王了。
“你不说
这谁听得出来是AI啊?”
以下内容建议佩戴耳机浏览。
无不良引导,主要是希望你开大点声仔细听,才能听到各家语音大模型输出上的差异,以及最重要的,豆包团队在声音细节方面究竟打磨到了什么程度。
年关将至,又到了回家团圆的美好氛围,被七大姑八大姨的夺命连环Q击碎的时候:上班了吗发钱了吗奖金有吗买房了吗买车了吗谈对象了吗要孩子了吗。
让AI给你答题已经是去年的玩法了,今年,AI除了能告诉你怎么脱困之外,还能给你带来足额精神慰藉,拉满的情绪价值。
再次建议佩戴耳机,听得细致些。
我:“唉这马上要过年了,我这心里真是又期待又发愁。回家跟家人团聚是挺好的一件事,但我一想到那七大姑八大姨就头疼。你知道我每一次回去,就肯定有一票的人追着问我什么相亲啊,工作啊,工资啊这些事情。就坐在桌子上跟被审问一样,我怎么办呢我天?”
Kimi语音片段
Kimi:“这确实挺让人头疼的。我每次回家也差不多,不过你可以在被问到的时候,就简单说一些比较正面的话,比如说你对工作的满意程度,或者你对未来的规划。这样他们可能就不会一直追问了。怎么样,可以试试看吗?”
首先Kimi这个明显感觉有点卡,从结束收音(屏幕中间那个音量标识停止跳动)到Kimi开始回答问题,中间起码等待了大概一两秒的时间,显示Kimi思考中。
回答内容问题不大,但你听起来(尤其经常用AI,哪怕是AI骚扰电话接多了的人)会察觉到一股机械感。语音语调过于平稳、没有起伏是一方面,AI回答的每个句子之间断句和衔接非常突然,真人平时说话的时候两句中间喘口气、顿一下的感觉完全没有,甚至听起来像是刻意被切掉了。
只有一处“……比较正面的话”和“比如说……”中间听起来像是有人聊天时候的停顿和吸气。
顿挫这个点很关键,Mark一下继续往后听。
讯飞星火语音片段讯飞星火:“过年回家确实让人又爱又恨啊。七大姑八大姨的关心有时候真的会让人有点受不了。要不你提前给自己找些话题,比如聊聊你的兴趣爱好,或者讲讲最近看的电影、书什么的?这样他们就不会一直问那些让你烦心的问题了。”
讯飞的速度和效果比Kimi好一些,至少句子之间接的比较自然,间隔合理。但还是有些问题没有解决,首先是语音语调,从开始到结束都极为平稳,毫无波澜就显得非常不自然非常AI,唯一一处能听到换气声音的地方又在“比如”这个词前后:……找些话题,比如聊聊……
猜测大概是和Kimi类似,模型训练语料库当中包含“比如”的句子前面都有一个明显的吸气和停顿,所以AI也get到了这个习惯。毕竟人一般聊天的时候,拿比如举例子前面基本都是要顿一下的。
回看Kimi和讯飞的回复内容,文字也是一个套路:xxxx确实xxx,然后回答问题。
这样是OK的,但不够好。具体怎么不够好,听完豆包的回答你就知道了。
豆包语音片段
豆包:“我懂我懂,这过年本来是开心的事儿结果还要被盘问,真是够够的,那你要不这样,就提前准备一些万能回复,比如说,嗯,工作还行啦谢谢关心,啊我还不着急结婚呢遇到合适的再说。或者你也可以用一些幽默的方式化解,就打个哈哈就过去了嘛。那你之前有没有试过什么办法?”
没反应过来就对着文字再听一遍,什么叫以假乱真,什么叫高下立判。
简单解释一下豆包神在哪里:先看文字部分,没有公式化的承接,套路化的确实,你面对的就是身边一个跟你玩的非常非常熟络的姐妹,“我懂我懂,真是够够的”,估计平时聊八卦或者追星也是这个调调。
“那要不你这样”、“打个哈哈”也是一样的口语化表达。
还有,仔细听每两句话中间的衔接:“还要被盘问(嘶,吸气)音,真是够够的(嘶,又是一遍吸气音)”、“比如说,嗯…(停顿思考音)”,“(吸气)啊…我还不着急结婚呢”……
这个东西没法再用语言去过多的解释,你抓个身边人聊聊会发现人和人平时聊天就是这么聊的。
豆包做到了没有机械感,完全没有。
蓝媒君把这个视频转成录音发给了好兄弟,没跟他说是AI,几分钟后的回复是:“哦呦,有情况啊今年?嫂子声音还挺好听(狗头)”
真的,你不说这谁听得出来是AI啊。
真实流畅背后的技术密码
这就是国产AI语音新的天花板,豆包把原来的顶层捅了个干净,然后往上又加盖了好几层。
怎么做到的呢?
长久以来,传统语音对话系统多采用级联模式,即先通过自动语音识别(ASR)将语音转成文本,再由大语言模型(LLM)生成对话文本,最后经文本转语音(T2S)输出。
这种模式虽广泛应用,但问题不少。比如,它对用户情绪及语音中的细微信息理解欠佳,生成语音的情绪表现有限,难以遵循复杂语音指令,且在实时交互中存在高延迟问题。
豆包语音大模型则另辟蹊径,研发出端到端框架。该框架面向语音生成和理解统一建模,深度融合语音与文本模态。在预训练阶段,对海量的各模态交织数据进行深入挖掘,借助Scaling理念,将语音与文本能力深度融合,实现能力的涌现。
这就好比搭建一座大厦,传统模式是各部分分开建造再拼接,而豆包语音大模型则是从地基开始就整体规划,让语音与文本紧密相连,为后续的优秀表现奠定基础。
图片由豆包大模型生成
同时,为实现拟人化情感承接,团队在数据收集阶段,就精心挑选各类包含丰富情感的语音数据,从欢乐到悲伤,从兴奋到沮丧,为模型提供充足养分。
预训练时,又设计专门算法,让模型精准捕捉语音中的情感特征;后训练阶段,再通过真实与高质量合成的语音对话数据进一步优化,使模型能敏锐感知用户情绪。当用户开心时,它以欢快语气回应;用户低落时,送上温暖安慰,真正做到与用户共情。
至于蓝媒君前面写的顿挫那些细节,豆包团队也做了解释:在智商与表现力之间找到平衡。
在语音输入时,它深度理解各维度信息,确保输出内容真实有用。同时,输出语音极具真人表现力,包含语气词、停顿思考等类人副语言特征。为实现这一目标,团队在数据和算法上发力,保证多模态语音对话数据语义正确且表现自然。通过多轮数据合成生成高质量语音数据,并定期进行多维度评测,依据结果调整训练策略,始终维持平衡。此外,实时联网功能让模型能获取最新信息,精准回应时效问题。
找到正确的技术路径+大力出奇迹的方法论,被字节再次验证。
One More Thing
豆包现在有多猛呢?一家撑起了中国2CAI的半边天。
研究机构QuestMobile数据显示,截至2024年11月底,中国AIGC APP整体月活用户数量已经破亿,相比6月份的统计数据实现了翻倍增长。
而在众多AIGC APP中,字节跳动旗下的豆包表现一枝独秀、一家独大:豆包11月月活达到5600万左右,占据了行业近半数的月活用户。后方像Kimi、文小言等APP,尽管看排名仍是头部,但和豆包已经有了明显的体量差距;而在12月,豆包的月活规模进一步增长至7522万。
图源/QuestMobile
另据AI产品榜的APP统计(两机构数据略有出入)显示,截至12月底,豆包的MAU超过7100万,而榜单前十名中,除去豆包之外其余APP的MAU总和才仅为6900万(Kimi和文小言的MAU分别为1600万和1300万)。
2024 AI 年度总结其一:大模型时代的第一个超级APP,大约已经出现了。
Lanmeih/今日话题
你体验豆包语音大模型了吗,感觉如何?
咱们评论区聊聊~