MiniMax,选择用开源「震撼」一下全球同行。
作者 | Li Yuan编辑| 郑玄
大模型时代已经正式迈入第三年。回首过去的两年,不禁令人感慨。每年都有基座大模型架构已经尘埃落定的声音,然而每年,技术都在飞快地迭代创新,突破人们想象。2024 年,OpenAI 的推理模型,通过对模型架构的创新,用 RL 的方法延续 Scaling Law,让大模型的智力水平持续进展;而中国公司也并没有落后,价格屠夫 DeepSeek 通过 MLA 的架构创新,让推理成本直接降低了一个数量级。2025 年开年,令人欣喜的是,我们看到了一向在人们印象中是「低调做产品」的 MiniMax 公司,也加入了开源行列,将最先进的底层技术直接与社区和行业分享。1 月 15 日,大模型公司 MiniMax 正式发布了 MiniMax-01 系列模型。它包括基础语言大模型 MiniMax-Text-01,和在其上集成了一个轻量级 ViT 模型而开发的视觉多模态大模型 MiniMax-VL-01。
开源界面|图片来源:GitHub「卷」起来的大模型公司,令人乐见。开源会提升创新效率,越来越好的基座模型之上,才搭建越来越有用的应用,进入千家万户,帮人们解放生产力。这是 MiniMax 第一次发布开源模型,一出手就是一个炸裂模型架构创新:新模型采用了 MiniMax 独有的 Lightening Attention 机制,借鉴了 Linear Attention(线性注意力)机制,是全球第一次将 Linear Attention 机制引入到商业化规模的模型当中。效果也是立竿见影,模型上下文长度直接达到了顶尖模型的 20-32 倍水平,推理时的上下文窗口能达到 400 万 token。模型效果立刻在海外上引起了关注。
X 用户感叹 MiniMax-Text-01 可以在 400 万 token 上实现完美的海底捞针 | 图片来源:X
另一个来自中国公司的强大模型,在学术测试集上表现优越|图片来源:X模型的上下文窗口,指的是模型在生成每个新 token 时,实际参考的前面内容的范围。就像是模型能够一次性从书架上取下的书籍数量。模型的上下文窗口越大,模型生成时可以参考的信息量就越多,表现也就更加智能。站在 2025 年年初的时间点,长上下文窗口还有一个新的意义:为模型的 Agent 能力,打下坚实基础。业界公认,2025 年,Agent 能力将是 AI 届「卷生卷死」的重点,连 OpenAI 都在本周内推出了 Tasks,一个 AI Agent 的雏型。在 2025 年,我们很有可能看到越来越多真正「全自动的」AI,在我们的生活中起作用。甚至不同「全自动的」的 AI 共同协作,帮我们处理事务。而这对基座模型的能力,有极大的考验。而长上下文是 Agent 能力实现的必要条件。看起来,2025 年,基座大模型之战仍未结束;中国公司发力,也才刚刚开始。01
Linear Attention 架构的第一次大规模使用此次 MiniMax 开源的模型,最大的创新点,在于使用了 MiniMax 独有的 Lightening Attention 机制,这是一种线性注意力。在传统的 Transformer 架构中,最「烧」算力和显存的部分往往是自注意力(Self-Attention)机制。原因在于,标准的自注意力需要对所有的词(Token)两两计算注意力分数,计算量随着序列长度 n 的增长是平方级(O(n))。如果用通俗的语言来形容,类似于你在举办一场联谊会,人很多。如果每个人都要两两打招呼,沟通成本会随着人数增加而急剧上升,每个人都得重复无数次「握手」。这带来了一系列的问题其中一个就是,联谊会的人数,也就是模型的上下文的窗口,很难无限扩展。硬要扩展,对于算力的需求就非常高。为了应对这一挑战,传统上,研究人员提出了各种方法来降低注意力机制的计算复杂度,包括稀疏注意力、Linear Attention(线性注意力)、长卷积、状态空间模型和线性 RNN 等方式。此次 MiniMax 开源的模型,就是借用了其中的 Linear Attention(线性注意力)的方式。Linear Attention 的思路就像给会场安排了几位「速配助理」。每个人先把自己的关键信息交给助理,比如「希望认识什么样的人、擅长什么」。助理整理这些信息后,直接告诉每个人最适合交谈的对象。这样,大家不必一个个自我介绍,整个匹配过程更高效,沟通成本大幅降低。不过,Linear Attention 之前虽然在理论上有所创新,但在商业规模模型中的采用有限。而 MiniMax 团队则第一次验证了 Linear Attention 机制在商业规模的大模型之上的可行性。这意味着一项技术从实验室走向真实世界。MiniMax 团队使了一个传统的 Linear Attention 的变种,被 MiniMax 团队称为 Lightning Attention。Lightning Attention 解决了现有 Linear Attention 机制计算效率中的主要瓶颈:因果累积求和操作的缓慢,使用新颖的分块技术,有效规避了累加和操作。在一些特定任务,如检索和长距离依赖建模上,Lightning Attention 的性能表现可能不如 Softmax 注意力强。MiniMax 团队又引入了混合注意力机制解决这一问题:在最终的模型架构中,在 Transformer 的每 8 层中,有 7 层使用 Lightning Attention,高效处理局部关系;而剩下 1 层保留传统的 Softmax 注意力,确保能够捕捉关键的全局上下文。这样的架构创新,效果十分惊艳。MiniMax-01 系列模型参数量高达 4560 亿,其中单次激活 459 亿。在主流模型目前的上下文窗口长度仍然在 128k 左右的时候,MiniMax-01 系列模型能够在 100 万 token 的上下文窗口上进行训练,推理的时候上下文窗口可以外推到 400 万 tokens,是 GPT-4o 的 32 倍,Claude-3.5-Sonnet 的 20 倍。在面向现实情景,进行长上下文多任务进行深入的理解和推理的第三方测评 LongBench v2 的最新结果中,MiniMax-Text-01 仅次于 OpenAI 的 o1-preview 和人类,位列第三。
模型在 LongBench v2 上的评测表现 | 图片来源:GitHub LongBench在模型的基础表现上,MiniMax-01 系列模型也在标准学术基准测试中可与顶级闭源模型相媲美。不仅如此,在模型上下文长度逐渐变长的过程中,模型的表现下降也最平缓部分模型虽然宣布上下文窗口长度较长,但真正使用起来,在长上下文情况下,效果并不好。
MiniMax-01 系列模型可与顶级闭源模型相媲美 | 图片来源:MiniMax 论文MiniMax 团队对比了在 CSR(常识推理)、NIAH(大海捞针)和 SCROLLS 等基准测试上,在同样的计算资源下,用采用了 7/8Lightning Attention 和 1/8 的 Softmax 的混合注意力模型可以放更多参数、处理更多数据,并且训练效果还比只用 Softmax 注意力的模型更好,损失更低。
基准测试上混合 Lightning Attention 的架构表现更好 | 图片来源:MiniMax 论文02
为 Agent 时代爆发的前夜做准备自 2024 年开始,长上下文一直是模型迭代的一个重要方向。在这个领域,国外的 Google、Anthropic,国内的 Kimi,都是坚定的投入者。2024 年年末,DeepMind 的 CEO Demis Hassabis 曾表示,在内部测试中,Google Gemini 正在向无限上下文窗口发起冲击。或许有人会困惑,此次 MiniMax 发布的 MiniMax-01 系列模型,上下文窗口长度已经达到 400 万 token,如果按照两个 token 约等于一个中文汉字的计算方式,已经约等于 200 万字的上下文窗口。人类需要和 AI 聊出这么多的上下文吗?答案是,盯住长上下文的各家公司,可能盯住的并不是目前的一问一答的问答 AI 场景,而是背后的 Agent 时代。无论是单 Agent 所需的持续记忆,还是多 Agent 协作所带来的通信,长链路的任务都需要越来越长的上下文。长上下文,在多种 Agent 应用场景中,将具有极大的意义。在搜索场景中,这可能意味着用户可以一次性看到更多答案的综合,直接获得更精准的回答。未来的效率工具中,这可能意味着用户拥有了无限的工作记忆。在无数版本的修改之后,当甲方让你还是用第 1 版的文章结构和第三版的小标题的时候,你可以无痛回复「好的」,然后让 AI 一键生成两个版本的融合。未来的学习工具中,这可能意味着用户可以直接具有更大的知识库。直接上传一本教材,就能让 AI 根据其中的内容,进行教学。而在和 AI 助理的对话中,它将像聪明的人类助理一样,真正记住你之前说过的话,并在你需要的时候「记起来」。MiniMax 团队的论文当中的一个场景就很能说明问题。模型被要求从最多 1889 条历史交互(英文基准)或 2053 条历史交互(中文基准)中精确检索出用户的一条历史互动用户重复要求 AI 写关于企鹅的诗歌,同时进行了多轮不相关的对话,而在最后,要求 AI 提供第一次写的关于企鹅的诗。而 MiniMax-01 仍然很好地完成了这一任务。
长上下文的任务表现 | 图片来源:MiniMax 论文对于 Agent 来说,另一个重要能力,则是视觉理解MiniMax 此次同系列也发布了 MiniMax-VL-01。这是一个同样采用了线性注意力架构、以及拥有 400w token 上下文窗口的视觉多模态大模型。在 2024 年 Rayban-Meta 眼镜爆火之后,今年的智能硬件的一大看点在于 AI 眼镜能否真正让 AI 成为人们的随身助手。而能成为随身 AI,AI 必须的能力就是长上下文记住你的所有生活场景,才能在随后为你提供个性化的提醒和建议。这样的记忆将是「真记忆」,与 ChatGPT 目前的记忆功能所能提供的简易效果完全不同。要真正实现随身的 AI Agent,跨模态理解、无限上下文窗口都是基础能力。论文最后,MiniMax 表示未来将在线性注意力这一路径上做到极致,尝试完全取消 Softmax 注意力层,最终实现无限的长上下文窗口。03
基座模型创新未死,中国公司大有可为值得注意的是,这次是 MiniMax 公司,第一次推出开源模型。此次的大模型命名的 MiniMax-01 系列,在 MiniMax 的内部序列中,原本是 abab-8 系列模型。MiniMax 在上一代 abab-7 模型中,已经实现了线性注意力和 MOE 的架构,而在 abab-8 中,取得了更好的效果。此次,MiniMax 选择在这个时间点,将模型开源出来,并以这个节点为开始,重新命名模型 MiniMax-01。这似乎代表着 MiniMax 的公司哲学的一种改变。在过往,MiniMax 公司给外界一向的印象是:业务很稳定,做事很低调。从星野、Talkie 到海螺 AI,MiniMax 有自己忠实的一波用户群体。在去年的公开发布中,MiniMax 曾经表示每天已经有 3 万亿文本 token 的调用,在国内 AI 公司中名列前茅。这些应用背后的 AI 技术则一直较为神秘,在此之前主要用于支持公司本身的业务。这次开源,似乎是一个转折,是 MiniMax 第一次对外高调展示技术实力。MiniMax 方面表示,模型可以在 8 个 GPU 单卡、640GB 内存上,就能够实现对 100 万 token 进行单节点推理。希望此次开源帮助其他人开发能够突破当前模型的局限。回顾过往,自 OpenAI 推出 ChatGPT、Meta 发布 Llama 系列开源模型以来,一直有声音表示基座模型的创新已趋于终结,或仅有少数国际科技巨头具备未来模型架构创新的能力。最近两次中国公司的开源动作,告诉我们并非如此。2024 年,DeepSeek 凭借其突破性的 MLA 架构,震撼了全球 AI 行业,证明了中国企业的技术创造力。2025 年年初,MiniMax 再次以其全新的 Lightning Attention 架构刷新了行业认知,验证了一条此前非共识的技术路径。中国 AI 公司不仅具备工程化和商业化的能力,更有能力推动底层技术创新。新的一年,不论是 AI 应用的普及,还是技术金字塔尖的攻坚,我们可以对中国 AI 公司有更多的期待。*头图来源:视觉中国本文为极客公园原创文章,转载请联系极客君微信 geekparkGO极客一问你如何看待开源这件事?