导读部分 返回列表
国产AI创业公司MiniMax预告下一代M3模型架构,采用全新稀疏注意力机制,在百万token超长文本场景下实现15.6倍解码速度提升。本文深度解析这一技术突破及其对AI行业的深远影响。
正文内容
国产AI大模型领域再传重磅消息。MiniMax(稀宇科技)近日在技术博客中预告了其下一代M3模型的架构细节,其中最引人注目的是全新的稀疏注意力机制(Sparse Attention Mechanism),让模型在百万token序列长度的解码阶段实现了高达15.6倍的速度提升。这一技术突破不仅展示了MiniMax在底层模型架构上的创新能力,也为大模型的长文本处理效率问题提供了全新的解决方案。

稀疏注意力:大模型推理效率的关键突破
在现代大语言模型中,注意力机制(Attention Mechanism)是让模型理解文本上下文关系的核心技术。然而,传统的注意力机制在处理长文本时,每一个新生成的token都需要与之前的所有token计算注意力分数,导致计算量随文本长度呈二次方增长。这就是为什么很多AI模型在处理长文档、代码库或对话历史时,会变得越来越慢。
MiniMax M3模型采用的稀疏注意力机制,从根本上改变了这一局面。它不再让每个token”关注”所有历史token,而是智能地选择最相关的少数token进行计算。打个简单的比方:传统注意力就像你在读书时每一页都要从头看到尾,而稀疏注意力则让你能直接翻到最重要的章节。在百万token(约70万汉字)的超长文本场景下,这种机制让解码速度提升了15.6倍,为大模型处理长文档、多轮对话、代码仓库等场景打开了新的可能。
从M2到M3:MiniMax的演进之路
回顾MiniMax的模型发展历程,我们可以看到一条清晰的技术进化路线。M2系列首次引入了”交错思考”协议(Interleaved Thinking Protocol),让模型能在自然语言推理和工具调用之间自由切换,不再是单纯的文本生成器,而是具备了自主行动能力的AI Agent。
M2.5版本更是在内部实现了令人瞩目的成果——完成了MiniMax公司内部30%的开发任务和80%的新代码提交。而M2.7则更进一步,在OpenAI的MLE Bench Lite基准测试中,以66.6%的奖牌率与Google的闭源模型Gemini 2.0 Flash打平,展现了小模型的巨大潜力。
为了训练这些长周期自主工作流,MiniMax还自研了名为”Forge”的可扩展Agent原生强化学习系统,将执行过程解耦为Agent端、中间层和任务集群三个独立模块,实现了高效的并行训练。

稀疏注意力的行业意义
在当前大模型军备竞赛日趋白热化的背景下,MiniMax选择在注意力机制这一基础架构层面进行创新,具有重要的行业意义。与单纯追求参数规模和训练数据量不同,稀疏注意力直接解决的是大模型在实际应用中”推理慢、成本高”的核心痛点。
对于企业和开发者来说,这意味着可以用更低的算力成本实现更长上下文的高效推理。无论是处理百页合同、分析完整代码仓库,还是进行长时间的多轮对话,都将获得质的飞跃。
值得注意的是,MiniMax并非唯一在稀疏注意力领域探索的团队。Google、Mistral等国际团队也在不同程度上尝试了类似思路,但MiniMax在百万token级别的15.6倍加速效果,是目前公开报道中最亮眼的数据之一。
国产大模型的差异化竞争
在DeepSeek、通义千问、文心一言等国产大模型全面发力的2025年,MiniMax选择了一条”小而美”的技术路线——不做参数规模的军备竞赛,而是在模型架构效率和Agent能力上做深做透。
M3模型的预告,标志着中国AI创业公司在底层模型创新上正在从”跟随者”转变为”探索者”。稀疏注意力机制如果能够在实际部署中兑现其性能承诺,MiniMax有望在长文本处理、AI Agent等细分赛道上建立起独特的竞争优势。
据悉,MiniMax将在近期发布完整的技术报告和M3模型的更多细节,我们也将持续关注这一国产AI新星的最新进展。
本文出自 AI一族,原文链接:https://www.aiyizu.cn/?p=2940
转发请注明出处,禁止未经允许用于任何商业用途。