正文内容

你有没有发现一个现象:最近身边搞技术的朋友,聊开源模型时嘴里蹦出来的名字,越来越“中国”了?
不是Meta的Llama,不是谷歌的Gemma,而是——Qwen、DeepSeek、Kimi、GLM。
这背后不是错觉,是一场正在发生的全球开源模型权力转移。
就在4月2日凌晨,谷歌DeepMind的CEO Demis Hassabis在X上发了四颗钻石emoji,几个小时后谜底揭晓:Gemma 4正式发布,谷歌号称这是“同等体量下能力最强”的开源模型。
但就在Gemma 4发布的前后脚,一份重磅报告给出了一个让硅谷沉默的结论:中国开源模型,已经在全球范围内彻底领先了。
今天,咱们就来聊聊这场“开源版图重绘”背后的故事。
01 ATOM报告:中国开源模型已全面领先
4月7日,一份名为《ATOM Report》的研究报告在AI圈炸开了锅。
这份由Interconnects AI发布的报告,系统测量了全球开源语言模型的采用情况,结论简单直接:
2025年7月,中国开源模型的累计下载量正式超越美国,之后差距持续拉大。到2026年3月,中国模型累计下载量已达11.5亿次,美国仅为7.23亿次。
什么概念?中国开源模型的下载量,已经比美国高出近60%。
更值得注意的是,这个差距还在加速扩大。报告指出,阿里Qwen是单一最大功臣,贡献了近10亿次下载,几乎是其他所有中国开源模型的总和。DeepSeek、Kimi紧随其后,形成了“一超多强”的格局。
报告还用了另一个数据来佐证:OpenRouter的推理Token份额。这是一个更“真实”的指标——下载了不一定用,但API调用是实打实的干活。
数据显示,中国模型在OpenRouter上的份额从2025年年中开始飙升,到年底已经遥遥领先。DeepSeek在其中占比最高。
报告的原话是:“中国开源模型已经从一个追赶者,变成了全球开源生态的领导者。”
02 谷歌急了:Gemma 4凌晨突袭,Apache 2.0彻底放开
就在中国开源模型势如破竹的时候,谷歌坐不住了。
4月2日凌晨,谷歌DeepMind CEO Hassabis亲自在X上官宣Gemma 4,四颗钻石对应四个版本:E2B、E4B、26B-A4B、31B。
这次谷歌明显“急了”的信号有三个:
第一,性能确实能打。 Gemma 4 31B在Arena AI排行榜上直接冲到全球开源第三,仅次于GLM-5和Kimi 2.5。它用不到十分之一的参数量,就能跟那些400亿参数的巨无霸掰手腕。MMLU Pro得分85.2%,AIME 2026数学竞赛89.2%,LiveCodeBench代码测试80.0%——这些数字放在开源模型里,已经是顶尖水平。
第二,协议彻底放开。 上一代Gemma 3用的是谷歌自定义协议,开发者抱怨了一整年。这次Gemma 4直接换成Apache 2.0——最宽松的商业友好协议,没有限制条款,谷歌也不能单方面改规则了。谷歌在博客里说:“你们给了我们反馈,我们听进去了。”
第三,全场景覆盖。 从手机到工作站,四个版本各有所长。最小的E2B和E4B可以在Android手机上完全离线运行;26B MoE推理时只激活38亿参数,速度快得飞起;31B Dense则追求极致质量,适合做精细化微调。所有版本都原生支持视频和图像输入,还支持140多种语言。
谷歌DeepMind CEO Hassabis在发布时说:“按字节计算,这是全球最强大的开源模型。”
但问题是:这个“最强大”,能挡住中国开源模型的滚滚洪流吗?
03 中国模型的“杀手锏”:不是最聪明,而是最“扛造”
如果说一年前,中国开源模型还在靠“性价比”打天下,那现在,剧本已经变了。
2月份OpenRouter的数据显示,中国AI模型的调用量三周大涨127%,首次超越美国模型。全球前五中,中国占了四席——MiniMax M2.5、Kimi K2.5、智谱GLM-5、DeepSeek V3.2。
为什么开发者纷纷“倒戈”?
核心原因不是中国模型“更聪明”,而是在Agent场景下,它们更“扛造”。
随着OpenClaw这样的智能体框架爆火,AI的使用模式从“对话型”切换到了“流程型”。一个编程任务可能经历“写代码→运行→报错→改→再跑”几十个回合,Token消耗从“按次”变成了“按流量”。
在这种负载下,价格差距就是生死线。
Claude Sonnet 4.6的输出价格是15美元/百万Token,而MiniMax M2.5约1.1美元/百万Token,差了13.6倍。假设一个生产级Agent每天处理10亿输出Token,挂Claude意味着每天约1.5万美元;同样规模用MiniMax,大约1100美元。
这不是“便宜一点”,这是便宜一个数量级。
更关键的是,中国头部模型已经不只是在“便宜”上做文章。MiniMax开发了原生Agent强化学习框架Forge,把训练加速了约40倍;Kimi K2.5支持Agent集群,能同时调度100个“分身”并行工作,实际运行时间最高缩短4.5倍。
一位开发者的评价很直白:“80%能力,20%价格”的组合,在实际部署中是碾压级的吸引力。
04 智谱GLM-5.1:开源模型首次突破8小时持续工作
就在前几天,智谱又扔出了一颗重磅炸弹。
4月8日,智谱正式发布GLM-5.1,并宣布开源。它的核心卖点让人眼前一亮:全球第一个在真实工程任务中验证了8小时持续工作能力的开源模型。
什么意思?
过去的模型是“分钟级交互”——你问一句,它答一句,然后就停了。但GLM-5.1能够在一次任务中独立、持续地工作超过8小时,期间自主规划、执行、自我进化,最终交付完整的工程级成果。
智谱的判断很清晰:下一阶段衡量模型的标尺,不是“多聪明”,而是“能工作多久”。
在涵盖50个真实机器学习计算负载的KernelBench测试中,GLM-5.1自主完成了多轮“编译→测试→分析→重写”循环,最终取得3.6倍的几何平均加速比,显著高于传统模式的1.49倍。
这意味着,AI已经从单纯的“代码生成器”,进化为“主动的系统优化器”。
更值得玩味的是,GLM-5.1发布的同时,智谱宣布再度提价10%。一年前,国产大模型还在以降价90%以上争夺市场份额;现在,智谱在Coding场景的价格已接近Claude Sonnet 4.6水平。
从“价格战”到“性能溢价”,信号已经不能再清晰了。
05 开源的真正价值:从“工具”到“基础设施”
回顾这波开源浪潮,你会发现一个更深层的变化。
ATOM报告在结论部分指出:开源权重模型正在成为研究、创业和政府层面的基础性基础设施。
这不是夸张。从个人开发者到AI初创公司,从企业级应用到国家AI战略,开源模型正在渗透到每一个角落。
a16z合伙人Martin Casado披露过一个数据:在使用开源模型的美国AI初创企业中,约80%跑的是中国模型。OpenRouter的COO说得更直接:中国开放权重模型在美国企业运行的Agent工作流中“占比异常高”。
这意味着什么?
意味着开源模型的竞争,已经不只是技术指标的竞赛,而是生态位和话语权的争夺。
谁的开源模型被更多开发者使用,谁就在定义下一代AI应用的标准。这不是一场短跑,而是一场马拉松。
06 这对你意味着什么?
聊了这么多宏观格局,你可能想问:这跟我有什么关系?
关系很大。
因为所有这些开源模型——Qwen、DeepSeek、Kimi、GLM、Gemma——最终都会变成你手边的 AI工具。
它们越来越强、越来越便宜、越来越好用。而且因为开源,你可以本地部署、数据不出门、不用为每次API调用付费。
| 开源模型 | 特点 | 你网站上可用的相关工具 |
|---|---|---|
| DeepSeek | 性价比之王,Agent场景表现出色 | DeepSeek AI助手 |
| Qwen | 全球下载量第一,生态最丰富 | 通义千问 |
| Kimi | 超长文本,Agent集群能力 | Kimi Chat |
| GLM | 8小时持续工作,工程化能力强 | 智谱清言 |
| Gemma 4 | 谷歌出品,端侧优化极佳 | (可通过API接入) |
这些模型,很多都已经集成在你 AI工具导航页 的工具里了。
开源的好处是:你不需要等巨头施舍,随时可以动手尝试。
写在最后
从ATOM报告揭示的“中国开源模型全面领先”,到谷歌Gemma 4凌晨突袭发布,再到智谱GLM-5.1突破8小时持续工作——2026年春天的这场开源大戏,信息量已经拉满。
但比这些新闻更重要的,是它们指向的一个趋势:
开源模型正在从“追赶者”变成“定义者”。
它们不再是闭源巨头的“廉价替代品”,而是正在定义下一代AI应用的技术范式、成本结构和生态规则。
而这场变革最大的受益者,不是任何一家公司,而是每一个能用上这些工具的普通人。
打开你的 AI工具导航页,从今天开始,用开源的力量武装自己。