Cohere 发布 Apache 2.0 开源 MoE 模型 Command A+:218B 参数,单卡 B200 可运行

「Attention Is All You Need」这篇里程碑式的论文,催生了当今所有的大模型。

5 月 20 日,该论文的合著者之一 Aidan Gomez 在 X 平台上宣布,推出首个完全开源Apache 2.0 许可模型:Cohere Command A+

Cohere 发布 Apache 2.0 开源 MoE 模型 Command A+:218B 参数,单卡 B200 可运行

Gomez 曾是谷歌研究员,如今是 Cohere 的联合创始人兼 CEO。

Command A+ 是 Command A 系列的收官之作,也是 Cohere 首个 MoE(混合专家)模型。它拥有 2180 亿总参数,但每次推理仅激活 250 亿参数,一次性集成了视觉输入、推理、翻译和 AI 智能体能力。

最低部署配置为:1 张 NVIDIA B200,或 2 张 H100。许可证:Apache 2.0。

Cohere 发布 Apache 2.0 开源 MoE 模型 Command A+:218B 参数,单卡 B200 可运行

https://cohere.com/blog/command-a-plus

据 VentureBeat 报道,这是 Cohere 历史上第一款真正可商用的开源旗舰模型。联合创始人 Nick Frosst 称其为「我们发布过的最好的模型」。

 

2180 亿参数,每次仅激活 250 亿

2180 亿参数,听起来像是一个算力黑洞。但 Command A+ 每次生成时,真正被激活的只有 250 亿参数。

这正是 MoE 架构的精髓所在。

一个 MoE 模型会将输入的问题仅路由给最擅长处理它的几个「专家」神经网络,其余部分保持休眠。这种设计让模型既保留了「巨头级」的知识储备和推理能力,同时运行时的算力和能耗却接近一个规模小得多的模型。

据 VentureBeat 报道,第三方观察估计,OpenAI 的 GPT-5.5、Anthropic 的 Claude Opus 4.7 的参数规模都在万亿级别,而 Command A+ 每次激活的参数仅为 250 亿。

利用 MoE 节省算力,如今已是大多数头部模型的常规做法。但 Cohere 在此基础上又叠加了第二层压缩:量化。

Command A+ 提供了 BF16、FP8 和高度压缩的 W4A4 三种版本,其中 W4A4 是本次发布的技术核心。

通常情况下,推理模型一旦被压缩,在复杂问题上的表现会明显下降,业内称之为「量化税」。

Cohere 的做法是,仅将 MoE 专家部分压缩至 4-bit,关键的注意力通路则保留全精度,并叠加一项名为量化感知蒸馏(Quantization-Aware Distillation)的技术。

Cohere 宣称其 W4A4 量化方案接近无损。根据 Cohere 发布的性能数据,W4A4 版本在低并发下每秒可生成 375 个 token,首 token 延迟仅为 113 毫秒。

正是凭借这套方案,一个 2180 亿参数的模型得以在单张 NVIDIA B200 或两张 H100 上运行。

Cohere 发布 Apache 2.0 开源 MoE 模型 Command A+:218B 参数,单卡 B200 可运行

不同并发与量化下,Command A+ 与前代 Command A Reasoning 的速度和延迟对比。TOPS 为每秒生成 token 数,TTFT 为首 token 延迟。数据由 Cohere 发布。

这里所说的「单卡运行」,指的是单张数据中心级的 Blackwell B200,而非消费级显卡。

过去,一个千亿级模型需要整个 GPU 集群来支撑,现在一台机器就能搞定。

这正是 Cohere 想要讲述的故事:大参数,不再意味着高昂的成本。

 

Apache 2.0:一张通往真正开源的许可证

如果只看参数和速度,Command A+ 是一次强大的工程升级。但更值得开发者关注的是其采用的 Apache 2.0 许可证。

在如今的 AI 圈,「开源」这个词早已被「玩坏」。

许多领先的 AI 公司虽然开放了权重,却附带限制性的商业条款:大企业不得用于商业用途,也不得用它训练竞品模型。用户可以下载、研究,但要想盈利,必须回来购买授权。

Cohere 过去在这个问题上也曾摇摆不定。

据 VentureBeat 报道,其之前的 Command R、Command R+ 模型采用了 CC-BY-NC 4.0 许可证,即「知识共享-非商业」许可。研究者和开发者可以下载、使用、评估,但严禁商用。

也就是说,开放了一半,保留了一半。但到了 Command A+,另一半也放开了。

它采用了 Apache 2.0,一个经 OSI 认可的真正开源许可证。从独立开发者到世界 500 强企业,任何人都可以使用、修改、分发并商业化这个模型,无需支付授权费,也没有竞业条款。

这是 Cohere 首次这样做,它在一个 Transformer 论文作者带领下,全面转向了真正的开源。

据 VentureBeat 报道,这个决定是由联合创始人 Nick Frosst 力主推动的。

Frosst 是 Cohere 三位联合创始人之一,曾在谷歌大脑多伦多实验室担任研究员,是 AI 教父 Geoffrey Hinton 在那里最早的雇员之一。

Cohere 将旗舰模型从 CC-BY-NC 4.0 转向 Apache 2.0,意味着企业可以彻底摆脱供应商的捆绑。

一家公司可以下载 Command A+ 的权重,用自己高度机密的内部数据进行微调,部署在私有服务器甚至气隙网络中,从此不再受制于 Cohere 的基础设施、定价变动或 API 稳定性。

 

Command A+:将「可追溯」打造成模型的原生能力

能跑和敢用,完全是两回事。

一个模型要真正进入金融、医疗、法律等生产环境,真正的瓶颈并非模型能力,而是可信度。

Command A+ 在这方面做了一个原生层面的设计:原生引用(native citation)生成。

当 Command A+ 从外部工具检索信息时,它不只是合成答案,还会生成所谓的「grounding spans(溯源标记)」。

通过在输出中嵌入特殊标签,模型将其给出的每一条事实声明,直接链接到所引用的具体文档或数据库记录。

举个例子:你让它生成一份当日销售报告,它在给出总销售额的同时,会明确标注提供这个数字的数据库查询结果。出处一目了然,幻觉风险被降到最低。

这种可追溯性,对于受到严格监管的行业尤为重要。

智能体能力也是本次发布的一个重点。

Command A+ 支持标准 chat template 下的对话式工具调用,可以无缝对接内部 API、搜索引擎或 SQL 数据库。

它还是全多模态的,能够在 128K 输入上下文中原生处理文本和图像,适用于分析扫描发票、图表和技术手册。

Cohere 发布 Apache 2.0 开源 MoE 模型 Command A+:218B 参数,单卡 B200 可运行

Command A+ 与 Command A Vision 的多模态能力对比,Command A+ 是 Cohere 首个多模态推理模型。数据由 Cohere 发布。

根据 Cohere 发布的性能数据,在测试复杂推理的 ²-Bench Telecom 上,Command A+ 从前代的 37% 跃升至 85%;在衡量智能体编码能力的 Terminal-Bench Hard 上,从 3% 提升至 25%;在 AIME 25 数学测试上,从 57% 升至 90%。

Cohere 发布 Apache 2.0 开源 MoE 模型 Command A+:218B 参数,单卡 B200 可运行

Command A+ 与前代 Command A Reasoning 在五项开源基准上的表现对比。数据由 Cohere 发布。

以上数据均来自 Cohere 自行发布,并非第三方独立评测。

VentureBeat 认为,Command A+ 以 250 亿激活参数的规模,在纯推理和数学方面可以媲美体量大得多的模型;但在深度智能体编码和综合智能的广度上,目前仍落后于 DeepSeek 等中国头部开源模型。

比跑分更重要的,是 Command A+ 将「可追溯」做成了模型的原生能力。

 

Transformer 作者联手辛顿门徒,让 Cohere 真正开源

最后,再谈谈 Command A+ 背后的两个人。

Cohere 发布 Apache 2.0 开源 MoE 模型 Command A+:218B 参数,单卡 B200 可运行

https://arxiv.org/pdf/1706.03762

2017年,Transformer架构的奠基之作《Attention Is All You Need》在谷歌诞生。该论文的八位作者中,最年轻的Aidan Gomez当时年仅20岁,身份是Google Brain的实习生,同时正在多伦多大学攻读计算机与数学本科。

Cohere 发布 Apache 2.0 开源 MoE 模型 Command A+:218B 参数,单卡 B200 可运行

Aidan Gomez

据《时代》杂志报道,为了赶上某场重要AI会议的截稿日期,他和同事们甚至直接睡在办公室里。后来他向《时代》坦言,当时没有人能预见,这篇论文会将整个AI行业推向如今的局面。

Gomez擅长将底层架构转化为可落地的产品。2017年,他还发起了FOR.ai项目,这是一个让研究者共享机器学习知识的协作平台,后来演变为Cohere For AI。

2019年,他离开谷歌大脑,与Ivan Zhang、Nick Frosst一起在多伦多创立了Cohere。三位创始人选择了一条与OpenAI截然不同的道路:不做面向大众的聊天机器人,而是专注于为企业提供模型服务。

Cohere 发布 Apache 2.0 开源 MoE 模型 Command A+:218B 参数,单卡 B200 可运行

Nick Frosst

Frosst是Cohere的联合创始人,曾在AI教父Geoffrey Hinton领导的谷歌大脑多伦多实验室担任研究员,是该实验室最早的雇员之一,业界常将他视为Hinton的得意门生。他的研究方向是胶囊网络与模型可解释性。

一位是Transformer的发明者,另一位师从Hinton。Cohere从创立之初,就具备了“将前沿研究转化为企业可用产品”的基因。

到了Command A+阶段,在Frosst的强力推动下,由Gomez拍板决定,Cohere彻底放开,将旗舰模型的许可证切换为Apache 2.0。

据Cohere官方透露,Command A+是Command A家族的最后一个模型,这通常也意味着,下一代家族已经在路上了。

长期以来,数据隐私与成本控制,一直将企业死死卡在这样一个瓶颈中:想要使用前沿AI,就必须依赖中心化的大型算力集群。

这一次,Command A+将前沿级别的推理能力、稳健的智能体工具调用、多模态能力,与一套专为硬件效率设计的架构紧密绑定。这一转变,正在重新书写企业采纳AI的成本账本。

首先,部署的门槛降低了。过去,一个千亿级模型需要一整个GPU集群;如今,最低只需1张B200或2张H100即可运行。

其次,推理的开销也下降了。W4A4版本的输出速度,相比前代Command A Reasoning最高提升了63%,延迟降低了17%。算力时间就是金钱,速度提升,单位成本自然下降。

第三,多语言场景的成本也降低了。新的分词器让非欧洲语言消耗更少的token:阿拉伯语减少20%,日语减少18%,韩语减少16%。推理按token计费,token减少,跨国与多语言部署的账单也随之变薄。

近期,Cohere还宣布与德国AI公司Aleph Alpha合并。两家公司的方向高度一致:不押注聊天机器人,而是专注于为政府和大企业提供能够部署在自有机房的AI。

开源大模型的竞争,已进入下半场。上半场比拼的是参数规模,下半场比拼的则是另一件事:谁能让企业真正将模型搬进自己的机房。

参考资料:

https://cohere.com/blog/command-a-plus

https://venturebeat.com/technology/cohere-cracks-lossless-quantization-and-native-citations-with-first-full-apache-2-0-licensed-open-model-command-a


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/36039

(0)
上一篇 7小时前
下一篇 7小时前

相关推荐