Cohere 发布 Apache 2.0 开源 MoE 模型 Command A+：218B 参数，单卡 B200 可运行

「Attention Is All You Need」这篇里程碑式的论文，催生了当今所有的大模型。

5 月 20 日，该论文的合著者之一 Aidan Gomez 在 X 平台上宣布，推出首个完全开源的 Apache 2.0 许可模型：Cohere Command A+。

Cohere 发布 Apache 2.0 开源 MoE 模型 Command A+：218B 参数，单卡 B200 可运行

Gomez 曾是谷歌研究员，如今是 Cohere 的联合创始人兼 CEO。

Command A+ 是 Command A 系列的收官之作，也是 Cohere 首个 MoE（混合专家）模型。它拥有 2180 亿总参数，但每次推理仅激活 250 亿参数，一次性集成了视觉输入、推理、翻译和 AI 智能体能力。

最低部署配置为：1 张 NVIDIA B200，或 2 张 H100。许可证：Apache 2.0。

Cohere 发布 Apache 2.0 开源 MoE 模型 Command A+：218B 参数，单卡 B200 可运行

https://cohere.com/blog/command-a-plus

据 VentureBeat 报道，这是 Cohere 历史上第一款真正可商用的开源旗舰模型。联合创始人 Nick Frosst 称其为「我们发布过的最好的模型」。

2180 亿参数，每次仅激活 250 亿

2180 亿参数，听起来像是一个算力黑洞。但 Command A+ 每次生成时，真正被激活的只有 250 亿参数。

这正是 MoE 架构的精髓所在。

一个 MoE 模型会将输入的问题仅路由给最擅长处理它的几个「专家」神经网络，其余部分保持休眠。这种设计让模型既保留了「巨头级」的知识储备和推理能力，同时运行时的算力和能耗却接近一个规模小得多的模型。

据 VentureBeat 报道，第三方观察估计，OpenAI 的 GPT-5.5、Anthropic 的 Claude Opus 4.7 的参数规模都在万亿级别，而 Command A+ 每次激活的参数仅为 250 亿。

利用 MoE 节省算力，如今已是大多数头部模型的常规做法。但 Cohere 在此基础上又叠加了第二层压缩：量化。

Command A+ 提供了 BF16、FP8 和高度压缩的 W4A4 三种版本，其中 W4A4 是本次发布的技术核心。

通常情况下，推理模型一旦被压缩，在复杂问题上的表现会明显下降，业内称之为「量化税」。

Cohere 的做法是，仅将 MoE 专家部分压缩至 4-bit，关键的注意力通路则保留全精度，并叠加一项名为量化感知蒸馏（Quantization-Aware Distillation）的技术。

Cohere 宣称其 W4A4 量化方案接近无损。根据 Cohere 发布的性能数据，W4A4 版本在低并发下每秒可生成 375 个 token，首 token 延迟仅为 113 毫秒。

正是凭借这套方案，一个 2180 亿参数的模型得以在单张 NVIDIA B200 或两张 H100 上运行。

Cohere 发布 Apache 2.0 开源 MoE 模型 Command A+：218B 参数，单卡 B200 可运行

不同并发与量化下，Command A+ 与前代 Command A Reasoning 的速度和延迟对比。TOPS 为每秒生成 token 数，TTFT 为首 token 延迟。数据由 Cohere 发布。

这里所说的「单卡运行」，指的是单张数据中心级的 Blackwell B200，而非消费级显卡。

过去，一个千亿级模型需要整个 GPU 集群来支撑，现在一台机器就能搞定。

这正是 Cohere 想要讲述的故事：大参数，不再意味着高昂的成本。

Apache 2.0：一张通往真正开源的许可证

如果只看参数和速度，Command A+ 是一次强大的工程升级。但更值得开发者关注的是其采用的 Apache 2.0 许可证。

在如今的 AI 圈，「开源」这个词早已被「玩坏」。

许多领先的 AI 公司虽然开放了权重，却附带限制性的商业条款：大企业不得用于商业用途，也不得用它训练竞品模型。用户可以下载、研究，但要想盈利，必须回来购买授权。

Cohere 过去在这个问题上也曾摇摆不定。

据 VentureBeat 报道，其之前的 Command R、Command R+ 模型采用了 CC-BY-NC 4.0 许可证，即「知识共享-非商业」许可。研究者和开发者可以下载、使用、评估，但严禁商用。

也就是说，开放了一半，保留了一半。但到了 Command A+，另一半也放开了。

它采用了 Apache 2.0，一个经 OSI 认可的真正开源许可证。从独立开发者到世界 500 强企业，任何人都可以使用、修改、分发并商业化这个模型，无需支付授权费，也没有竞业条款。

这是 Cohere 首次这样做，它在一个 Transformer 论文作者带领下，全面转向了真正的开源。

据 VentureBeat 报道，这个决定是由联合创始人 Nick Frosst 力主推动的。

Frosst 是 Cohere 三位联合创始人之一，曾在谷歌大脑多伦多实验室担任研究员，是 AI 教父 Geoffrey Hinton 在那里最早的雇员之一。

Cohere 将旗舰模型从 CC-BY-NC 4.0 转向 Apache 2.0，意味着企业可以彻底摆脱供应商的捆绑。

一家公司可以下载 Command A+ 的权重，用自己高度机密的内部数据进行微调，部署在私有服务器甚至气隙网络中，从此不再受制于 Cohere 的基础设施、定价变动或 API 稳定性。

Command A+：将「可追溯」打造成模型的原生能力

能跑和敢用，完全是两回事。

一个模型要真正进入金融、医疗、法律等生产环境，真正的瓶颈并非模型能力，而是可信度。

Command A+ 在这方面做了一个原生层面的设计：原生引用（native citation）生成。

当 Command A+ 从外部工具检索信息时，它不只是合成答案，还会生成所谓的「grounding spans（溯源标记）」。

通过在输出中嵌入特殊标签，模型将其给出的每一条事实声明，直接链接到所引用的具体文档或数据库记录。

举个例子：你让它生成一份当日销售报告，它在给出总销售额的同时，会明确标注提供这个数字的数据库查询结果。出处一目了然，幻觉风险被降到最低。

这种可追溯性，对于受到严格监管的行业尤为重要。

智能体能力也是本次发布的一个重点。

Command A+ 支持标准 chat template 下的对话式工具调用，可以无缝对接内部 API、搜索引擎或 SQL 数据库。

它还是全多模态的，能够在 128K 输入上下文中原生处理文本和图像，适用于分析扫描发票、图表和技术手册。

Cohere 发布 Apache 2.0 开源 MoE 模型 Command A+：218B 参数，单卡 B200 可运行

Command A+ 与 Command A Vision 的多模态能力对比，Command A+ 是 Cohere 首个多模态推理模型。数据由 Cohere 发布。

根据 Cohere 发布的性能数据，在测试复杂推理的 ²-Bench Telecom 上，Command A+ 从前代的 37% 跃升至 85%；在衡量智能体编码能力的 Terminal-Bench Hard 上，从 3% 提升至 25%；在 AIME 25 数学测试上，从 57% 升至 90%。

Cohere 发布 Apache 2.0 开源 MoE 模型 Command A+：218B 参数，单卡 B200 可运行

Command A+ 与前代 Command A Reasoning 在五项开源基准上的表现对比。数据由 Cohere 发布。

以上数据均来自 Cohere 自行发布，并非第三方独立评测。

VentureBeat 认为，Command A+ 以 250 亿激活参数的规模，在纯推理和数学方面可以媲美体量大得多的模型；但在深度智能体编码和综合智能的广度上，目前仍落后于 DeepSeek 等中国头部开源模型。

比跑分更重要的，是 Command A+ 将「可追溯」做成了模型的原生能力。

Transformer 作者联手辛顿门徒，让 Cohere 真正开源

最后，再谈谈 Command A+ 背后的两个人。

Cohere 发布 Apache 2.0 开源 MoE 模型 Command A+：218B 参数，单卡 B200 可运行

https://arxiv.org/pdf/1706.03762

2017年，Transformer架构的奠基之作《Attention Is All You Need》在谷歌诞生。该论文的八位作者中，最年轻的Aidan Gomez当时年仅20岁，身份是Google Brain的实习生，同时正在多伦多大学攻读计算机与数学本科。

Cohere 发布 Apache 2.0 开源 MoE 模型 Command A+：218B 参数，单卡 B200 可运行

Aidan Gomez

据《时代》杂志报道，为了赶上某场重要AI会议的截稿日期，他和同事们甚至直接睡在办公室里。后来他向《时代》坦言，当时没有人能预见，这篇论文会将整个AI行业推向如今的局面。

Gomez擅长将底层架构转化为可落地的产品。2017年，他还发起了FOR.ai项目，这是一个让研究者共享机器学习知识的协作平台，后来演变为Cohere For AI。

2019年，他离开谷歌大脑，与Ivan Zhang、Nick Frosst一起在多伦多创立了Cohere。三位创始人选择了一条与OpenAI截然不同的道路：不做面向大众的聊天机器人，而是专注于为企业提供模型服务。

Cohere 发布 Apache 2.0 开源 MoE 模型 Command A+：218B 参数，单卡 B200 可运行

Nick Frosst

Frosst是Cohere的联合创始人，曾在AI教父Geoffrey Hinton领导的谷歌大脑多伦多实验室担任研究员，是该实验室最早的雇员之一，业界常将他视为Hinton的得意门生。他的研究方向是胶囊网络与模型可解释性。

一位是Transformer的发明者，另一位师从Hinton。Cohere从创立之初，就具备了“将前沿研究转化为企业可用产品”的基因。

到了Command A+阶段，在Frosst的强力推动下，由Gomez拍板决定，Cohere彻底放开，将旗舰模型的许可证切换为Apache 2.0。

据Cohere官方透露，Command A+是Command A家族的最后一个模型，这通常也意味着，下一代家族已经在路上了。

长期以来，数据隐私与成本控制，一直将企业死死卡在这样一个瓶颈中：想要使用前沿AI，就必须依赖中心化的大型算力集群。

这一次，Command A+将前沿级别的推理能力、稳健的智能体工具调用、多模态能力，与一套专为硬件效率设计的架构紧密绑定。这一转变，正在重新书写企业采纳AI的成本账本。

首先，部署的门槛降低了。过去，一个千亿级模型需要一整个GPU集群；如今，最低只需1张B200或2张H100即可运行。

其次，推理的开销也下降了。W4A4版本的输出速度，相比前代Command A Reasoning最高提升了63%，延迟降低了17%。算力时间就是金钱，速度提升，单位成本自然下降。

第三，多语言场景的成本也降低了。新的分词器让非欧洲语言消耗更少的token：阿拉伯语减少20%，日语减少18%，韩语减少16%。推理按token计费，token减少，跨国与多语言部署的账单也随之变薄。

近期，Cohere还宣布与德国AI公司Aleph Alpha合并。两家公司的方向高度一致：不押注聊天机器人，而是专注于为政府和大企业提供能够部署在自有机房的AI。

开源大模型的竞争，已进入下半场。上半场比拼的是参数规模，下半场比拼的则是另一件事：谁能让企业真正将模型搬进自己的机房。

参考资料：

https://cohere.com/blog/command-a-plus

https://venturebeat.com/technology/cohere-cracks-lossless-quantization-and-native-citations-with-first-full-apache-2-0-licensed-open-model-command-a

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/36039

Cohere 发布 Apache 2.0 开源 MoE 模型 Command A+：218B 参数，单卡 B200 可运行

相关推荐

DeepTutor：开源AI学习助手，用交互式可视化与双回路架构重塑智能辅导

手机飞书远程操控Windows电脑：OpenClaw+阿里百炼AI保姆级部署教程

微软开源Sigma-MoE-Tiny：40:1极致稀疏比MoE模型，0.5B激活参数实现10B级性能突破

GitHub本周爆火：从Linux运行Windows应用到AI绘图管理，10个必看开源项目盘点

SWE-Vision：让大模型用代码“看见”世界，五大视觉基准刷新SOTA