Meta重磅发布Muse Spark：9个月重构AI技术栈，多模态推理模型引领股价飙升

Meta发布Muse Spark：九个月重构AI技术栈，多模态推理模型引领股价上涨

经过长达九个月的全面技术栈重构，由Alexandria Wang领导的Meta超级智能实验室推出了其首个旗舰模型——原生多模态模型 Muse Spark。

Meta重磅发布Muse Spark：9个月重构AI技术栈，多模态推理模型引领股价飙升

该模型的发布立即在资本市场引发积极反响，Meta股价应声拉升约7%，盘中一度涨超近10%，最终当日收涨约6%。

市场热烈反应的背后，是Muse Spark团队星光熠熠的阵容：思维链（Chain-of-Thought）作者Jason Wei、o1模型核心贡献者Hyung Won Chung、被Meta高薪聘请的余家辉，以及扩散模型领域的知名研究者宋飏等。这支顶尖团队的聚集，清晰地指向了一个核心目标：推理。

据Jason Wei透露，九个月前团队启动项目时，首先编写的便是一个用于推理的LLaMA模型脚本。如今，这款完全体模型终于面世。

经过九个月的精心打磨，Muse Spark帮助Meta在第三方基准测试中重回第一梯队，成功挽回了此前LLaMA 4表现不佳带来的声誉损失。

Meta重磅发布Muse Spark：9个月重构AI技术栈，多模态推理模型引领股价飙升

值得注意的是，Meta此次的发布姿态显得颇为克制，并未过度强调其在多项任务上取得了多少“SOTA”（最先进水平），而是相对客观地指出：Muse Spark在多模态感知、推理、健康问答和自主任务方面表现强劲，但在编程和长时间自主运行能力上，仍与竞争对手的顶尖模型存在差距。

此外，Muse Spark的发布也为长期以来关于“Meta模型开源策略”的争论画上了句号：此次模型为闭源发布。目前，Muse Spark已上线Meta官方网站及应用程序，其API仅向部分合作伙伴开放。

（不过，Alexandria Wang也为未来留下了可能性，表示“计划在未来开源后续版本”。）

性能评测：重返第一梯队

作为Meta迄今为止能力最强的模型，Muse Spark在官方与第三方的评测中，主要于三个方面表现突出：

1. 多模态理解能力
在图表理解、屏幕内容识别等多项多模态任务中，其得分均位列第一，或与Gemini 3.1 Pro、GPT-5.4等模型不相上下。从用户测试反馈看，该模型尤其擅长将设计图或示意图转换为代码。

Meta重磅发布Muse Spark：9个月重构AI技术栈，多模态推理模型引领股价飙升

2. 工具调用能力
在工具使用和API调用方面的评测结果，与其多模态理解能力表现类似，处于领先水平。

3. 医学领域能力
得益于与超过1000名医生的合作，Muse Spark在开放式健康问答基准HealthBench Hard上取得了42.8的最高分，并在多模态医学问答数据集MedXpertQA MM中名列前茅。

当然，正如Meta自己所承认的，Muse Spark在编程和智能体（Agent）类任务上仍存在短板。为了尽可能弥补这一差距，团队专门引入了 “Contemplating”（沉思）模式。该模式让多个智能体同时思考同一问题，然后汇总结果并选出最佳方案。在此模式下，Muse Spark得以与Gemini的Deep Think、GPT的Pro等极限推理模式正面竞争。

Meta重磅发布Muse Spark：9个月重构AI技术栈，多模态推理模型引领股价飙升

此外，Meta此次还无预告地直接上线了“购物模式”。Alexandria Wang表示，该模式将结合用户在Instagram、Facebook、Threads上关注的创作者和品牌偏好，提供个性化的购物推荐。

Meta重磅发布Muse Spark：9个月重构AI技术栈，多模态推理模型引领股价飙升

随着Muse Spark的发布，第三方评测机构也给出了评价。在获得早期访问权限并进行测试后，其结论是：Meta回来了！ 在关键的人工智能分析指数上，Muse Spark的得分仅次于Gemini 3.1 Pro、GPT-5.4和Claude Opus 4.6。

Meta重磅发布Muse Spark：9个月重构AI技术栈，多模态推理模型引领股价飙升

技术细节：九个月的重构之路

Muse Spark实现能力飞跃的核心，在于团队过去九个月进行的彻底重构，涵盖了新的基础设施、新的模型架构和新的数据管道。

Meta重磅发布Muse Spark：9个月重构AI技术栈，多模态推理模型引领股价飙升

技术要点摘要如下：
* 高效预训练：在预训练阶段，Muse Spark能够以比LLaMA 4少10倍以上的计算量，达到相同的性能水平。
* 稳定的强化学习：其强化学习训练过程展现出平滑且可预测的性能改进，并具有良好的泛化与扩展能力。
* 测试时推理优化：通过引入“思考长度惩罚”机制，模型学会了进行“思维压缩”，即用更少的Token解决复杂问题。

Meta在技术博客中介绍，所有改进都旨在提升计算效率，让每单位算力产生更大价值。通过小模型拟合的“算力-性能”扩展曲线进行对比实验发现，Muse Spark达到LLaMA 4同等性能所需的计算量低了一个数量级（10.3倍）。

Meta重磅发布Muse Spark：9个月重构AI技术栈，多模态推理模型引领股价飙升

在预训练后的强化学习阶段，新架构确保了训练稳定性。随着RL步数增加，模型在训练任务上的成功率呈对数线性增长，这表明其在提升可靠性的同时，并未损害推理的多样性。在未见过的任务上，准确率也同步提升，证明了能力的可泛化性。

Meta重磅发布Muse Spark：9个月重构AI技术栈，多模态推理模型引领股价飙升

为了赋予模型“测试时推理”（即复杂问题前的思考）能力，团队同样采用了强化学习进行训练。为了解决推理过程耗费大量Token的问题，他们采用了两种关键策略：
1. 思考时间惩罚：鼓励模型用更短的推理路径得出正确答案，从而学会压缩思维链。
2. 多智能体协作：让多个模型或模块协同工作，在保持响应速度的同时提升整体表现。

在AIME等高难度数学评测中，模型表现出了一个有趣的“三阶段”行为演化：初期倾向于延长思考；触发惩罚后学会精简推理；最终在高效的基础上进一步优化解法，实现用更少资源获得更强性能。

Meta重磅发布Muse Spark：9个月重构AI技术栈，多模态推理模型引领股价飙升