Meta发布Muse Spark:九个月重构AI技术栈,多模态推理模型引领股价上涨
经过长达九个月的全面技术栈重构,由Alexandria Wang领导的Meta超级智能实验室推出了其首个旗舰模型——原生多模态模型 Muse Spark。

该模型的发布立即在资本市场引发积极反响,Meta股价应声拉升约7%,盘中一度涨超近10%,最终当日收涨约6%。
市场热烈反应的背后,是Muse Spark团队星光熠熠的阵容:思维链(Chain-of-Thought)作者Jason Wei、o1模型核心贡献者Hyung Won Chung、被Meta高薪聘请的余家辉,以及扩散模型领域的知名研究者宋飏等。这支顶尖团队的聚集,清晰地指向了一个核心目标:推理。
据Jason Wei透露,九个月前团队启动项目时,首先编写的便是一个用于推理的LLaMA模型脚本。如今,这款完全体模型终于面世。
经过九个月的精心打磨,Muse Spark帮助Meta在第三方基准测试中重回第一梯队,成功挽回了此前LLaMA 4表现不佳带来的声誉损失。

值得注意的是,Meta此次的发布姿态显得颇为克制,并未过度强调其在多项任务上取得了多少“SOTA”(最先进水平),而是相对客观地指出:Muse Spark在多模态感知、推理、健康问答和自主任务方面表现强劲,但在编程和长时间自主运行能力上,仍与竞争对手的顶尖模型存在差距。
此外,Muse Spark的发布也为长期以来关于“Meta模型开源策略”的争论画上了句号:此次模型为闭源发布。目前,Muse Spark已上线Meta官方网站及应用程序,其API仅向部分合作伙伴开放。
(不过,Alexandria Wang也为未来留下了可能性,表示“计划在未来开源后续版本”。)
性能评测:重返第一梯队
作为Meta迄今为止能力最强的模型,Muse Spark在官方与第三方的评测中,主要于三个方面表现突出:
1. 多模态理解能力
在图表理解、屏幕内容识别等多项多模态任务中,其得分均位列第一,或与Gemini 3.1 Pro、GPT-5.4等模型不相上下。从用户测试反馈看,该模型尤其擅长将设计图或示意图转换为代码。

2. 工具调用能力
在工具使用和API调用方面的评测结果,与其多模态理解能力表现类似,处于领先水平。
3. 医学领域能力
得益于与超过1000名医生的合作,Muse Spark在开放式健康问答基准HealthBench Hard上取得了42.8的最高分,并在多模态医学问答数据集MedXpertQA MM中名列前茅。
当然,正如Meta自己所承认的,Muse Spark在编程和智能体(Agent)类任务上仍存在短板。为了尽可能弥补这一差距,团队专门引入了 “Contemplating”(沉思)模式。该模式让多个智能体同时思考同一问题,然后汇总结果并选出最佳方案。在此模式下,Muse Spark得以与Gemini的Deep Think、GPT的Pro等极限推理模式正面竞争。

此外,Meta此次还无预告地直接上线了“购物模式”。Alexandria Wang表示,该模式将结合用户在Instagram、Facebook、Threads上关注的创作者和品牌偏好,提供个性化的购物推荐。

随着Muse Spark的发布,第三方评测机构也给出了评价。在获得早期访问权限并进行测试后,其结论是:Meta回来了! 在关键的人工智能分析指数上,Muse Spark的得分仅次于Gemini 3.1 Pro、GPT-5.4和Claude Opus 4.6。

技术细节:九个月的重构之路
Muse Spark实现能力飞跃的核心,在于团队过去九个月进行的彻底重构,涵盖了新的基础设施、新的模型架构和新的数据管道。

技术要点摘要如下:
* 高效预训练:在预训练阶段,Muse Spark能够以比LLaMA 4少10倍以上的计算量,达到相同的性能水平。
* 稳定的强化学习:其强化学习训练过程展现出平滑且可预测的性能改进,并具有良好的泛化与扩展能力。
* 测试时推理优化:通过引入“思考长度惩罚”机制,模型学会了进行“思维压缩”,即用更少的Token解决复杂问题。
Meta在技术博客中介绍,所有改进都旨在提升计算效率,让每单位算力产生更大价值。通过小模型拟合的“算力-性能”扩展曲线进行对比实验发现,Muse Spark达到LLaMA 4同等性能所需的计算量低了一个数量级(10.3倍)。

在预训练后的强化学习阶段,新架构确保了训练稳定性。随着RL步数增加,模型在训练任务上的成功率呈对数线性增长,这表明其在提升可靠性的同时,并未损害推理的多样性。在未见过的任务上,准确率也同步提升,证明了能力的可泛化性。

为了赋予模型“测试时推理”(即复杂问题前的思考)能力,团队同样采用了强化学习进行训练。为了解决推理过程耗费大量Token的问题,他们采用了两种关键策略:
1. 思考时间惩罚:鼓励模型用更短的推理路径得出正确答案,从而学会压缩思维链。
2. 多智能体协作:让多个模型或模块协同工作,在保持响应速度的同时提升整体表现。
在AIME等高难度数学评测中,模型表现出了一个有趣的“三阶段”行为演化:初期倾向于延长思考;触发惩罚后学会精简推理;最终在高效的基础上进一步优化解法,实现用更少资源获得更强性能。

尚存的不足与“翻车”案例
尽管进步显著,但Muse Spark在编程和智能体任务上的不足也在发布后迅速暴露出来,出现了一些未能达到预期的案例。
例如,有用户尝试让其生成一个网站,连续3次请求均未成功实现基本功能,连简单的前端页面都未能生成。

在另一个简单的编程任务中(“在一个Python文件中实现自动微分和神经网络”),Muse Spark生成了一大段代码却无法运行。有用户调侃称,其训练过程似乎存在问题,模型在1800个训练周期后损失函数仍停滞不前,未能有效学习。

(正常情况下,随着训练进行,损失函数应持续下降,表明模型正在学习。)
那么,已尝试过的朋友对Muse Spark的首个模型评价如何?
相关链接:
– Introducing Muse Spark
– Jason Wei 的评论
– jhyuxm 的评论
– Dr. Yang Song 的评论
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/29371

