Meta重磅发布Muse Spark:9个月重构AI技术栈,多模态推理模型引领股价飙升

Meta发布Muse Spark:九个月重构AI技术栈,多模态推理模型引领股价上涨

经过长达九个月的全面技术栈重构,由Alexandria Wang领导的Meta超级智能实验室推出了其首个旗舰模型——原生多模态模型 Muse Spark

Meta重磅发布Muse Spark:9个月重构AI技术栈,多模态推理模型引领股价飙升

该模型的发布立即在资本市场引发积极反响,Meta股价应声拉升约7%,盘中一度涨超近10%,最终当日收涨约6%。

市场热烈反应的背后,是Muse Spark团队星光熠熠的阵容:思维链(Chain-of-Thought)作者Jason Wei、o1模型核心贡献者Hyung Won Chung、被Meta高薪聘请的余家辉,以及扩散模型领域的知名研究者宋飏等。这支顶尖团队的聚集,清晰地指向了一个核心目标:推理

据Jason Wei透露,九个月前团队启动项目时,首先编写的便是一个用于推理的LLaMA模型脚本。如今,这款完全体模型终于面世。

经过九个月的精心打磨,Muse Spark帮助Meta在第三方基准测试中重回第一梯队,成功挽回了此前LLaMA 4表现不佳带来的声誉损失。

Meta重磅发布Muse Spark:9个月重构AI技术栈,多模态推理模型引领股价飙升

值得注意的是,Meta此次的发布姿态显得颇为克制,并未过度强调其在多项任务上取得了多少“SOTA”(最先进水平),而是相对客观地指出:Muse Spark在多模态感知、推理、健康问答和自主任务方面表现强劲,但在编程长时间自主运行能力上,仍与竞争对手的顶尖模型存在差距。

此外,Muse Spark的发布也为长期以来关于“Meta模型开源策略”的争论画上了句号:此次模型为闭源发布。目前,Muse Spark已上线Meta官方网站及应用程序,其API仅向部分合作伙伴开放。

(不过,Alexandria Wang也为未来留下了可能性,表示“计划在未来开源后续版本”。)

性能评测:重返第一梯队

作为Meta迄今为止能力最强的模型,Muse Spark在官方与第三方的评测中,主要于三个方面表现突出:

1. 多模态理解能力
在图表理解、屏幕内容识别等多项多模态任务中,其得分均位列第一,或与Gemini 3.1 Pro、GPT-5.4等模型不相上下。从用户测试反馈看,该模型尤其擅长将设计图或示意图转换为代码。

Meta重磅发布Muse Spark:9个月重构AI技术栈,多模态推理模型引领股价飙升

2. 工具调用能力
在工具使用和API调用方面的评测结果,与其多模态理解能力表现类似,处于领先水平。

3. 医学领域能力
得益于与超过1000名医生的合作,Muse Spark在开放式健康问答基准HealthBench Hard上取得了42.8的最高分,并在多模态医学问答数据集MedXpertQA MM中名列前茅。

当然,正如Meta自己所承认的,Muse Spark在编程和智能体(Agent)类任务上仍存在短板。为了尽可能弥补这一差距,团队专门引入了 “Contemplating”(沉思)模式。该模式让多个智能体同时思考同一问题,然后汇总结果并选出最佳方案。在此模式下,Muse Spark得以与Gemini的Deep Think、GPT的Pro等极限推理模式正面竞争。

Meta重磅发布Muse Spark:9个月重构AI技术栈,多模态推理模型引领股价飙升

此外,Meta此次还无预告地直接上线了“购物模式”。Alexandria Wang表示,该模式将结合用户在Instagram、Facebook、Threads上关注的创作者和品牌偏好,提供个性化的购物推荐。

Meta重磅发布Muse Spark:9个月重构AI技术栈,多模态推理模型引领股价飙升

随着Muse Spark的发布,第三方评测机构也给出了评价。在获得早期访问权限并进行测试后,其结论是:Meta回来了! 在关键的人工智能分析指数上,Muse Spark的得分仅次于Gemini 3.1 Pro、GPT-5.4和Claude Opus 4.6。

Meta重磅发布Muse Spark:9个月重构AI技术栈,多模态推理模型引领股价飙升

技术细节:九个月的重构之路

Muse Spark实现能力飞跃的核心,在于团队过去九个月进行的彻底重构,涵盖了新的基础设施、新的模型架构和新的数据管道

Meta重磅发布Muse Spark:9个月重构AI技术栈,多模态推理模型引领股价飙升

技术要点摘要如下:
* 高效预训练:在预训练阶段,Muse Spark能够以比LLaMA 4少10倍以上的计算量,达到相同的性能水平。
* 稳定的强化学习:其强化学习训练过程展现出平滑且可预测的性能改进,并具有良好的泛化与扩展能力。
* 测试时推理优化:通过引入“思考长度惩罚”机制,模型学会了进行“思维压缩”,即用更少的Token解决复杂问题。

Meta在技术博客中介绍,所有改进都旨在提升计算效率,让每单位算力产生更大价值。通过小模型拟合的“算力-性能”扩展曲线进行对比实验发现,Muse Spark达到LLaMA 4同等性能所需的计算量低了一个数量级(10.3倍)。

Meta重磅发布Muse Spark:9个月重构AI技术栈,多模态推理模型引领股价飙升

在预训练后的强化学习阶段,新架构确保了训练稳定性。随着RL步数增加,模型在训练任务上的成功率呈对数线性增长,这表明其在提升可靠性的同时,并未损害推理的多样性。在未见过的任务上,准确率也同步提升,证明了能力的可泛化性。

Meta重磅发布Muse Spark:9个月重构AI技术栈,多模态推理模型引领股价飙升

为了赋予模型“测试时推理”(即复杂问题前的思考)能力,团队同样采用了强化学习进行训练。为了解决推理过程耗费大量Token的问题,他们采用了两种关键策略:
1. 思考时间惩罚:鼓励模型用更短的推理路径得出正确答案,从而学会压缩思维链。
2. 多智能体协作:让多个模型或模块协同工作,在保持响应速度的同时提升整体表现。

在AIME等高难度数学评测中,模型表现出了一个有趣的“三阶段”行为演化:初期倾向于延长思考;触发惩罚后学会精简推理;最终在高效的基础上进一步优化解法,实现用更少资源获得更强性能。

Meta重磅发布Muse Spark:9个月重构AI技术栈,多模态推理模型引领股价飙升

尚存的不足与“翻车”案例

尽管进步显著,但Muse Spark在编程和智能体任务上的不足也在发布后迅速暴露出来,出现了一些未能达到预期的案例。

例如,有用户尝试让其生成一个网站,连续3次请求均未成功实现基本功能,连简单的前端页面都未能生成。

Meta重磅发布Muse Spark:9个月重构AI技术栈,多模态推理模型引领股价飙升

在另一个简单的编程任务中(“在一个Python文件中实现自动微分和神经网络”),Muse Spark生成了一大段代码却无法运行。有用户调侃称,其训练过程似乎存在问题,模型在1800个训练周期后损失函数仍停滞不前,未能有效学习。

Meta重磅发布Muse Spark:9个月重构AI技术栈,多模态推理模型引领股价飙升

(正常情况下,随着训练进行,损失函数应持续下降,表明模型正在学习。)

那么,已尝试过的朋友对Muse Spark的首个模型评价如何?

相关链接:
Introducing Muse Spark
Jason Wei 的评论
jhyuxm 的评论
Dr. Yang Song 的评论


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/29371

(0)
上一篇 2026年4月9日 上午9:40
下一篇 2026年4月9日 上午11:22

相关推荐

  • 三大开源神器:PageLM重塑学习体验,DeepSeek-OCR革新视觉识别,Awesome Web Agents整合AI浏览器生态

    PageLM:NotebookLM 的开源替代方案 PageLM 是一款对标 Google NotebookLM 的开源产品。 NotebookLM 的核心功能在于,用户只需上传学习资料,它便能生成播客对话、测验题或复习卡片。PageLM 同样如此,它不仅能够提炼资料重点,更能将静态文本转化为互动式的学习资源。 例如,上传一份历史课件后,PageLM 可以自…

    2026年2月6日
    33400
  • AI霸主之争:OpenAI面临谷歌与Anthropic双重夹击,万亿豪赌能否守住王座?

    在人工智能领域,一场前所未有的权力更迭正在悄然上演。曾经凭借ChatGPT一骑绝尘的OpenAI,如今正面临来自谷歌和Anthropic的双重夹击,其技术领先优势和市场主导地位正遭受严峻挑战。这场竞争不仅关乎技术突破,更涉及商业模式、资本实力和生态系统的全面较量。 谷歌的逆袭来得迅猛而精准。Gemini 3 Pro和Nano Banana Pro的发布,标志…

    2025年11月22日
    27300
  • 谷歌联合创始人谢尔盖·布林斯坦福对谈:AI浪潮下的学术基因、Transformer遗憾与未来大学形态

    在斯坦福大学工程学院百年庆典的收官活动中,谷歌联合创始人谢尔盖·布林重返母校,与校长Jonathan Levin及工程学院院长Jennifer Widom展开了一场深度对话。这场对话不仅回顾了谷歌二十余年的创新历程,更触及了人工智能时代下学术界与产业界的核心命题——从Transformer论文的错失良机,到未来大学的形态演变,布林以亲历者视角提供了珍贵的一瞥…

    AI产业动态 2025年12月14日
    31000
  • 从零实现30篇奠基论文:用NumPy揭秘深度学习核心思想

    在深度学习领域,Ilya Sutskever 曾有一个广为流传的判断:如果真正读懂并理解 30 篇奠基性论文,基本可以掌握人工智能 90% 的核心思想。 这不是指记住公式或复现 benchmark,而是理解模型为什么要这样设计、训练为何能收敛、哪些假设是成立的、哪些只是工程妥协。 问题在于,这 30 篇论文并不“友好”。 大量的数学推导、符号化描述、与现实代…

    2026年2月10日
    22400
  • 开源欧拉发布全球首个超节点操作系统:开启AI时代操作系统新纪元

    在人工智能浪潮席卷全球的当下,操作系统作为连接硬件与应用的核心基石,正迎来前所未有的变革机遇。2025年,以“智跃无界,开源致远”为主题的操作系统大会在北京中关村国际创新中心成功举办,标志着开源欧拉(openEuler)社区正式迈入面向超节点和AI时代的新发展阶段。 开源欧拉社区自成立以来,在开放原子开源基金会的运营孵化下,已发展成为全球最活跃的开源操作系统…

    2025年11月15日
    29000