Meta重磅发布Muse Spark:9个月重构AI技术栈,多模态推理模型引领股价飙升

Meta发布Muse Spark:九个月重构AI技术栈,多模态推理模型引领股价上涨

经过长达九个月的全面技术栈重构,由Alexandria Wang领导的Meta超级智能实验室推出了其首个旗舰模型——原生多模态模型 Muse Spark

Meta重磅发布Muse Spark:9个月重构AI技术栈,多模态推理模型引领股价飙升

该模型的发布立即在资本市场引发积极反响,Meta股价应声拉升约7%,盘中一度涨超近10%,最终当日收涨约6%。

市场热烈反应的背后,是Muse Spark团队星光熠熠的阵容:思维链(Chain-of-Thought)作者Jason Wei、o1模型核心贡献者Hyung Won Chung、被Meta高薪聘请的余家辉,以及扩散模型领域的知名研究者宋飏等。这支顶尖团队的聚集,清晰地指向了一个核心目标:推理

据Jason Wei透露,九个月前团队启动项目时,首先编写的便是一个用于推理的LLaMA模型脚本。如今,这款完全体模型终于面世。

经过九个月的精心打磨,Muse Spark帮助Meta在第三方基准测试中重回第一梯队,成功挽回了此前LLaMA 4表现不佳带来的声誉损失。

Meta重磅发布Muse Spark:9个月重构AI技术栈,多模态推理模型引领股价飙升

值得注意的是,Meta此次的发布姿态显得颇为克制,并未过度强调其在多项任务上取得了多少“SOTA”(最先进水平),而是相对客观地指出:Muse Spark在多模态感知、推理、健康问答和自主任务方面表现强劲,但在编程长时间自主运行能力上,仍与竞争对手的顶尖模型存在差距。

此外,Muse Spark的发布也为长期以来关于“Meta模型开源策略”的争论画上了句号:此次模型为闭源发布。目前,Muse Spark已上线Meta官方网站及应用程序,其API仅向部分合作伙伴开放。

(不过,Alexandria Wang也为未来留下了可能性,表示“计划在未来开源后续版本”。)

性能评测:重返第一梯队

作为Meta迄今为止能力最强的模型,Muse Spark在官方与第三方的评测中,主要于三个方面表现突出:

1. 多模态理解能力
在图表理解、屏幕内容识别等多项多模态任务中,其得分均位列第一,或与Gemini 3.1 Pro、GPT-5.4等模型不相上下。从用户测试反馈看,该模型尤其擅长将设计图或示意图转换为代码。

Meta重磅发布Muse Spark:9个月重构AI技术栈,多模态推理模型引领股价飙升

2. 工具调用能力
在工具使用和API调用方面的评测结果,与其多模态理解能力表现类似,处于领先水平。

3. 医学领域能力
得益于与超过1000名医生的合作,Muse Spark在开放式健康问答基准HealthBench Hard上取得了42.8的最高分,并在多模态医学问答数据集MedXpertQA MM中名列前茅。

当然,正如Meta自己所承认的,Muse Spark在编程和智能体(Agent)类任务上仍存在短板。为了尽可能弥补这一差距,团队专门引入了 “Contemplating”(沉思)模式。该模式让多个智能体同时思考同一问题,然后汇总结果并选出最佳方案。在此模式下,Muse Spark得以与Gemini的Deep Think、GPT的Pro等极限推理模式正面竞争。

Meta重磅发布Muse Spark:9个月重构AI技术栈,多模态推理模型引领股价飙升

此外,Meta此次还无预告地直接上线了“购物模式”。Alexandria Wang表示,该模式将结合用户在Instagram、Facebook、Threads上关注的创作者和品牌偏好,提供个性化的购物推荐。

Meta重磅发布Muse Spark:9个月重构AI技术栈,多模态推理模型引领股价飙升

随着Muse Spark的发布,第三方评测机构也给出了评价。在获得早期访问权限并进行测试后,其结论是:Meta回来了! 在关键的人工智能分析指数上,Muse Spark的得分仅次于Gemini 3.1 Pro、GPT-5.4和Claude Opus 4.6。

Meta重磅发布Muse Spark:9个月重构AI技术栈,多模态推理模型引领股价飙升

技术细节:九个月的重构之路

Muse Spark实现能力飞跃的核心,在于团队过去九个月进行的彻底重构,涵盖了新的基础设施、新的模型架构和新的数据管道

Meta重磅发布Muse Spark:9个月重构AI技术栈,多模态推理模型引领股价飙升

技术要点摘要如下:
* 高效预训练:在预训练阶段,Muse Spark能够以比LLaMA 4少10倍以上的计算量,达到相同的性能水平。
* 稳定的强化学习:其强化学习训练过程展现出平滑且可预测的性能改进,并具有良好的泛化与扩展能力。
* 测试时推理优化:通过引入“思考长度惩罚”机制,模型学会了进行“思维压缩”,即用更少的Token解决复杂问题。

Meta在技术博客中介绍,所有改进都旨在提升计算效率,让每单位算力产生更大价值。通过小模型拟合的“算力-性能”扩展曲线进行对比实验发现,Muse Spark达到LLaMA 4同等性能所需的计算量低了一个数量级(10.3倍)。

Meta重磅发布Muse Spark:9个月重构AI技术栈,多模态推理模型引领股价飙升

在预训练后的强化学习阶段,新架构确保了训练稳定性。随着RL步数增加,模型在训练任务上的成功率呈对数线性增长,这表明其在提升可靠性的同时,并未损害推理的多样性。在未见过的任务上,准确率也同步提升,证明了能力的可泛化性。

Meta重磅发布Muse Spark:9个月重构AI技术栈,多模态推理模型引领股价飙升

为了赋予模型“测试时推理”(即复杂问题前的思考)能力,团队同样采用了强化学习进行训练。为了解决推理过程耗费大量Token的问题,他们采用了两种关键策略:
1. 思考时间惩罚:鼓励模型用更短的推理路径得出正确答案,从而学会压缩思维链。
2. 多智能体协作:让多个模型或模块协同工作,在保持响应速度的同时提升整体表现。

在AIME等高难度数学评测中,模型表现出了一个有趣的“三阶段”行为演化:初期倾向于延长思考;触发惩罚后学会精简推理;最终在高效的基础上进一步优化解法,实现用更少资源获得更强性能。

Meta重磅发布Muse Spark:9个月重构AI技术栈,多模态推理模型引领股价飙升

尚存的不足与“翻车”案例

尽管进步显著,但Muse Spark在编程和智能体任务上的不足也在发布后迅速暴露出来,出现了一些未能达到预期的案例。

例如,有用户尝试让其生成一个网站,连续3次请求均未成功实现基本功能,连简单的前端页面都未能生成。

Meta重磅发布Muse Spark:9个月重构AI技术栈,多模态推理模型引领股价飙升

在另一个简单的编程任务中(“在一个Python文件中实现自动微分和神经网络”),Muse Spark生成了一大段代码却无法运行。有用户调侃称,其训练过程似乎存在问题,模型在1800个训练周期后损失函数仍停滞不前,未能有效学习。

Meta重磅发布Muse Spark:9个月重构AI技术栈,多模态推理模型引领股价飙升

(正常情况下,随着训练进行,损失函数应持续下降,表明模型正在学习。)

那么,已尝试过的朋友对Muse Spark的首个模型评价如何?

相关链接:
Introducing Muse Spark
Jason Wei 的评论
jhyuxm 的评论
Dr. Yang Song 的评论


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/29371

(0)
上一篇 2小时前
下一篇 1小时前

相关推荐

  • 20万大奖!全球首个AI视频生成一致性挑战赛开启,AAAI 2026大佬云集定义行业新标准

    随着AI视频生成技术的快速发展,“一致性”已成为制约其迈向更高质量和更广泛应用的核心挑战。视频中频繁出现的逻辑谬误、时空错乱以及角色风格突变等问题,严重影响了内容的连贯性与可信度。 为应对这一关键瓶颈,在人工智能顶级会议AAAI 2026的研讨会期间,将举办一场专注于该问题的竞赛——“从片段到原生:视频生成模型中的一致性(CVM)”。 该挑战赛由北京大学袁粒…

    2025年12月17日
    25300
  • REFRAG:突破RAG性能瓶颈,利用注意力稀疏性实现30倍加速

    随着大语言模型在检索增强生成(RAG)系统中的广泛应用,一个日益突出的性能问题浮出水面:上下文窗口的持续扩展导致首个token生成延迟呈二次方增长,严重制约了系统的实时响应能力。传统RAG流程虽然简单直接——将查询编码为向量,从向量数据库中检索相似文本块,然后完整输入给LLM处理——但这种方法存在显著效率缺陷。大多数检索到的文本块包含大量无关内容,迫使LLM…

    2025年10月17日
    23100
  • DeepSeek V4架构革命:mHC与Engram双核创新,颠覆传统编程工作模式

    2026年春节临近,全球AI圈迎来重磅传闻——中国AI实验室DeepSeek预计将在春节假期期间,正式发布其第四代旗舰大模型DeepSeek V4。 多方信源证实,这款承载着架构革命使命的大模型已进入最终筹备阶段,大概率将延续去年春节前发布R1模型的节奏。其带来的技术突破不仅将改写大模型行业格局,更将彻底颠覆程序员延续数十年的传统工作模式,同时重构整个AI算…

    2026年2月7日
    41900
  • 微软Copilot Cowork深夜炸场:最强Claude接管Office,4.5亿打工人一夜变天!

    全球4.5亿办公人士的工作模式,正面临一场剧变。 微软近日推出了全新的办公智能体——Copilot Cowork,旨在深度整合并赋能整个Office生产力套件。这款产品可被视为微软版的“Claude Cowork”。 用户仅需一个简单指令,Copilot Cowork便能横跨Excel、Word、PowerPoint、Outlook等应用,读取相关文件、邮件…

    2026年3月10日
    46200
  • MUSE框架:为推荐系统植入多模态海马体,唤醒十万级沉睡数据

    在当今数字时代,用户在网络平台留下的每一个足迹——每一次点击、收藏、购买——都构成了其数字身份的重要记忆片段。然而,当前主流推荐系统普遍面临着一个严峻挑战:它们患有严重的“短期健忘症”。受限于计算资源、存储成本和实时性要求,这些系统往往只能处理用户最近数千条行为数据,而将那些沉睡在数年前的历史记录粗暴截断或遗忘。即便部分系统尝试召回这些长期行为,传统基于ID…

    2025年12月16日
    28300