Meta的超级智能实验室(SML)近日发布了其首个重要成果——全新自研模型Muse Spark。这也是年轻华人Alexandr Wang出任Meta首席AI官并领导该部门后,交出的首份成绩单。

Meta一直是生成式AI领域的重要参与者。2023年初,其开源的Llama系列模型曾迅速积累了庞大的用户群体。然而,Llama 4的发布过程颇为坎坷,评价褒贬不一,甚至被曝出存在操纵基准测试的情况。
这一系列事件促使Meta创始人兼CEO马克·扎克伯格在2025年夏天对公司AI业务进行了彻底重组,成立了全新的内部部门——Meta Superintelligence Labs(MSL)。年仅29岁的前Scale AI联合创始人兼CEO Alexandr Wang受邀出任首席AI官,负责领导该部门。此后,Meta又招募了多位顶级研究员,旨在重振其在大模型与通用人工智能(AGI)竞争中的实力。
如今,Muse Spark的发布被视为这一系列战略调整的初步成果。
Alexandr Wang在社交平台X上表示:“今天,Meta正式发布Muse Spark,这是MSL推出的首个模型。九个月前,我们从零开始重构了整套AI技术栈——包括全新的基础设施、模型架构以及数据管线。Muse Spark正是这一系列工作的成果,如今它已成为Meta AI的核心驱动力。”

Wang称,这是Meta迄今发布的能力最强的模型,具备工具调用、视觉思维链以及多智能体协同等先进能力。他还透露,Muse Spark将成为全新Muse模型家族的起点。
这一发布也引发了外界对Meta现有Llama系列产品线未来走向的诸多猜测。
模型定位:个人超级智能的基石
Muse Spark的定位并非一个通用的聊天机器人,而是构建“个人超级智能”的基础。按照Wang的阐述,这类AI的目标是能够看见并理解用户周围的世界,从而成为个体能力的数字延伸。这一愿景与扎克伯格在2025年夏天公开提出的“个人超级智能”宣言相呼应。
目前,Muse Spark仅限于在Meta AI应用和网站中使用,并通过面向部分用户开放的私有API预览提供访问。Meta尚未公布该模型的定价信息,也尚未明确说明是否已完全停止Llama系列的后续开发。
核心性能表现
Meta表示,Muse Spark在多模态感知、推理、医疗相关任务以及各类智能体任务上均展现出竞争力。

Meta还为Muse Spark发布了“Contemplating”(深度思考)模式。该模式可以调度多个智能体进行并行推理,旨在使其推理能力对标Gemini Deep Think和GPT Pro等前沿模型的高强度推理模式。
评测数据显示,在Contemplating模式下,Muse Spark在Humanity’s Last Exam测试中达到了58%的准确率,在FrontierScience Research测试中达到了38%。

Muse Spark现已上线,Contemplating模式将在meta.ai中逐步向用户推出。
应用场景展望
Meta将Muse Spark视为迈向个人超级智能的第一步,其更强的推理能力被认为可以支撑一系列高度个性化的应用场景。
多模态能力:Muse Spark在设计之初就强调跨领域整合视觉信息,在视觉类STEM问题、实体识别和空间定位等任务上展现出较强能力。这些能力整合后,可支持生成简单小游戏,或通过动态标注帮助用户排查家中设备问题等交互性应用。
健康领域:Meta将个人超级智能视为健康场景的重要落地方向。据介绍,其与超过1000名医生合作构建训练数据,以提升模型在健康推理方面的准确性和完整性。基于这些能力,Muse Spark可以生成交互式内容,用于解释健康信息,例如食物的营养结构或运动过程中涉及的肌肉群。
示例展示
以下是Muse Spark应用潜力的几个示例:

示例:为特定饮食需求(如鱼素者且胆固醇偏高)的用户,在食物图片上进行个性化标注与营养分析。

示例:分析瑜伽动作图片,识别拉伸的肌肉部位、评估难度,并提供纠正指导与表现评分。
示例:根据用户指令,将静态图像转换为可交互的网页数独游戏。

示例:识别咖啡设备组件,并生成交互式网页教程,指导用户制作拿铁咖啡。
扩展维度研究
为实现个人超级智能的持续演进,Meta从三个维度对Muse Spark的规模化能力进行了研究与跟踪:预训练、强化学习以及测试时推理。
预训练:这是Muse Spark获取核心多模态理解、推理及编程能力的基础。团队在过去九个月对预训练体系进行了全面重构。对比数据显示,与此前的Llama 4 Maverick相比,新体系可以用超过一个数量级更少的算力达到相同的性能水平,在效率上显著领先于当前可对比的主流基础模型。

强化学习:在预训练之后,强化学习被用于持续放大模型能力。在新体系下,随着强化学习计算量的增加,模型能力呈现出平稳且可预测的提升,并且在未见过的任务上也表现出良好的泛化性。
测试时推理
强化学习使模型能够在生成最终答案前进行内部“思考”,这一过程被称为测试时推理。为将此类能力高效扩展至数十亿用户,关键在于优化推理令牌的使用效率。Meta 主要依托两项核心技术:一是引入思考时间惩罚以提升令牌效率,二是采用多智能体协同,在不显著增加响应延迟的前提下提升模型性能。
思考时间惩罚与效率优化
为实现“每个令牌带来更多智能”的目标,其强化学习的训练旨在引入思考时间惩罚的条件下最大化答案正确率。在 AIME 等基准测试中,该机制会引发一种相变:模型初期通过延长思考链来提升性能,但随着长度惩罚的施加,它开始压缩推理过程。Muse Spark 能够以更少的令牌完成相同问题的求解。
完成初步压缩后,模型会再次适度扩展推理步骤,以进一步提升整体表现,从而在效率与性能之间达成动态平衡。

多智能体协同推理
为在不显著增加延迟的情况下投入更多计算资源进行测试时推理,可通过增加并行协作的智能体数量来解决复杂问题。如下图所示,相较于传统的测试时扩展(即让单个智能体思考更长时间),通过多智能体协同扩展 Muse Spark,能够在保持相近响应速度的同时,实现更优的性能表现。


参考链接
– https://ai.meta.com/blog/introducing-muse-spark-msl/
– https://venturebeat.com/technology/goodbye-llama-meta-launches-new-proprietary-ai-model-muse-spark-first-since
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/29353

