Poetiq元系统:以智能编排重塑大模型推理范式,成本减半性能登顶ARC-AGI-2

Poetiq元系统:以智能编排重塑大模型推理范式,成本减半性能登顶ARC-AGI-2

在人工智能快速演进的浪潮中,大模型的能力边界不断被拓展,但如何高效、低成本地调用这些模型解决复杂现实问题,仍是行业面临的重大挑战。近日,由6名前Google DeepMind核心成员创立的初创公司Poetiq,通过其创新的“元系统”架构,在这一领域取得了突破性进展。该系统不仅以54%的准确率在ARC-AGI-2基准测试中刷新纪录,更将每任务计算成本降至31美元,仅为此前最优方法的一半。这一成果不仅展示了智能编排系统的巨大潜力,也为大模型的高效工程化应用指明了新方向。

Poetiq元系统:以智能编排重塑大模型推理范式,成本减半性能登顶ARC-AGI-2

Poetiq元系统的核心创新在于其“系统之上的系统”设计理念。与传统的单一模型优化或微调路径不同,Poetiq构建了一个可动态生成、组合并优化推理策略的元层。该系统能够自动分析任务特性,从可用的大模型库(如Gemini、GPT、Claude等)中选择最合适的模型或模型组合,并生成包括代码生成、多步推理、自我检查在内的完整解决流程。这种设计使得Poetiq在Gemini 3 Pro、GPT-5.1等最新模型发布后数小时内即可接入,并快速达到SOTA性能,展现了极强的适应性和敏捷性。

Poetiq元系统:以智能编排重塑大模型推理范式,成本减半性能登顶ARC-AGI-2

在技术实现上,Poetiq元系统采用了一种递归、自我改进的架构。系统运行在一个循环式的解题流程中:它不会仅通过单次提示获取答案,而是先让大模型生成初步解决方案(可能包含代码片段),然后基于反馈进行分析,再利用模型迭代改进答案。这种多步骤、自我完善的机制,允许系统逐步构建并精细化最终输出。同时,系统集成了自主检查模块,能够监控进展、评估结果可靠性,并在达到足够置信度时自动终止流程,从而避免不必要的计算开销,实现成本效率的最大化。

Poetiq元系统:以智能编排重塑大模型推理范式,成本减半性能登顶ARC-AGI-2

Poetiq团队由6名拥有总计53年专业经验的DeepMind前研究员与工程师组成,其目标是“以更优的推理,铺就通过安全超级智能的最快路径”。这种深厚的技术背景反映在其系统设计中:Poetiq元系统完全基于大语言模型驱动,使用大模型来构建系统、改进系统、并运行系统本身。这种自上而下、自我指涉的设计,使得系统无需依赖特定模型或大量微调,即可灵活适配各类前沿模型,并在不同成本约束下实现帕累托最优性能。

Poetiq元系统:以智能编排重塑大模型推理范式,成本减半性能登顶ARC-AGI-2

Poetiq元系统:以智能编排重塑大模型推理范式,成本减半性能登顶ARC-AGI-2

Poetiq在ARC-AGI-2基准测试中的表现,充分验证了其元系统的有效性。该系统以每题30.57美元的成本取得了54%的准确率,显著超越了此前Gemini 3 Deep Think创下的每题77.16美元、45%准确率的最佳纪录。更值得注意的是,Poetiq在ARC-AGI-1和ARC-AGI-2上均建立了新的帕累托前沿,即在相同成本下实现更高准确率,或在相同准确率下大幅降低成本。这一突破不仅体现在Gemini系列模型上,当Poetiq元系统应用于GPT-OSS-120B等开源模型时,在单题成本低于1美分的极端条件下仍能保持亮眼性能,展示了其在低成本推理场景下的强大潜力。

Poetiq元系统:以智能编排重塑大模型推理范式,成本减半性能登顶ARC-AGI-2

Poetiq元系统:以智能编排重塑大模型推理范式,成本减半性能登顶ARC-AGI-2

Poetiq选择ARC-AGI作为验证平台具有深刻意义。ARC-AGI测试的核心是抽象推理、归纳、逻辑和策略生成能力,这些正是当前大模型在复杂任务中表现不稳定的关键领域。大模型虽然蕴含海量知识,但其输出高度依赖提示工程,且存在随机性,导致知识提取和推理步骤难以可靠预测。Poetiq元系统的目标正是自动化这一过程:通过动态发现并优化推理策略,使系统能在预算、Token或算力等现实约束下,智能地组合信息、决策下一步行动,从而释放生成式AI在复杂推理任务中的真正潜力。

Poetiq元系统:以智能编排重塑大模型推理范式,成本减半性能登顶ARC-AGI-2

Poetiq元系统:以智能编排重塑大模型推理范式,成本减半性能登顶ARC-AGI-2

为了进一步展示其通用性,Poetiq团队将元系统应用于多个主流模型,包括Google DeepMind的Gemini、OpenAI的ChatGPT、Anthropic的Claude Haiku以及xAI的Grok 4等。在所有案例中,Poetiq均实现了“更高准确率+更低成本”的组合优化。例如,基于Grok-4-Fast Reasoning构建的Poetiq配置,不仅比原模型报告的结果更便宜、准确率更高,还能达到与价格高两个数量级的模型相当的准确度。这证明Poetiq元系统并非针对特定模型的定制方案,而是一个可广泛适配的智能编排框架。

Poetiq元系统:以智能编排重塑大模型推理范式,成本减半性能登顶ARC-AGI-2

Poetiq元系统:以智能编排重塑大模型推理范式,成本减半性能登顶ARC-AGI-2

Poetiq元系统:以智能编排重塑大模型推理范式,成本减半性能登顶ARC-AGI-2

Poetiq的开源配置揭示了两个重要理念:首先,提示词仅仅是接口层,而非智能本体;真正的智能体现在系统动态生成和优化推理流程的能力中。其次,通过循环式、多步骤的解题流程结合自我检查机制,系统能够更可靠地逼近最优解,同时有效控制成本。这种设计使得Poetiq在应对ARC-AGI等需要深层推理的任务时,能够超越传统单次提示或固定流水线的局限性。

Poetiq元系统:以智能编排重塑大模型推理范式,成本减半性能登顶ARC-AGI-2

展望未来,Poetiq元系统代表了大模型工程化应用的一个重要范式转变:从追求单一模型的规模扩展,转向通过智能编排实现多模型协同与优化。这一方向不仅有助于降低AI推理的总体拥有成本,还能加速最新研究成果向实际应用的转化。随着更多模型和任务类型的接入,Poetiq有望在自动驾驶、科学发现、复杂决策支持等领域发挥更大作用,推动AI系统向更高效、更可靠、更易扩展的方向演进。

— 图片补充 —

Poetiq元系统:以智能编排重塑大模型推理范式,成本减半性能登顶ARC-AGI-2

Poetiq元系统:以智能编排重塑大模型推理范式,成本减半性能登顶ARC-AGI-2


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/9567

(0)
上一篇 2025年12月14日 下午1:00
下一篇 2025年12月14日 下午1:54

相关推荐

  • 多智能体协同进化新范式:PettingLLMs框架实现通用群体强化学习

    在人工智能领域,大语言模型驱动的智能体系统正从单机作战向协同作战演进。近期,来自加州大学圣地亚哥分校和英特尔的研究团队提出的PettingLLMs框架,首次实现了通用的多智能体强化学习训练机制,为群体智能的协同进化开辟了新路径。 **多智能体协同训练的瓶颈与突破** 当前大语言模型智能体已在医疗诊断、代码生成、科学研究及具身智能等多个领域展现出超越单智能体的…

    2025年11月8日
    8000
  • AI周报:阿里通义语音模型升级、腾讯开源2B小模型、Qwen3-VL多模态检索新突破

    1月5日 【闭源】 阿里通义发布语音合成模型 CosyVoice-v3-flash,新增24个音色以覆盖多元场景需求。新增音色包括:* 方言类:龙嘉怡、龙老铁* 出海营销类* 诗词朗诵类:龙飞* 语音助手类:龙小淳、龙小夏、YUMI* 社交陪伴类:龙橙、龙泽、龙哲、龙颜、龙星、龙天、龙婉、龙嫣、龙菲菲、龙浩* 有声书类:龙三叔、龙媛、龙悦、龙修、龙楠* 新闻…

    2026年1月12日
    4700
  • 鸿蒙6开启A2A智能体协作时代:从“人找服务”到“服务找人”的交互革命

    在华为Mate80系列及MateX7发布会上,搭载鸿蒙6系统的折叠屏旗舰Mate X7展示了令人瞩目的AI交互新范式——Agent to Agent(A2A)智能体协作的商用落地。这不仅是华为在移动AI领域的一次重大突破,更标志着整个手机行业正迎来定义下一代应用交互规则的战略窗口期。 传统移动应用生态长期面临“功能孤岛”困境。APP之间相互独立、数据割裂的特…

    2025年12月6日
    8700
  • 2025宝山智能机器人产业大会前瞻:从具身智能到核心部件,解码产业新生态

    随着人工智能技术的飞速发展,智能机器人产业正迎来前所未有的变革机遇。2025年11月21日至22日,即将在上海宝山智慧湾科创园举办的“2025宝山・智能机器人产业大会暨嘉年华”,不仅是一场行业盛会,更是一次全面展示中国智能机器人产业实力与未来方向的窗口。本文将从产业趋势、技术突破、生态构建三个维度,深入剖析本次大会的核心价值与行业意义。 **一、产业宏观蓝图…

    2025年11月14日
    8200
  • 昇腾CANN全面开源:重塑AI算力生态,赋予开发者底层定义权

    在人工智能技术飞速发展的当下,大模型竞争已进入白热化阶段,而算力基础设施的自主可控与开放创新成为行业关注的焦点。近日,华为昇腾宣布将其核心底层基础软件——CANN(Compute Architecture for Neural Networks,神经网络异构计算架构)全面开源开放,这一举措不仅标志着国产AI算力生态建设迈出关键一步,更可能从根本上改变全球计算…

    2025年12月19日
    8800

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注