自进化智能体GenericAgent发布:Token消耗降10倍,任务准确率100%

好的,作为一名专业技术编辑,我已经对您提供的文稿进行了专业润色。以下是重写后的Markdown内容,已清除广告/二维码等干扰信息,并保留了图片占位符。


自进化智能体GenericAgent正式发布:Token消耗降低10倍,任务准确率达100%

自进化智能体GenericAgent发布:Token消耗降10倍,任务准确率100%

当AI智能体不再是“一次性工具”,而是能够持续学习、自我进化的“数字伙伴”时,会发生什么?自进化智能体应遵循怎样的设计原则?

全球首个基于“上下文信息密度最大化”设计原则的自进化智能体系统——GenericAgent(GA),现已正式发布其技术报告。

报告显示,在保持任务准确率的前提下,GA的Token消耗相比同类竞品降低了近10倍。该报告深度解读了GA的核心设计理念,介绍了自进化智能体的评测基准,并公布了详尽的评测数据,全面剖析了GA的自进化能力及其智能体设计的可靠思路。

这份长达47页的技术报告,今天即可一睹为快。

自进化智能体GenericAgent发布:Token消耗降10倍,任务准确率100%

GA是什么?

GenericAgent(GA) 是由复旦大学知识工场实验室旗下的A3实验室(Advantage AI Agent实验室,与深圳夸夸菁领科技有限公司合作)构建的一个通用型、自进化的大语言模型(LLM)智能体系统。

GA是下一代自组织、自学习、自进化通用智能体的代表之一。它是一个拥有“生命感”,能够在用户的持续使用和调教下快速学习与成长的数字生命。GA技术的商业应用版为 DinTal Claw,旨在将这一自进化架构深度应用于政企场景,打造低成本、高效率、安全可控的“数智员工”实战标杆。

自2026年1月11日开源以来,GA曾在GitHub Trending的Python编程语言分类中登顶第一,力压OpenAI、Google等头部AI企业的开源系统。

自进化智能体GenericAgent发布:Token消耗降10倍,任务准确率100%

自进化智能体GenericAgent发布:Token消耗降10倍,任务准确率100%

先上结论:GA强在哪?

  • 任务完成率更高: 在多个基准测试中,GA实现了100%的准确率,全面领先主流智能体系统。
  • Token消耗更低: 相同任务下,Token消耗仅为主流智能体系统的15%至35%,兼具成本与效率优势。
  • 越用越聪明: 重复执行相同任务时,Token消耗可降低高达89.6%,真正实现“经验复用”。
  • 网页浏览更强: 在复杂的多跳搜索任务中,准确率是基线系统的3倍,同时消耗更少的资源。

自进化智能体GenericAgent发布:Token消耗降10倍,任务准确率100%

GenericAgent整体架构图

为什么你需要关注GA?

从Claude Code、OpenAI Codex到Openclaw,AI正在从被动的文本生成器,转变为能够主动操作终端、文件系统、浏览器的“目标导向型代理”。然而,一个直接的问题摆在用户面前:“它们真的好用吗?”

  • 智能体“记性差”,聊着聊着就忘了

传统智能体随着交互增多,上下文会越来越长,即“上下文爆炸”。关键信息反而被淹没,导致步骤越多,出错率越高。

  • 每次任务都从零开始,经验无法积累

今天总结的经验,明天换个会话就消失了。智能体一直在“重复造轮子”。Token消耗随任务数量线性增长,但有效能力却保持停滞,形成一个缺乏累积交互回报的“停滞循环”。

核心洞见:信息密度才是关键

面对这些问题,研究团队提出了一个重磅观点:

长周期性能的决定因素,不是上下文长度,而是在有限的上下文预算内,能够维持多少与决策相关的信息。

换句话说,上下文信息密度才是核心。通过最大化上下文信息密度,可以保证:决策信息不遗漏、冗余信息被消除、上下文可读性高(次要但重要)。

GenericAgent:四大机制打造自进化智能体

基于“上下文信息密度最大化”这一核心原则,GA通过四个紧密关联的组件实现了自进化能力。

机制一:最小原子工具集

工具最小化并非限制,而是GA在减少交互开销的同时保持通用能力的核心机制。

GA仅保留了9个原子工具,分为五类能力:文件操作、代码执行、网页交互、记忆管理、人在回路。这些原子工具能够通过组合泛化,创造出新的工具来解决复杂任务。

有趣的是,仅“code_run”这一个工具在理论上就是图灵完备的,可以复制所有其他工具的功能。那为什么还要保留其他8个工具?答案是:最小原子工具集可以降低任务的决策成本

自进化智能体GenericAgent发布:Token消耗降10倍,任务准确率100%

上表为长程复杂任务结果。五项任务涵盖文档生成(PDF/PPT创建)、SQL协作查询生成、实验分析报告撰写、结合网络检索的采购决策,以及研究论文复现可行性分析。本表报告的是长程任务集上的平均结果。

机制二:分层按需记忆

记忆的核心是按需存取。GA的关键设计是默认仅注入元记忆L1索引层,遵循L1→L2/L3的路由链,仅在需要时检索更深层的事实或程序知识。这样,记忆不会逐步挤占当前任务所需的活跃上下文预算。

GA将记忆组织为四层架构:

  • L1索引层: 紧凑指针,包括高频入口点、关键词映射和少量硬约束。
  • L2事实层: 经过验证且稳定的事实信息,长期有效。
  • L3 SOP层: 可复用的程序性知识,包括任务工作流、前置条件、关键执行步骤、常见失败案例及相应的调试/恢复策略。
  • L4原始会话存档层: 历史执行会话,用于持久化和可追溯性。

更巧妙的是,随着L2和L3的增长,L1始终保持有界。每个L1条目仅记录知识类别的“存在性”,而非其内容。

这种极端压缩之所以可行,是因为LLM本身充当了解码器:一旦它识别出相关能力或事实的存在,就可以通过工具调用从更深层检索完整内容。

自进化智能体GenericAgent发布:Token消耗降10倍,任务准确率100%

上表为GA等在LoCoMo上的长期事实记忆评估。GA基于其优越的记忆架构设计,确保了记忆的高效召回。

机制三:自进化机制

GA将自进化视为一个显式且可检查的流程。

  • 什么在进化? 解决任务的策略,而非原子工具。工具接口和用户交互是任务无关的,在运行时保持不变。相反,所有任务特定能力都编码在SOP文件和可复用脚本中。
  • 知识如何积累? 通过分层记忆,GA确保在一个会话中获得的知识在后续会话中立即可用。
  • 进化的质量如何控制? GA在低记忆层级(L4)保留原始行动轨迹,但不允许它们直接向上传播。L3的可复用程序仅通过显式整合步骤创建,在子目标完成或成功从失败中恢复等有意义的时间点触发。

自进化智能体GenericAgent发布:Token消耗降10倍,任务准确率100%

在相同任务五次重复运行中,只有GenericAgent随着任务经验的积累,不断提升工作效率。

机制四:上下文截断与压缩

GA聚焦于压缩而非扩展——将更高密度的信息打包到更小的窗口中,优于将稀释的内容输入更大的窗口。

GA使用四种不同粒度的上下文修剪机制:

  1. 工具输出截断: 控制单个消息的大小。
  2. 标签级压缩: 从旧消息中移除低价值片段。
  3. 消息驱逐: 当整体预算超出时,移除最旧内容。
  4. 工作记忆锚点提示词: 确保任务关键信息在驱逐后保持可见。

这四种机制协同工作,确保活跃上下文不会随交互轮数线性增长。

自进化智能体GenericAgent发布:Token消耗降10倍,任务准确率100%

在安装20个技能并经过高强度使用后,只有GA有效防止了上下文膨胀。

评估结果:效率与性能的双重胜利

研究团队在多个基准测试上对GA进行了全面评估。

核心结论:性能更强,成本更低

在最硬核的评测结果中,GA在SOP-bench、Lifelong AgentBench和RealFinBench三大基准测试中的表现堪称惊艳。

好的,作为一名专业技术编辑,我已根据您的要求对原文进行了重写。以下是为您提供的 Markdown 格式内容,已去除广告和二维码信息,并保留了 [[IMAGE_X]] 占位符。


性能飞跃:Token 消耗降低十倍,任务准确率达 100%

在 SOP-bench 与 Lifelong AgentBench 两项基准测试中,GenericAgent(以下简称 GA)以 100% 的任务准确率全面领先。在更贴近真实应用场景的 RealFinBench 上,GA 同样以 65% 的准确率位居行业首位。

自进化智能体GenericAgent发布:Token消耗降10倍,任务准确率100%

图注:任务完成率与 Token 效率对比图

在同等任务负载下,GA 的 Token 消耗仅为其他主流智能体系统的 15% 至 35%,实现了效率与成本的双重优化。

越用越智能:重复执行效率的跃迁式提升

GA 的自进化能力是其高效运作的核心。当其他系统在重复执行同类任务时,耗时与 Token 消耗基本保持恒定,而 GA 的性能则呈现持续优化趋势。数据显示,经过 5 次重复运行后,GA 的执行时间从 102 秒降至 66 秒,Token 消耗从 20 万直接降至 10 万。这种提升并非简单的缓存复用,而是 GA 将初次试错中积累的经验,自动提炼为可复用的标准操作流程,使后续任务得以在已有成果上直接推进。

自进化智能体GenericAgent发布:Token消耗降10倍,任务准确率100%

图注:重复运行效率提升曲线图

这种进化能力甚至能够跨任务泛化。在对 8 个不同网页任务的重复测试中,GA 后续执行的 Token 消耗平均下降 79.3%,其中单次任务最高节省达 92.4%。任务越复杂、依赖链条越长,其节省效果就越显著。相比之下,主流智能体系统在多次运行中数据波动不定,仍停留在重复探索阶段,而 GA 则展现出清晰的 “冷启动 → 快速收敛” 模式,真正实现了自主学习。

自进化智能体GenericAgent发布:Token消耗降10倍,任务准确率100%

图注:跨任务 Token 收敛对比图

长期进化:从 “学徒” 到 “专家” 的蜕变

长期进化带来的性能提升更为显著。第一轮执行时,GA 需耗时 7 分 30 秒,调用 32 次大模型,消耗 22.2 万 Token;而到第九轮,完成同等任务仅需 1 分 38 秒、调用 5 次大模型、消耗 2.3 万 Token。Token 消耗减少 89.6%,调用次数减少 84.4%。这种从探索到执行、从文本 SOP 到可执行代码的进化,完全是系统自主完成,无需任何人工干预。

自进化智能体GenericAgent发布:Token消耗降10倍,任务准确率100%

图注:九轮进化轨迹数据图

网页浏览:在复杂环境中保持清醒

网页是智能体的 “终极考场”,一次访问动辄引入上百万 Token 的开销。GA 在此场景中同样表现出色。在最具挑战性的 BrowseComp-ZH 多跳推理任务中,GA 的准确率达到 0.60,是主流智能体系统(0.20)的 3 倍,同时 Token 消耗仅为其三分之一。在真实网页任务中,GA 以 0.26M Token 的消耗获得了 0.577 分,而主流系统消耗 0.76M Token 仅得 0.50 分。面对海量的 HTML 噪声和动态 DOM 元素,GA 的上下文压缩与分层记忆机制展现出压倒性优势,确保其在复杂环境中不会 “迷失方向”。

自进化智能体GenericAgent发布:Token消耗降10倍,任务准确率100%

图注:网页浏览性能对比图

关键发现:重新思考智能体设计

从 GenericAgent 的开发过程中,研究团队提炼出五个关键发现,这些发现对 LLM 智能体系统的设计具有广泛指导意义。

发现一:上下文信息密度是结构性约束

上下文信息密度并非 “可选” 的优化目标,而是每个智能体系统必须通过设计来面对的结构性约束。只要智能体使用 LLM 作为其推理引擎,每个决策步骤的质量最终由单次前向传播决定。无论工具、记忆容量或工作流复杂度如何,都无法规避这一约束。

发现二:存在智能体系统的最小完备能力集

在信息密度的结构性约束下,智能体只需实现三种核心能力。任何不服务于这三种能力之一的设计,都会引入额外复杂度,从而降低信息密度。

  1. 工具接口:智能体与外部世界交互的唯一通道。
  2. 上下文管理:对应语言模型的输入。任务状态、中间结果、工具输出等所有内容,在进入上下文前必须进行主动过滤。
  3. 记忆形成:对应跨任务的知识积累。如果不将交互中验证过的内容保留为可复用记忆,每个任务都将是从零开始。

发现三:更低 Token 消耗对应更好任务性能

这一发现违反直觉,因为普遍假设更长的推理链和更多的交互轮次代表着更彻底的深思熟虑,理应产生更好的结果。然而,实验结果显示,在长周期智能体执行场景中,结论恰恰相反。在 Lifelong AgentBench 上,GA 仅消耗 Claude Code 输入 Token 的 27.7% 和 OpenClaw 的 15.5%,却同时实现了 100% 的任务完成率。超过某个临界点后,额外的 Token 不再引入有用信息,反而因位置偏差、注意力稀释和有效窗口收缩等问题,降低了推理质量。消耗更多 Token 的智能体,其本质是上下文管理的系统性失效,试图通过额外交互来补偿每步决策质量的退化,而非真正改进它。

发现四:权限定义智能体能力的上限

智能体能接触多少环境,就能获得多少智能。智能体所能感知、作用及从中学习的内容,直接决定了其推理链的复杂度和能解决的任务难度。在一个小规模沙箱中的智能体,无论其多么安全,其智能水平也极其有限。在探索阶段锁定行动边界,等同于在设计阶段预先封顶其能力上限。缩小探索边界并非构建有用智能体的路径,其终点将是一个安全但无用的系统。

发现五:最小架构是智能体自主进化的必要前提

开发团队提出了一个新的、更具长远意义的 “自进化” 三维度:

  1. 技能整合
  2. 自主探索
  3. 架构自更新

因此,只有当架构足够精简时,Agent 才能审视并修改自身,最终实现自进化。一个拥有数十万行代码的系统对智能体是不透明的——它既无法理解也无法修改。相比之下,仅有几千行的核心代码库才是可读、可理解、可修改的。在 GA 的最小架构中,作为原生执行面的自托管 CLI,使得子智能体能够自然地读取和修改核心代码库,从而使架构自更新成为一个切实可行的目标。

结语:智能体的可靠方向

GenericAgent 的技术报告拆解出了一套全新的智能体架构设计框架,揭示了大量现有智能体设计的盲目性。GA 仅用 3000 多行核心代码实现的能力,充分展示了智能体未来发展的广阔前景。

GenericAgent 已于 2026 年 1 月 11 日开源,并在 GitHub 获得超过 5.2K+ Star,进入 GitHub 趋势榜。欢迎一同见证智能体的进化时刻。

请关注 GenericAgent 商业落地版本——Dintal Claw 的最新动态,它将更智能、更省钱、更安全、更稳定。

团队以往研究工作:


自进化智能体GenericAgent发布:Token消耗降10倍,任务准确率100%

关于转载与投稿

如需转载本文,请联系本公众号获得授权。

投稿或寻求报道,请发送邮件至:liyazhou@jiqizhixin.com



关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/31441

(0)
上一篇 2小时前
下一篇 2小时前

相关推荐

  • TCDiff++:突破群体舞蹈生成瓶颈,端到端模型实现虚拟群舞新高度

    在元宇宙与数字人技术快速发展的今天,群体舞蹈生成已成为虚拟演唱会、数字人集体表演等场景的核心需求。然而,现有技术在多人生成、动作协调和长序列稳定性方面面临严峻挑战。近期,由南京理工大学、清华大学和南京大学联合研发的端到端模型TCDiff++,通过创新性的架构设计,成功突破了这些技术壁垒,为高质量、长时序的群体舞蹈自动生成提供了完整解决方案。 当前群体舞蹈生成…

    2025年11月27日
    26500
  • UniLIP:突破多模态模型语义理解与像素重建的权衡,实现统一表征新范式

    在人工智能多模态领域,一个长期存在的核心挑战是如何构建既能深度理解语义又能精确重建像素的统一表征模型。传统方法往往在这两个目标间面临艰难权衡:专注于语义理解的模型(如基于CLIP的编码器)在图像重建任务中表现欠佳,而专注于像素重建的模型(如VAE)则语义理解能力有限。本文深入分析北京大学与阿里通义万相实验室联合提出的UniLIP模型,探讨其如何通过创新的两阶…

    2025年11月2日
    34200
  • AI Agent评测全指南:Anthropic官方实战经验

    原文链接:https://www.anthropic.com/engineering/demystifying-evals-for-ai-agents 引言 Anthropic 近期发布了一篇关于 AI Agent 评测的长文,系统性地总结了其在内部研发与客户落地过程中积累的实战经验。 文章开篇即点明核心:高质量的评测是团队发布 Agent 的信心基石。若缺…

    2026年1月10日
    1.1K00
  • Meta算力闪电战:扎克伯格亲征,筹建数十GW基础设施重塑AI格局

    Meta将算力提升至前所未有的战略高度 Meta正在将算力提升至前所未有的战略高度。 年初,Meta进行了新的组织架构调整:高管队伍从148人增至167人,并让更多人直接向CEO马克·扎克伯格汇报。这一系列变动揭示了公司的下一步战略重心:全力押注算力。 巨头押注算力并不罕见,但由扎克伯格亲自“导演”,这场戏或许将有所不同。 The Information对此…

    2026年1月24日
    32600
  • GPT-5.2 vs Gemini 3 Pro:年度AI对决的深度技术剖析与产业格局演变

    在人工智能领域竞争白热化的2025年,OpenAI与谷歌之间的技术对决达到了前所未有的激烈程度。GPT-5.2作为OpenAI年度重磅产品,在发布48小时内即面临来自各方的严格审视,而谷歌Gemini 3 Pro则凭借卓越表现重新定义了行业标杆。这场对决不仅关乎单一产品的成败,更折射出两大科技巨头在技术路线、研发策略和市场布局上的根本差异。 Epoch AI…

    2025年12月14日
    33300