Claude Opus 4.5突破5小时自主编码极限:AI编码智能体从短跑迈向马拉松的指数级进化

Claude Opus 4.5突破5小时自主编码极限:AI编码智能体从短跑迈向马拉松的指数级进化


AI是否已撞上天花板?这份「最重要的图表」直击灵魂:2019-2025年任务时长每几个月翻倍,揭示编码智能体从「短跑选手」向「马拉松冠军」的华丽蜕变。AGI不是梦,而是触手可及的现实!

2025年即将结束,AI领域的真正高手并非谷歌或OpenAI,而是来自Anthropic的王者编程模型——Claude Opus 4.5

Claude Opus 4.5突破5小时自主编码极限:AI编码智能体从短跑迈向马拉松的指数级进化

根据METR最新报告,Claude Opus 4.5已能够持续自主编码长达5小时而不崩溃,这一表现甚至让OpenAI最强的编程模型GPT-5.1-Codex-Max也甘拜下风。

Claude Opus 4.5突破5小时自主编码极限:AI编码智能体从短跑迈向马拉松的指数级进化

如今,全网都在为Claude Opus 4.5的编码实力感到震撼。

Claude Opus 4.5突破5小时自主编码极限:AI编码智能体从短跑迈向马拉松的指数级进化
Claude Opus 4.5突破5小时自主编码极限:AI编码智能体从短跑迈向马拉松的指数级进化
Claude Opus 4.5突破5小时自主编码极限:AI编码智能体从短跑迈向马拉松的指数级进化

AI编码智能体能处理的任务时长不仅在指数级增长,其增速还在持续提升
* 2019-2024年:任务时长每7个月翻一倍。
* 2024-2025年:任务时长每4个月翻一倍。

Claude Opus 4.5突破5小时自主编码极限:AI编码智能体从短跑迈向马拉松的指数级进化

许多人初次看到这条曲线会本能地摇头,不理解或不愿接受。但一个事实越来越清晰:AI编码智能体能连续完成的任务,正在从「分钟级」冲向「小时级」,并且加速度还在不断上升。

这张图被网友誉为“关于AI最重要的图表”:

Claude Opus 4.5突破5小时自主编码极限:AI编码智能体从短跑迈向马拉松的指数级进化

它之所以重要,是因为它直接回应了一个核心问题:AI是否撞上了天花板?AGI是乌托邦吗?2025年,AI究竟进步了多少?

普通用户感知不强是正常的。对大多数人而言,模型早已能应对日常提问,如“推荐一部电影”或“解释这个概念”。但真正的变革发生在另一条战线上:编码智能体。而这恰恰是多数人(包括记者与政策制定者)难以触及的形态。这些看似微小的进展,累积起来却意义非凡。

Claude Opus 4.5突破5小时自主编码极限:AI编码智能体从短跑迈向马拉松的指数级进化

根据预测:
* 2026年4月,首批AI智能体将能独立完成一个完整的人类工作日。
* 2026年底,AI能完成半周的任务量。
* 2027年底,AI能完成2个月的任务量。
* 2028年底,AI能完成人类好几个月的工作量。
* 到2030年,AI将能承担一些小型企业或组织的大部分管理工作。

Claude Opus 4.5突破5小时自主编码极限:AI编码智能体从短跑迈向马拉松的指数级进化

AI指数级增长,智能体时代已来

为了量化比较AI与人类的能力,METR在今年3月提出了一个新指标:50%任务完成时间跨度。简单来说,就是把AI当作新人,看它在某项任务上达到“50%成功率”时,这项任务的人类平均耗时是多久。

数据显示,GPT-5.1-Codex-Max已能完成长达2小时53分钟的软件工程任务(成功率50%),能力较o1模型提升了4倍。而Claude Opus 4.5的50%时间跨度达到了约4小时49分钟,这是迄今为止公布的最长记录。

Claude Opus 4.5突破5小时自主编码极限:AI编码智能体从短跑迈向马拉松的指数级进化

尽管在50%成功率上表现出色,但Opus 4.5模型的80%任务完成时间跨度仅为27分钟,与过往模型表现相当,且低于GPT-5.1-Codex-Max的32分钟。

Claude Opus 4.5突破5小时自主编码极限:AI编码智能体从短跑迈向马拉松的指数级进化

Opus 4.5在50%与80%时间跨度之间的差距,反映出其逻辑成功率曲线更为平缓,这意味着该模型在耗时较长的复杂任务上具有差异化优势。甚至有人认为,Claude Code已足够接近通用人工智能的定义。

Claude Opus 4.5突破5小时自主编码极限:AI编码智能体从短跑迈向马拉松的指数级进化

这种说法或许有些夸张,却折射出一种现实。2025年堪称AI讨论最混沌的一年,实际进展与舆论焦点之间的裂痕从未如此巨大。但明年或将迎来转变——当编码智能体的影响力渗透至社会经济各个角落时,人们终将目睹它的威力。但愿到那时,我们还能来得及做好充分准备。

Claude Opus 4.5突破5小时自主编码极限:AI编码智能体从短跑迈向马拉松的指数级进化

AGI逼近,记忆成最后关卡

智能体能把任务做得越来越久,并不奇怪。此前的研究普遍指向四大原因:
1. 推理更强:能把大任务拆解成小任务。
2. 工具更熟:会写代码、会查网页、会运行脚本。
3. 自纠错更稳:出错后能回滚、重试并继续推进。
4. 收益非递减:准确率提升一点点,能处理的任务跨度就会暴增。

Claude Opus 4.5突破5小时自主编码极限:AI编码智能体从短跑迈向马拉松的指数级进化

例如,新一代模型能更好地规划子任务、调用外部工具(如代码编写、网页浏览)并在出错时自我纠正,从而在长达数小时的任务链条中保持高成功率。

当然,在畅想美好前景的同时,也要看到目前的局限。当任务跨度从“小时”走向“工作日”,新的麻烦会冒出来:
* 上下文会丢失:越做越忘记前面说过什么。
* 偏差会积累:小错误滚成大灾难。
* 目标会漂移:做着做着就跑题了。

说到底,这些都指向同一个核心难题:长期记忆

Claude Opus 4.5突破5小时自主编码极限:AI编码智能体从短跑迈向马拉松的指数级进化

Claude Opus 4.5突破5小时自主编码极限:AI编码智能体从短跑迈向马拉松的指数级进化

记忆:通往AGI的最后难题

AI几乎所有能力短板,最后都会牵扯到记忆。你可以把当前的大模型想象成:一个极聪明、反应极快,但“下班就失忆”的新人。它能写代码、能推理、能写文章,但会话一结束,它几乎不记得自己做过什么。

目前,许多智能体的“记忆”主要靠两种方式拼装:
* 强检索工具:需要时去搜索(像在代码库里使用grep命令)。
* 总结压缩后塞进上下文:把过去的内容压缩成几段话,再喂回给模型。

虽然信息检索技术已有不小进展,但即便是当前最优秀的RAG(检索增强生成)系统,其准确率也只有约90%。不断扩大的上下文窗口确实在改善这个问题,更大的窗口意味着可以将更多数据同时输入模型,从而支持模型更有效地在庞大的记忆索引中“阅读”。

但即便如此,要达到AGI级别的“细致入微”的记忆水平,仍然需要在底层架构上实现突破。而且,更大的问题是:没有任何系统真正实现了“自我学习”

Claude Opus 4.5突破5小时自主编码极限:AI编码智能体从短跑迈向马拉松的指数级进化

没有长期记忆,AI就无法像人一样“越用越聪明”,无法从错误中学习,更谈不上积累“常识”和“智慧”。仅仅“记住”还不够,智能体必须能从经验中主动“学习”。与智能体不同,人类大脑擅长将短期经历转化为长期记忆,在日积月累中形成知识网络和经验教训。

Claude Opus 4.5突破5小时自主编码极限:AI编码智能体从短跑迈向马拉松的指数级进化

AGI若想达到人类智能的广度与深度,同样需要这样的记忆系统。业界普遍认为,记忆是通用智能最后但最关键的一块拼图。换言之,AI现有的“算力”和“智力”或许已逼近AGI所需,唯一欠缺的是像人一样拥有持久而丰富的记忆。谁能最先破解“记忆难题”,谁就将在这场AGI竞赛中占据决定性优势。

Claude Opus 4.5突破5小时自主编码极限:AI编码智能体从短跑迈向马拉松的指数级进化

明年的突破:长期被动记忆

现在的智能体拥有非常强大的“搜索”能力,比如使用Cursor时,你会发现它几乎能完美地从整个代码库中检索信息。但它们用的依然是“主动记忆”机制:智能体需要自己去“找”记忆,而不是这些记忆自然存在于它的思维中。这远远不够。

一个运行文本搜索工具grep的智能体,不等于拥有有效记忆的智能体。就像一个计算器并不等于一个数学家。

Claude Opus 4.5突破5小时自主编码极限:AI编码智能体从短跑迈向马拉松的指数级进化

给智能体一个“搜索记忆工具”不是终极解决方案。那么,真正强大的AI记忆系统需要具备什么?真正的记忆,必须像人类一样,无需检索、直接知晓。而目前的被动记忆机制还非常原始,一旦任务复杂度稍微提升,就会彻底崩塌,智能体又回到“全靠搜索”的状态。

纽约通用智能公司创始人Andrew Pignanelli预期,未来12个月AI行业会在“被动记忆系统”上取得显著进展。

Claude Opus 4.5突破5小时自主编码极限:AI编码智能体从短跑迈向马拉松的指数级进化

在接下来的一年中,记忆系统(尤其是智能体的学习能力)将成为AI世界的核心议题,并被正式确认为通向AGI的最后一步。在OpenAI成功推出ChatGPT记忆功能后,Claude近期也已跟进,其他各大模型公司也将纷纷完善自家的记忆系统。
* 长期记忆工具的接入体验将显著提升,尤其随着上下文窗口的持续扩展。

  • 「睡眠时间智能体」 会在用户不知情的情况下,阅读邮件、文档和表格,构建背景知识与个性化记忆;
  • 「实时智能体」 将在信息检索方面趋近完美,用户的偏好、语言风格与行为习惯能被快速融入其中。

短期内,自动注入上下文的方式尚不够自然,为了获得更准确的记忆检索,用户普遍需要接受“响应变慢”的现实。但随着AI变得越来越“懂你”,用户对AI的依赖也会同步增强。在消费者端,人们可能只会注意到“对话开始前有点卡顿”,而不知其背后是一个庞大的记忆系统在默默运行。

到今年年底,“上下文腐烂”问题有望被攻克,解决方案可能包括:
* 启用“遗忘机制”;
* 专为长期对话设计的上下文清理系统;
* 更先进的“上下文检索”技术,能够从海量信息中精准提取关键内容。

未来,用户将不再需要通过文件树导航信息,而是由AI智能体直接检索并访问所需数据。像Replit和Lovable这样的代码生成平台已在此领域先行一步。明年春天,很可能出现由“新一代多模态大模型”与“注意力机制之外的记忆系统”结合所带来的突破。未来12个月内,“记忆+学习”领域有望迎来突破性进展。OpenAI等领军团队正全力攻关持续学习与自我记忆技术;一旦取得突破并应用于顶尖模型,我们或许会惊叹:AGI已经到来。

Claude Opus 4.5突破5小时自主编码极限:AI编码智能体从短跑迈向马拉松的指数级进化

AGI曙光已现

综合当前发展态势,AGI可能已不再是遥不可及的科幻梦想,而是近在咫尺。这种预测并非空穴来风。回顾过去一年,我们曾多次低估AI的进化速度。GPT-5虽然在发布时评价不一,但其长任务执行能力相较前代已有大幅提升;Claude 4.5的惊艳表现,更证明了技术进步的非线性特征:当关键技术取得突破时,性能曲线会陡然跃升。

如今,随着机器智能成为首要生产要素,新型组织形态正在涌现。这是历史上首次,这一新要素为我们提供了改进工作流程本身的思路。依靠AI,微型团队竟能产出超越过去数十人甚至上百人团队的工作成果,尤其在特定软件领域,生产力的增长令人震惊。这种爆发式的效率提升,很难不让人感到兴奋。

这仿佛是某种意义上的“阿特拉斯卸下重担”的时刻,是智能生产力“起飞”的征兆。与2023年那种充满诗意的“AI觉醒叙事”相比,如今的进展显得更为平实与务实,但也因此更加震撼与真实。如果记忆问题得以解决,AI能力或将迎来新一轮爆发。

Claude Opus 4.5突破5小时自主编码极限:AI编码智能体从短跑迈向马拉松的指数级进化

届时,AI智能体将不再仅仅是重复劳作的“工具”,而会进化为越用越聪明、与用户共同成长的“数字同事”。它能记住你的偏好,能记住你曾踩过的坑,能从过往项目中提炼经验,并在下一次合作中,主动将你的效率推向新高。这正是许多人对AGI在人类社会中角色的愿景。

参考资料:
https://www.oneusefulthing.org/p/real-ai-agents-and-real-work
https://www.generalintelligencecompany.com/writing/memory-is-the-last-problem-to-solve-to-reach-agi
https://www.shippingapps.dev/writings/memory-last-problem
https://x.com/tszzl/status/2002488418887168297

Claude Opus 4.5突破5小时自主编码极限:AI编码智能体从短跑迈向马拉松的指数级进化

Claude Opus 4.5突破5小时自主编码极限:AI编码智能体从短跑迈向马拉松的指数级进化


关注“鲸栖”小程序,掌握最新AI资讯

本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/14115

(0)
上一篇 8小时前
下一篇 5小时前

相关推荐