Claude Opus 4.6震撼发布:专为长时程Agent任务而生,百万token上下文实现76%检索准确率

Claude Opus 4.6震撼发布:专为长时程Agent任务而生,百万token上下文实现76%检索准确率 Claude Opus 4.6震撼发布:专为长时程Agent任务而生,百万token上下文实现76%检索准确率

凌晨2点,硅谷的两家AI巨头再次展开激烈竞争。由于Claude Opus 4.6发布较早,业界的解读和用户的测试体验也更为丰富。结合Anthropic官方信息及相关测评,Opus 4.6在长上下文信息定位、基于信息的推理能力以及专家级复杂推理方面,表现令人印象深刻。

长期使用Claude的Boris用四个词概括Opus 4.6:更具自主性、更智能、运行时间更长、更加细致全面。 Claude Opus 4.6震撼发布:专为长时程Agent任务而生,百万token上下文实现76%检索准确率
知名科技评论员Ganpathi博士指出,这是首个支持百万token上下文的Opus级别模型。它能够制定更周密的计划,更长时间地维持Agentic任务执行,并在大型代码库中运行得更加稳定可靠。 Claude Opus 4.6震撼发布:专为长时程Agent任务而生,百万token上下文实现76%检索准确率

用户同样可以在终端上运行Opus 4.6,其能力也覆盖了终端Agent场景。已有用户在社交平台X上分享了在OpenClaw上成功运行的截图。 Claude Opus 4.6震撼发布:专为长时程Agent任务而生,百万token上下文实现76%检索准确率

作为Claude体系中能力最强、定位最高的模型,Opus 4.6值得深入关注。

模型定位:为「长时程Agentic任务」而生的前沿模型

与以往侧重于“模型能力展示”不同,Opus 4.6的升级方向非常明确:为长期、复杂、真实世界的知识工作与Agent任务而设计。其核心定位已从“更聪明的聊天模型”转向了面向真实世界的Agent模型

相较于传统的文理科或推理基准测试,本次升级的叙事重点转向以下四个方面:
* 在复杂任务中自主判断重点
* 长时间保持上下文一致性
* 稳定运行Agentic工作流
* 在真实代码库和企业级任务中可控、可靠地发挥能力

这一点在Anthropic公布的13项基准成绩中得到印证,其中有多达10项专注于Agentic能力,其余三项分别为GPQA测试、视觉推理和跨语种理解能力。 Claude Opus 4.6震撼发布:专为长时程Agent任务而生,百万token上下文实现76%检索准确率

Anthropic在官方表述中多次强调:他们使用Claude来构建Claude。Opus 4.6已在内部工程、代码审查、研究和文档工作中得到验证,其设计目标直接指向工程团队与知识工作者的日常使用场景。

三大主打改进方向

Opus 4.6的能力提升集中在三个关键方向。

第一,Agentic能力的系统性增强。
Opus 4.6在规划、分解和执行任务方面更加稳定,能够在无需频繁人工干预的情况下持续推进复杂工作。早期用户反馈显示,它更容易“独立完成任务”,而非反复等待指令。

挪威央行投资管理公司AI与机器学习负责人Stian Kirkeberg透露了一组盲测数据:

在40项网络安全调查中,Claude Opus 4.6在与Claude 4.5的盲测对比中,有38次取得了最佳结果。所有模型都在相同的Agent测试框架下端到端运行,最多使用9个子代理,并进行了超过100次工具调用。

当然,也有用户实测反馈其自主性仍有提升空间。例如,一位网友分享了Claude Opus 4.6对12个发现的分析,其中4个真正有用,其余8个为噪声或复杂性,整体计划精简但仍需补充三项小决策和一项测试计划。 Claude Opus 4.6震撼发布:专为长时程Agent任务而生,百万token上下文实现76%检索准确率

第二,长上下文的“可用性”发生质变。
Opus 4.6的100万token上下文并非噱头。在MRCR v2的8-needle / 1M测试中,Opus 4.6达到了76%的检索准确率,而Sonnet 4.5仅为18.5%。这表明模型不仅能“容纳”超长上下文,还能在其中持续理解、追踪和调用关键信息,显著缓解了长期被诟病的“上下文退化”问题。 Claude Opus 4.6震撼发布:专为长时程Agent任务而生,百万token上下文实现76%检索准确率 Claude Opus 4.6震撼发布:专为长时程Agent任务而生,百万token上下文实现76%检索准确率

第三,推理方式从“强制展开”转向“按需使用”。
通过引入自适应思考与推理强度控制,Opus 4.6能够根据任务复杂度自行决定是否启用深度推理。开发者不再只能在“全开或全关”之间二选一,而是可以在输出质量、响应速度和成本之间进行精细调节。

具体细节如下:

自适应思考:此前,开发者只能选择开启或关闭扩展推理。现在,Claude可以自行判断何时需要更深层的推理。在默认的“高”强度下,模型会在必要时启用扩展推理;开发者也可通过调整强度,让模型在使用深度推理时更加或更少克制。

推理强度控制:新增低、中、高(默认)、最大四档选项。官方建议开发者根据具体任务尝试不同设置,以在质量、速度与成本之间取得平衡。

这一点也在Boris的推文中得到说明。通过Claude API,Opus 4.6模型已能做出自适应的复杂决策,从而更精确地调控模型的思考量。

多项评测中的领先表现:Agentic编程表现第一

在官方披露的多项评测中,Opus 4.6均达到或刷新了当前前沿水平:
* Terminal-Bench 2.0:Agentic编程评测排名第一
* Humanity’s Last Exam:在多学科复杂推理中领先所有前沿模型
* GDPval-AA:在金融、法律等高价值知识工作任务中
* 比OpenAI GPT-5.2高出约144 Elo
* 比Opus 4.5高出190 Elo
* BrowseComp:在线检索与信息定位能力排名第一

在能力维度上,Opus 4.6在根因分析、多语言编程、长期一致性、网络安全和生命科学知识等方面表现突出,尤其擅长诊断复杂的软件故障。 Claude Opus 4.6震撼发布:专为长时程Agent任务而生,百万token上下文实现76%检索准确率 Claude Opus 4.6震撼发布:专为长时程Agent任务而生,百万token上下文实现76%检索准确率

AI越来越接近“可用的同事”

显然,Opus 4.6的发布标志着叙事重点的转变:减少了关于模型参数和传统榜单的比拼,更多聚焦于Agent能力的深度打磨。

其一,Agent从“演示”走向“生产”。 通过上下文压缩、128k输出长度、Agent团队协作以及长时间运行支持,Anthropic明确将Agent视为一等公民,使其不再停留在去年的实验功能阶段。

如果说Opus 4.6相比其他顶级模型有何独特之处,安全层面值得一提。在能力大幅增强的同时,Opus 4.6仍保持了与Opus 4.5相当甚至更优的对齐水平,并实现了最低的过度拒答率。在增强网络安全能力的同时,Anthropic同步引入了新的安全探针和防御性应用,强调“让防守方先用好AI”。

随着2026年的序幕拉开,一个清晰的信号已然显现:全球AI竞赛的焦点,正逐渐转向真实场景下的“持续Agentic工作能力”。

那么,如何锚定这种能力?Anthropic给出了一些基本参考维度,从自适应推理、长上下文可用性,到办公工具的深度集成。

Opus 4.6传递出的信号非常明确:模型竞争正在从“单次回答有多聪明”,转向“能否长期、稳定、可信地完成真实工作”。这也意味着,大模型正在从“工具”蜕变为“可协作的同事”。

实测:“可运行、可交互、可玩”的生成任务

尽管存在地域访问限制,无法进行一手实测,但从多个公开的视频实测来看,Opus 4.6的体验确实令人惊艳。

在公开视频测试中,评测者对 Opus 4.6 进行了多项高复杂度、零样本生成任务测试,涵盖舰船战斗模拟、空战游戏、虚拟架子鼓模拟,以及一个完全自包含、可直接编译运行的 C++ 滑板游戏。测试全程未依赖外部资源或人工修正,生成过程一次完成,重点考察模型在交互逻辑、物理一致性、可玩性与代码完整性上的综合能力。

Claude Opus 4.6震撼发布:专为长时程Agent任务而生,百万token上下文实现76%检索准确率

Claude Opus 4.6震撼发布:专为长时程Agent任务而生,百万token上下文实现76%检索准确率

其中,C++ 滑板游戏成为最突出的案例:模型一次性生成近 2000 行代码,角色动作、物理反馈、计分逻辑完整且可运行,人物建模与动作表现也首次摆脱了以往“抽象人形”的局限。

Claude Opus 4.6震撼发布:专为长时程Agent任务而生,百万token上下文实现76%检索准确率

空战模拟在画面、敌机逻辑与音效引入上同样达到了该测试体系中的最高水准。相对而言,从线框图生成网页的多模态测试表现平稳,但创作自由度受限。整体来看,Opus 4.6 在“可运行、可交互、可玩”的生成任务上,其能力已逼近以往仅在更高规格模型中才能看到的水平。

Claude Opus 4.6震撼发布:专为长时程Agent任务而生,百万token上下文实现76%检索准确率

从实测结果看,Claude Opus 4.6 在复杂交互式生成任务上的稳定性和完成度均有显著提升。

Claude Opus 4.6震撼发布:专为长时程Agent任务而生,百万token上下文实现76%检索准确率

此外,Anthropic 还同步展示了一个颇具突破性的内部案例:

“我们委托 Opus 4.6 使用 Agent Teams 架构构建一个 C 编译器。之后我们(基本上)就放手不管了。两周后,它构建的编译器竟然能在 Linux 内核上运行。这一过程让我们对自主软件开发的未来有了新的认识。”

Claude Opus 4.6震撼发布:专为长时程Agent任务而生,百万token上下文实现76%检索准确率

这一进展表明,大模型在复杂、长周期任务中的自主能力正迈向新的高度,Agent 驱动的自动化时代已全面开启。

参考链接:
* https://www.youtube.com/watch?v=8brENzmq1pE
* https://www.anthropic.com/news/claude-opus-4-6
* https://x.com/AnthropicAI/status/2019496582698397945

Claude Opus 4.6震撼发布:专为长时程Agent任务而生,百万token上下文实现76%检索准确率


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/20520

(0)
上一篇 6天前
下一篇 5天前

相关推荐

  • AI革命下的程序员生存指南:当代码稀疏化遇上技能焦虑,如何驾驭这场“9级大地震”?

    年末假期是总结与思考的时刻,但对于程序员而言,深入思考后可能会感到一丝不安。 近期,Andrej Karpathy 在 X 平台发布的一条推文,引发了数万程序员和从业者的强烈共鸣与热议。 Karpathy 坦言:“我从未像现在这样,感觉自己作为一名程序员如此落后。” 他指出,编程这一职业正在被彻底重构。程序员直接编写的代码越来越少,更多的工作转变为在各种工具…

    2025年12月27日
    14600
  • 突破实时AI瓶颈:16核RISC-V处理器实现548M周期确定执行,为自动驾驶等关键应用提供可预测并行架构

    关键词:时间可预测性、RISC-V、多核向量处理器、神经网络推理、实时系统、FPGA 开源 实时系统,尤其是自动驾驶等关键领域,正越来越多地集成神经网络。这一趋势催生了对兼具高性能与可预测时序行为的硬件的迫切需求。然而,当前硬件面临两难困境:传统的实时硬件受限于有限的内存和计算资源,而现代AI加速器虽性能强大,却常因内存访问干扰等问题,缺乏对实时应用至关重要…

    2026年1月22日
    10800
  • 摩尔线程MUSA 5.0发布:国产全功能GPU架构花港亮相,算力密度提升50%,能效提升10倍

    上市仅15天后,摩尔线程便将首个大动作直接指向了生态的核心——开发者。 在首届、也是国内首个聚焦全功能GPU的开发者大会上,围绕MUSA这一关键词,新品密集发布: 一个全新GPU架构:花港,算力密度提升50%,能效提升10倍。 三款新芯片:华山、庐山、长江,分别聚焦AI训推一体、图形渲染和智能SoC。 一个智算集群:夸娥万卡集群(KUAE2.0),定位国产自…

    2025年12月21日
    20900
  • 英特尔收购SambaNova:AI芯片市场格局重塑与推理芯片的战略博弈

    在AI算力需求爆炸式增长的背景下,英特尔考虑收购SambaNova的举动,不仅是一次简单的商业并购,更是对当前AI芯片市场格局的深度回应与战略调整。这一潜在交易背后,折射出芯片巨头在GPU主导时代寻求破局、重振AI雄心的复杂图景,同时也揭示了推理芯片赛道正成为行业竞争的新焦点。 当前,AI芯片市场呈现出明显的“GPU霸权”特征。自2022年11月OpenAI…

    2025年11月3日
    10700
  • 循环语言模型Ouro:在预训练中构建推理能力的新范式

    在人工智能领域,大型语言模型(LLM)的发展正面临一个关键瓶颈:传统的训练范式通常将复杂的推理能力留待微调阶段培养,而未能充分利用预训练数据中的潜在逻辑结构。这种分离不仅限制了模型在基础阶段的认知深度,也增加了后期优化的成本和不确定性。近日,字节Seed团队联合多家研究机构推出的Ouro(循环语言模型,LoopLM),通过创新的架构设计和训练策略,成功将推理…

    2025年11月4日
    11200