Claude Opus 4.6震撼发布:专为长时程Agent任务而生,百万token上下文实现76%检索准确率

Claude Opus 4.6震撼发布:专为长时程Agent任务而生,百万token上下文实现76%检索准确率 Claude Opus 4.6震撼发布:专为长时程Agent任务而生,百万token上下文实现76%检索准确率

凌晨2点,硅谷的两家AI巨头再次展开激烈竞争。由于Claude Opus 4.6发布较早,业界的解读和用户的测试体验也更为丰富。结合Anthropic官方信息及相关测评,Opus 4.6在长上下文信息定位、基于信息的推理能力以及专家级复杂推理方面,表现令人印象深刻。

长期使用Claude的Boris用四个词概括Opus 4.6:更具自主性、更智能、运行时间更长、更加细致全面。 Claude Opus 4.6震撼发布:专为长时程Agent任务而生,百万token上下文实现76%检索准确率
知名科技评论员Ganpathi博士指出,这是首个支持百万token上下文的Opus级别模型。它能够制定更周密的计划,更长时间地维持Agentic任务执行,并在大型代码库中运行得更加稳定可靠。 Claude Opus 4.6震撼发布:专为长时程Agent任务而生,百万token上下文实现76%检索准确率

用户同样可以在终端上运行Opus 4.6,其能力也覆盖了终端Agent场景。已有用户在社交平台X上分享了在OpenClaw上成功运行的截图。 Claude Opus 4.6震撼发布:专为长时程Agent任务而生,百万token上下文实现76%检索准确率

作为Claude体系中能力最强、定位最高的模型,Opus 4.6值得深入关注。

模型定位:为「长时程Agentic任务」而生的前沿模型

与以往侧重于“模型能力展示”不同,Opus 4.6的升级方向非常明确:为长期、复杂、真实世界的知识工作与Agent任务而设计。其核心定位已从“更聪明的聊天模型”转向了面向真实世界的Agent模型

相较于传统的文理科或推理基准测试,本次升级的叙事重点转向以下四个方面:
* 在复杂任务中自主判断重点
* 长时间保持上下文一致性
* 稳定运行Agentic工作流
* 在真实代码库和企业级任务中可控、可靠地发挥能力

这一点在Anthropic公布的13项基准成绩中得到印证,其中有多达10项专注于Agentic能力,其余三项分别为GPQA测试、视觉推理和跨语种理解能力。 Claude Opus 4.6震撼发布:专为长时程Agent任务而生,百万token上下文实现76%检索准确率

Anthropic在官方表述中多次强调:他们使用Claude来构建Claude。Opus 4.6已在内部工程、代码审查、研究和文档工作中得到验证,其设计目标直接指向工程团队与知识工作者的日常使用场景。

三大主打改进方向

Opus 4.6的能力提升集中在三个关键方向。

第一,Agentic能力的系统性增强。
Opus 4.6在规划、分解和执行任务方面更加稳定,能够在无需频繁人工干预的情况下持续推进复杂工作。早期用户反馈显示,它更容易“独立完成任务”,而非反复等待指令。

挪威央行投资管理公司AI与机器学习负责人Stian Kirkeberg透露了一组盲测数据:

在40项网络安全调查中,Claude Opus 4.6在与Claude 4.5的盲测对比中,有38次取得了最佳结果。所有模型都在相同的Agent测试框架下端到端运行,最多使用9个子代理,并进行了超过100次工具调用。

当然,也有用户实测反馈其自主性仍有提升空间。例如,一位网友分享了Claude Opus 4.6对12个发现的分析,其中4个真正有用,其余8个为噪声或复杂性,整体计划精简但仍需补充三项小决策和一项测试计划。 Claude Opus 4.6震撼发布:专为长时程Agent任务而生,百万token上下文实现76%检索准确率

第二,长上下文的“可用性”发生质变。
Opus 4.6的100万token上下文并非噱头。在MRCR v2的8-needle / 1M测试中,Opus 4.6达到了76%的检索准确率,而Sonnet 4.5仅为18.5%。这表明模型不仅能“容纳”超长上下文,还能在其中持续理解、追踪和调用关键信息,显著缓解了长期被诟病的“上下文退化”问题。 Claude Opus 4.6震撼发布:专为长时程Agent任务而生,百万token上下文实现76%检索准确率 Claude Opus 4.6震撼发布:专为长时程Agent任务而生,百万token上下文实现76%检索准确率

第三,推理方式从“强制展开”转向“按需使用”。
通过引入自适应思考与推理强度控制,Opus 4.6能够根据任务复杂度自行决定是否启用深度推理。开发者不再只能在“全开或全关”之间二选一,而是可以在输出质量、响应速度和成本之间进行精细调节。

具体细节如下:

自适应思考:此前,开发者只能选择开启或关闭扩展推理。现在,Claude可以自行判断何时需要更深层的推理。在默认的“高”强度下,模型会在必要时启用扩展推理;开发者也可通过调整强度,让模型在使用深度推理时更加或更少克制。

推理强度控制:新增低、中、高(默认)、最大四档选项。官方建议开发者根据具体任务尝试不同设置,以在质量、速度与成本之间取得平衡。

这一点也在Boris的推文中得到说明。通过Claude API,Opus 4.6模型已能做出自适应的复杂决策,从而更精确地调控模型的思考量。

多项评测中的领先表现:Agentic编程表现第一

在官方披露的多项评测中,Opus 4.6均达到或刷新了当前前沿水平:
* Terminal-Bench 2.0:Agentic编程评测排名第一
* Humanity’s Last Exam:在多学科复杂推理中领先所有前沿模型
* GDPval-AA:在金融、法律等高价值知识工作任务中
* 比OpenAI GPT-5.2高出约144 Elo
* 比Opus 4.5高出190 Elo
* BrowseComp:在线检索与信息定位能力排名第一

在能力维度上,Opus 4.6在根因分析、多语言编程、长期一致性、网络安全和生命科学知识等方面表现突出,尤其擅长诊断复杂的软件故障。 Claude Opus 4.6震撼发布:专为长时程Agent任务而生,百万token上下文实现76%检索准确率 Claude Opus 4.6震撼发布:专为长时程Agent任务而生,百万token上下文实现76%检索准确率

AI越来越接近“可用的同事”

显然,Opus 4.6的发布标志着叙事重点的转变:减少了关于模型参数和传统榜单的比拼,更多聚焦于Agent能力的深度打磨。

其一,Agent从“演示”走向“生产”。 通过上下文压缩、128k输出长度、Agent团队协作以及长时间运行支持,Anthropic明确将Agent视为一等公民,使其不再停留在去年的实验功能阶段。

如果说Opus 4.6相比其他顶级模型有何独特之处,安全层面值得一提。在能力大幅增强的同时,Opus 4.6仍保持了与Opus 4.5相当甚至更优的对齐水平,并实现了最低的过度拒答率。在增强网络安全能力的同时,Anthropic同步引入了新的安全探针和防御性应用,强调“让防守方先用好AI”。

随着2026年的序幕拉开,一个清晰的信号已然显现:全球AI竞赛的焦点,正逐渐转向真实场景下的“持续Agentic工作能力”。

那么,如何锚定这种能力?Anthropic给出了一些基本参考维度,从自适应推理、长上下文可用性,到办公工具的深度集成。

Opus 4.6传递出的信号非常明确:模型竞争正在从“单次回答有多聪明”,转向“能否长期、稳定、可信地完成真实工作”。这也意味着,大模型正在从“工具”蜕变为“可协作的同事”。

实测:“可运行、可交互、可玩”的生成任务

尽管存在地域访问限制,无法进行一手实测,但从多个公开的视频实测来看,Opus 4.6的体验确实令人惊艳。

在公开视频测试中,评测者对 Opus 4.6 进行了多项高复杂度、零样本生成任务测试,涵盖舰船战斗模拟、空战游戏、虚拟架子鼓模拟,以及一个完全自包含、可直接编译运行的 C++ 滑板游戏。测试全程未依赖外部资源或人工修正,生成过程一次完成,重点考察模型在交互逻辑、物理一致性、可玩性与代码完整性上的综合能力。

Claude Opus 4.6震撼发布:专为长时程Agent任务而生,百万token上下文实现76%检索准确率

Claude Opus 4.6震撼发布:专为长时程Agent任务而生,百万token上下文实现76%检索准确率

其中,C++ 滑板游戏成为最突出的案例:模型一次性生成近 2000 行代码,角色动作、物理反馈、计分逻辑完整且可运行,人物建模与动作表现也首次摆脱了以往“抽象人形”的局限。

Claude Opus 4.6震撼发布:专为长时程Agent任务而生,百万token上下文实现76%检索准确率

空战模拟在画面、敌机逻辑与音效引入上同样达到了该测试体系中的最高水准。相对而言,从线框图生成网页的多模态测试表现平稳,但创作自由度受限。整体来看,Opus 4.6 在“可运行、可交互、可玩”的生成任务上,其能力已逼近以往仅在更高规格模型中才能看到的水平。

Claude Opus 4.6震撼发布:专为长时程Agent任务而生,百万token上下文实现76%检索准确率

从实测结果看,Claude Opus 4.6 在复杂交互式生成任务上的稳定性和完成度均有显著提升。

Claude Opus 4.6震撼发布:专为长时程Agent任务而生,百万token上下文实现76%检索准确率

此外,Anthropic 还同步展示了一个颇具突破性的内部案例:

“我们委托 Opus 4.6 使用 Agent Teams 架构构建一个 C 编译器。之后我们(基本上)就放手不管了。两周后,它构建的编译器竟然能在 Linux 内核上运行。这一过程让我们对自主软件开发的未来有了新的认识。”

Claude Opus 4.6震撼发布:专为长时程Agent任务而生,百万token上下文实现76%检索准确率

这一进展表明,大模型在复杂、长周期任务中的自主能力正迈向新的高度,Agent 驱动的自动化时代已全面开启。

参考链接:
* https://www.youtube.com/watch?v=8brENzmq1pE
* https://www.anthropic.com/news/claude-opus-4-6
* https://x.com/AnthropicAI/status/2019496582698397945

Claude Opus 4.6震撼发布:专为长时程Agent任务而生,百万token上下文实现76%检索准确率


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/20520

(0)
上一篇 2026年2月6日 下午12:03
下一篇 2026年2月6日 下午4:18

相关推荐

  • VisPlay:突破视觉语言模型的数据困境,开启自进化强化学习新纪元

    在Vision-Language Model(VLM)领域,提升复杂推理能力长期面临严峻挑战。传统方法主要依赖大规模人工标注数据或启发式奖励机制,这不仅带来高昂的经济成本和时间成本,更关键的是难以实现规模化扩展。随着模型参数量的指数级增长,人工标注的速度已远远跟不上模型演化的需求,形成了制约VLM发展的“数据困境”。 最新研究成果VisPlay首次提出了一种…

    2025年12月1日
    21700
  • 谷歌Earth AI:地理空间智能的范式革命,开启地球级可计算时代

    谷歌近日发布的Earth AI系统,标志着地理空间人工智能领域迈入了一个全新的范式阶段。这一系统不仅整合了谷歌数十年来在世界建模方面的深厚积累,更关键的是,它通过Gemini驱动的推理能力,首次实现了地球尺度的复杂地理空间问题求解能力,将整个地球转变为一个“可计算对象”。这一突破性进展,正在重新定义我们如何理解、分析和应对全球性挑战。 从技术架构层面分析,G…

    2025年11月5日
    25000
  • GPT-5.2突袭Cursor:OpenAI以编程为战场,打响对Gemini 3的反击战

    在人工智能领域竞争白热化的当下,OpenAI与谷歌之间的技术对决已进入关键阶段。近期,开发者社区流传的截图显示,在Cursor IDE的模型下拉菜单中,赫然出现了gpt-5.2和gpt-5.2-thinking的选项,这标志着GPT-5.2可能已悄然上线,而其首战场并非ChatGPT网页端,而是选择了编程集成开发环境Cursor。这一战略部署意味深长:Ope…

    2025年12月11日
    21100
  • WorldVLA:统一视觉语言动作与世界模型,开启具身智能新范式

    在人工智能迈向通用智能(AGI)的进程中,具身智能(Embodied AI)作为关键方向,要求智能体不仅能感知环境,更要能理解物理规律并执行精确动作。传统方法中,视觉语言动作模型(VLA)与世界模型(World Model)往往各自为战,前者擅长跨任务泛化但缺乏对动作的深度理解,后者能预测环境变化却无法直接生成动作。这种割裂严重制约了机器人在复杂场景中的自主…

    2025年10月29日
    23900
  • 昇腾CANN全面开源:重塑AI算力生态,赋予开发者底层定义权

    在人工智能技术飞速发展的当下,大模型竞争已进入白热化阶段,而算力基础设施的自主可控与开放创新成为行业关注的焦点。近日,华为昇腾宣布将其核心底层基础软件——CANN(Compute Architecture for Neural Networks,神经网络异构计算架构)全面开源开放,这一举措不仅标志着国产AI算力生态建设迈出关键一步,更可能从根本上改变全球计算…

    2025年12月19日
    24400