Claude Opus 4.6震撼发布:专为长时程Agent任务而生,百万token上下文实现76%检索准确率

Claude Opus 4.6震撼发布:专为长时程Agent任务而生,百万token上下文实现76%检索准确率 Claude Opus 4.6震撼发布:专为长时程Agent任务而生,百万token上下文实现76%检索准确率

凌晨2点,硅谷的两家AI巨头再次展开激烈竞争。由于Claude Opus 4.6发布较早,业界的解读和用户的测试体验也更为丰富。结合Anthropic官方信息及相关测评,Opus 4.6在长上下文信息定位、基于信息的推理能力以及专家级复杂推理方面,表现令人印象深刻。

长期使用Claude的Boris用四个词概括Opus 4.6:更具自主性、更智能、运行时间更长、更加细致全面。 Claude Opus 4.6震撼发布:专为长时程Agent任务而生,百万token上下文实现76%检索准确率
知名科技评论员Ganpathi博士指出,这是首个支持百万token上下文的Opus级别模型。它能够制定更周密的计划,更长时间地维持Agentic任务执行,并在大型代码库中运行得更加稳定可靠。 Claude Opus 4.6震撼发布:专为长时程Agent任务而生,百万token上下文实现76%检索准确率

用户同样可以在终端上运行Opus 4.6,其能力也覆盖了终端Agent场景。已有用户在社交平台X上分享了在OpenClaw上成功运行的截图。 Claude Opus 4.6震撼发布:专为长时程Agent任务而生,百万token上下文实现76%检索准确率

作为Claude体系中能力最强、定位最高的模型,Opus 4.6值得深入关注。

模型定位:为「长时程Agentic任务」而生的前沿模型

与以往侧重于“模型能力展示”不同,Opus 4.6的升级方向非常明确:为长期、复杂、真实世界的知识工作与Agent任务而设计。其核心定位已从“更聪明的聊天模型”转向了面向真实世界的Agent模型

相较于传统的文理科或推理基准测试,本次升级的叙事重点转向以下四个方面:
* 在复杂任务中自主判断重点
* 长时间保持上下文一致性
* 稳定运行Agentic工作流
* 在真实代码库和企业级任务中可控、可靠地发挥能力

这一点在Anthropic公布的13项基准成绩中得到印证,其中有多达10项专注于Agentic能力,其余三项分别为GPQA测试、视觉推理和跨语种理解能力。 Claude Opus 4.6震撼发布:专为长时程Agent任务而生,百万token上下文实现76%检索准确率

Anthropic在官方表述中多次强调:他们使用Claude来构建Claude。Opus 4.6已在内部工程、代码审查、研究和文档工作中得到验证,其设计目标直接指向工程团队与知识工作者的日常使用场景。

三大主打改进方向

Opus 4.6的能力提升集中在三个关键方向。

第一,Agentic能力的系统性增强。
Opus 4.6在规划、分解和执行任务方面更加稳定,能够在无需频繁人工干预的情况下持续推进复杂工作。早期用户反馈显示,它更容易“独立完成任务”,而非反复等待指令。

挪威央行投资管理公司AI与机器学习负责人Stian Kirkeberg透露了一组盲测数据:

在40项网络安全调查中,Claude Opus 4.6在与Claude 4.5的盲测对比中,有38次取得了最佳结果。所有模型都在相同的Agent测试框架下端到端运行,最多使用9个子代理,并进行了超过100次工具调用。

当然,也有用户实测反馈其自主性仍有提升空间。例如,一位网友分享了Claude Opus 4.6对12个发现的分析,其中4个真正有用,其余8个为噪声或复杂性,整体计划精简但仍需补充三项小决策和一项测试计划。 Claude Opus 4.6震撼发布:专为长时程Agent任务而生,百万token上下文实现76%检索准确率

第二,长上下文的“可用性”发生质变。
Opus 4.6的100万token上下文并非噱头。在MRCR v2的8-needle / 1M测试中,Opus 4.6达到了76%的检索准确率,而Sonnet 4.5仅为18.5%。这表明模型不仅能“容纳”超长上下文,还能在其中持续理解、追踪和调用关键信息,显著缓解了长期被诟病的“上下文退化”问题。 Claude Opus 4.6震撼发布:专为长时程Agent任务而生,百万token上下文实现76%检索准确率 Claude Opus 4.6震撼发布:专为长时程Agent任务而生,百万token上下文实现76%检索准确率

第三,推理方式从“强制展开”转向“按需使用”。
通过引入自适应思考与推理强度控制,Opus 4.6能够根据任务复杂度自行决定是否启用深度推理。开发者不再只能在“全开或全关”之间二选一,而是可以在输出质量、响应速度和成本之间进行精细调节。

具体细节如下:

自适应思考:此前,开发者只能选择开启或关闭扩展推理。现在,Claude可以自行判断何时需要更深层的推理。在默认的“高”强度下,模型会在必要时启用扩展推理;开发者也可通过调整强度,让模型在使用深度推理时更加或更少克制。

推理强度控制:新增低、中、高(默认)、最大四档选项。官方建议开发者根据具体任务尝试不同设置,以在质量、速度与成本之间取得平衡。

这一点也在Boris的推文中得到说明。通过Claude API,Opus 4.6模型已能做出自适应的复杂决策,从而更精确地调控模型的思考量。

多项评测中的领先表现:Agentic编程表现第一

在官方披露的多项评测中,Opus 4.6均达到或刷新了当前前沿水平:
* Terminal-Bench 2.0:Agentic编程评测排名第一
* Humanity’s Last Exam:在多学科复杂推理中领先所有前沿模型
* GDPval-AA:在金融、法律等高价值知识工作任务中
* 比OpenAI GPT-5.2高出约144 Elo
* 比Opus 4.5高出190 Elo
* BrowseComp:在线检索与信息定位能力排名第一

在能力维度上,Opus 4.6在根因分析、多语言编程、长期一致性、网络安全和生命科学知识等方面表现突出,尤其擅长诊断复杂的软件故障。 Claude Opus 4.6震撼发布:专为长时程Agent任务而生,百万token上下文实现76%检索准确率 Claude Opus 4.6震撼发布:专为长时程Agent任务而生,百万token上下文实现76%检索准确率

AI越来越接近“可用的同事”

显然,Opus 4.6的发布标志着叙事重点的转变:减少了关于模型参数和传统榜单的比拼,更多聚焦于Agent能力的深度打磨。

其一,Agent从“演示”走向“生产”。 通过上下文压缩、128k输出长度、Agent团队协作以及长时间运行支持,Anthropic明确将Agent视为一等公民,使其不再停留在去年的实验功能阶段。

如果说Opus 4.6相比其他顶级模型有何独特之处,安全层面值得一提。在能力大幅增强的同时,Opus 4.6仍保持了与Opus 4.5相当甚至更优的对齐水平,并实现了最低的过度拒答率。在增强网络安全能力的同时,Anthropic同步引入了新的安全探针和防御性应用,强调“让防守方先用好AI”。

随着2026年的序幕拉开,一个清晰的信号已然显现:全球AI竞赛的焦点,正逐渐转向真实场景下的“持续Agentic工作能力”。

那么,如何锚定这种能力?Anthropic给出了一些基本参考维度,从自适应推理、长上下文可用性,到办公工具的深度集成。

Opus 4.6传递出的信号非常明确:模型竞争正在从“单次回答有多聪明”,转向“能否长期、稳定、可信地完成真实工作”。这也意味着,大模型正在从“工具”蜕变为“可协作的同事”。

实测:“可运行、可交互、可玩”的生成任务

尽管存在地域访问限制,无法进行一手实测,但从多个公开的视频实测来看,Opus 4.6的体验确实令人惊艳。

在公开视频测试中,评测者对 Opus 4.6 进行了多项高复杂度、零样本生成任务测试,涵盖舰船战斗模拟、空战游戏、虚拟架子鼓模拟,以及一个完全自包含、可直接编译运行的 C++ 滑板游戏。测试全程未依赖外部资源或人工修正,生成过程一次完成,重点考察模型在交互逻辑、物理一致性、可玩性与代码完整性上的综合能力。

Claude Opus 4.6震撼发布:专为长时程Agent任务而生,百万token上下文实现76%检索准确率

Claude Opus 4.6震撼发布:专为长时程Agent任务而生,百万token上下文实现76%检索准确率

其中,C++ 滑板游戏成为最突出的案例:模型一次性生成近 2000 行代码,角色动作、物理反馈、计分逻辑完整且可运行,人物建模与动作表现也首次摆脱了以往“抽象人形”的局限。

Claude Opus 4.6震撼发布:专为长时程Agent任务而生,百万token上下文实现76%检索准确率

空战模拟在画面、敌机逻辑与音效引入上同样达到了该测试体系中的最高水准。相对而言,从线框图生成网页的多模态测试表现平稳,但创作自由度受限。整体来看,Opus 4.6 在“可运行、可交互、可玩”的生成任务上,其能力已逼近以往仅在更高规格模型中才能看到的水平。

Claude Opus 4.6震撼发布:专为长时程Agent任务而生,百万token上下文实现76%检索准确率

从实测结果看,Claude Opus 4.6 在复杂交互式生成任务上的稳定性和完成度均有显著提升。

Claude Opus 4.6震撼发布:专为长时程Agent任务而生,百万token上下文实现76%检索准确率

此外,Anthropic 还同步展示了一个颇具突破性的内部案例:

“我们委托 Opus 4.6 使用 Agent Teams 架构构建一个 C 编译器。之后我们(基本上)就放手不管了。两周后,它构建的编译器竟然能在 Linux 内核上运行。这一过程让我们对自主软件开发的未来有了新的认识。”

Claude Opus 4.6震撼发布:专为长时程Agent任务而生,百万token上下文实现76%检索准确率

这一进展表明,大模型在复杂、长周期任务中的自主能力正迈向新的高度,Agent 驱动的自动化时代已全面开启。

参考链接:
* https://www.youtube.com/watch?v=8brENzmq1pE
* https://www.anthropic.com/news/claude-opus-4-6
* https://x.com/AnthropicAI/status/2019496582698397945

Claude Opus 4.6震撼发布:专为长时程Agent任务而生,百万token上下文实现76%检索准确率


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/20520

(0)
上一篇 2026年2月6日 下午12:03
下一篇 2026年2月6日 下午4:18

相关推荐

  • OpenAI财务危机深度剖析:推理成本指数级增长与收入线性增长的致命剪刀差

    OpenAI作为人工智能领域的领军企业,其财务状况一直是行业关注的焦点。近期曝光的微软财报数据揭示了这家公司面临的严峻挑战:推理成本正以指数级速度增长,而收入仅呈现线性增长态势,两者形成的“成本-收入剪刀差”正在急剧扩大,这不仅是OpenAI的个体困境,更折射出整个大模型产业面临的系统性风险。 从微软公布的Azure服务模型推理成本数据来看,OpenAI的财…

    2025年11月29日
    40700
  • 世界模型破解VLA监督稀疏难题:DriveVLA-W0如何放大自动驾驶数据规模定律

    在自动驾驶技术从实验室走向商业化的关键阶段,视觉-语言-动作(VLA)大模型正面临着一个根本性的发展瓶颈:监督稀疏问题。特斯拉在ICCV会议上公开指出,当前VLA模型虽然能够处理高维、稠密的视觉信息流,但其训练监督信号却仅限于低维、稀疏的驾驶动作(如转向角度、加速度等路径点指令)。这种输入与监督之间的维度不匹配,导致模型无法充分利用PB级海量数据的潜力,严重…

    2025年11月17日
    38800
  • 陶哲轩领衔SAIR:AI for Science的正确路径与学术界深度参与之道

    最近,数学家、菲尔兹奖得主陶哲轩联合多位顶尖科学家与世界级奖项得主,共同发起创立了一家专注于人工智能与科学研究的基金会——SAIR。 在SAIR成立当天,陶哲轩阐述了该机构的使命:致力于探索新的科学研究范式。他表示:“作为联合创始人,我很高兴能够汇聚数学与各科学领域的顶尖研究者,共同探讨人工智能与新兴技术如何加速科学发现,并开启新的研究工作流程。” 这一举动…

    2026年2月11日
    41300
  • 彼得·蒂尔20亿美元押注AI牛项圈:虚拟围栏颠覆传统养殖,60万头牛已戴上智能项圈

    最近,硅谷著名投资人彼得·蒂尔计划领投一轮高达20亿美元的融资,其投资对象竟是一款为奶牛设计的智能项圈。 彼得·蒂尔:为何是他? 彼得·蒂尔是硅谷风险投资界的标志性人物,PayPal的联合创始人,也是最早发现并投资Facebook的远见者之一。他参与创立了大数据公司Palantir,并早期押注了SpaceX。其“竞争是失败者的游戏”等投资理念在创投领域影响深…

    2026年3月23日
    55600
  • 苹果砍掉256GB Mac mini背后:AI内存危机引爆全球硬件涨价潮

    在苹果公司悄然砍掉 256GB 版 Mac mini 的背后,一场由 AI 引发的内存危机正在全球范围内推高硬件价格。 昨日,苹果官网悄然撤下了 256GB 入门版 Mac mini。如今,Mac mini 的起步配置已变为 16GB+512GB,起售价也随之上涨至 5999 元。先别急着吐槽库克那精准的“刀法”:在这个充满变数的 2026 年,即便是那个向…

    2026年5月4日
    38100