
凌晨2点,硅谷的两家AI巨头再次展开激烈竞争。由于Claude Opus 4.6发布较早,业界的解读和用户的测试体验也更为丰富。结合Anthropic官方信息及相关测评,Opus 4.6在长上下文信息定位、基于信息的推理能力以及专家级复杂推理方面,表现令人印象深刻。
长期使用Claude的Boris用四个词概括Opus 4.6:更具自主性、更智能、运行时间更长、更加细致全面。 
知名科技评论员Ganpathi博士指出,这是首个支持百万token上下文的Opus级别模型。它能够制定更周密的计划,更长时间地维持Agentic任务执行,并在大型代码库中运行得更加稳定可靠。 
用户同样可以在终端上运行Opus 4.6,其能力也覆盖了终端Agent场景。已有用户在社交平台X上分享了在OpenClaw上成功运行的截图。 
作为Claude体系中能力最强、定位最高的模型,Opus 4.6值得深入关注。
模型定位:为「长时程Agentic任务」而生的前沿模型
与以往侧重于“模型能力展示”不同,Opus 4.6的升级方向非常明确:为长期、复杂、真实世界的知识工作与Agent任务而设计。其核心定位已从“更聪明的聊天模型”转向了面向真实世界的Agent模型。
相较于传统的文理科或推理基准测试,本次升级的叙事重点转向以下四个方面:
* 在复杂任务中自主判断重点
* 长时间保持上下文一致性
* 稳定运行Agentic工作流
* 在真实代码库和企业级任务中可控、可靠地发挥能力
这一点在Anthropic公布的13项基准成绩中得到印证,其中有多达10项专注于Agentic能力,其余三项分别为GPQA测试、视觉推理和跨语种理解能力。 
Anthropic在官方表述中多次强调:他们使用Claude来构建Claude。Opus 4.6已在内部工程、代码审查、研究和文档工作中得到验证,其设计目标直接指向工程团队与知识工作者的日常使用场景。
三大主打改进方向
Opus 4.6的能力提升集中在三个关键方向。
第一,Agentic能力的系统性增强。
Opus 4.6在规划、分解和执行任务方面更加稳定,能够在无需频繁人工干预的情况下持续推进复杂工作。早期用户反馈显示,它更容易“独立完成任务”,而非反复等待指令。
挪威央行投资管理公司AI与机器学习负责人Stian Kirkeberg透露了一组盲测数据:
在40项网络安全调查中,Claude Opus 4.6在与Claude 4.5的盲测对比中,有38次取得了最佳结果。所有模型都在相同的Agent测试框架下端到端运行,最多使用9个子代理,并进行了超过100次工具调用。
当然,也有用户实测反馈其自主性仍有提升空间。例如,一位网友分享了Claude Opus 4.6对12个发现的分析,其中4个真正有用,其余8个为噪声或复杂性,整体计划精简但仍需补充三项小决策和一项测试计划。 
第二,长上下文的“可用性”发生质变。
Opus 4.6的100万token上下文并非噱头。在MRCR v2的8-needle / 1M测试中,Opus 4.6达到了76%的检索准确率,而Sonnet 4.5仅为18.5%。这表明模型不仅能“容纳”超长上下文,还能在其中持续理解、追踪和调用关键信息,显著缓解了长期被诟病的“上下文退化”问题。

第三,推理方式从“强制展开”转向“按需使用”。
通过引入自适应思考与推理强度控制,Opus 4.6能够根据任务复杂度自行决定是否启用深度推理。开发者不再只能在“全开或全关”之间二选一,而是可以在输出质量、响应速度和成本之间进行精细调节。
具体细节如下:
自适应思考:此前,开发者只能选择开启或关闭扩展推理。现在,Claude可以自行判断何时需要更深层的推理。在默认的“高”强度下,模型会在必要时启用扩展推理;开发者也可通过调整强度,让模型在使用深度推理时更加或更少克制。
推理强度控制:新增低、中、高(默认)、最大四档选项。官方建议开发者根据具体任务尝试不同设置,以在质量、速度与成本之间取得平衡。
这一点也在Boris的推文中得到说明。通过Claude API,Opus 4.6模型已能做出自适应的复杂决策,从而更精确地调控模型的思考量。
多项评测中的领先表现:Agentic编程表现第一
在官方披露的多项评测中,Opus 4.6均达到或刷新了当前前沿水平:
* Terminal-Bench 2.0:Agentic编程评测排名第一
* Humanity’s Last Exam:在多学科复杂推理中领先所有前沿模型
* GDPval-AA:在金融、法律等高价值知识工作任务中
* 比OpenAI GPT-5.2高出约144 Elo
* 比Opus 4.5高出190 Elo
* BrowseComp:在线检索与信息定位能力排名第一
在能力维度上,Opus 4.6在根因分析、多语言编程、长期一致性、网络安全和生命科学知识等方面表现突出,尤其擅长诊断复杂的软件故障。

AI越来越接近“可用的同事”
显然,Opus 4.6的发布标志着叙事重点的转变:减少了关于模型参数和传统榜单的比拼,更多聚焦于Agent能力的深度打磨。
其一,Agent从“演示”走向“生产”。 通过上下文压缩、128k输出长度、Agent团队协作以及长时间运行支持,Anthropic明确将Agent视为一等公民,使其不再停留在去年的实验功能阶段。
如果说Opus 4.6相比其他顶级模型有何独特之处,安全层面值得一提。在能力大幅增强的同时,Opus 4.6仍保持了与Opus 4.5相当甚至更优的对齐水平,并实现了最低的过度拒答率。在增强网络安全能力的同时,Anthropic同步引入了新的安全探针和防御性应用,强调“让防守方先用好AI”。
随着2026年的序幕拉开,一个清晰的信号已然显现:全球AI竞赛的焦点,正逐渐转向真实场景下的“持续Agentic工作能力”。
那么,如何锚定这种能力?Anthropic给出了一些基本参考维度,从自适应推理、长上下文可用性,到办公工具的深度集成。
Opus 4.6传递出的信号非常明确:模型竞争正在从“单次回答有多聪明”,转向“能否长期、稳定、可信地完成真实工作”。这也意味着,大模型正在从“工具”蜕变为“可协作的同事”。
实测:“可运行、可交互、可玩”的生成任务
尽管存在地域访问限制,无法进行一手实测,但从多个公开的视频实测来看,Opus 4.6的体验确实令人惊艳。
在公开视频测试中,评测者对 Opus 4.6 进行了多项高复杂度、零样本生成任务测试,涵盖舰船战斗模拟、空战游戏、虚拟架子鼓模拟,以及一个完全自包含、可直接编译运行的 C++ 滑板游戏。测试全程未依赖外部资源或人工修正,生成过程一次完成,重点考察模型在交互逻辑、物理一致性、可玩性与代码完整性上的综合能力。


其中,C++ 滑板游戏成为最突出的案例:模型一次性生成近 2000 行代码,角色动作、物理反馈、计分逻辑完整且可运行,人物建模与动作表现也首次摆脱了以往“抽象人形”的局限。

空战模拟在画面、敌机逻辑与音效引入上同样达到了该测试体系中的最高水准。相对而言,从线框图生成网页的多模态测试表现平稳,但创作自由度受限。整体来看,Opus 4.6 在“可运行、可交互、可玩”的生成任务上,其能力已逼近以往仅在更高规格模型中才能看到的水平。

从实测结果看,Claude Opus 4.6 在复杂交互式生成任务上的稳定性和完成度均有显著提升。

此外,Anthropic 还同步展示了一个颇具突破性的内部案例:
“我们委托 Opus 4.6 使用 Agent Teams 架构构建一个 C 编译器。之后我们(基本上)就放手不管了。两周后,它构建的编译器竟然能在 Linux 内核上运行。这一过程让我们对自主软件开发的未来有了新的认识。”

这一进展表明,大模型在复杂、长周期任务中的自主能力正迈向新的高度,Agent 驱动的自动化时代已全面开启。
参考链接:
* https://www.youtube.com/watch?v=8brENzmq1pE
* https://www.anthropic.com/news/claude-opus-4-6
* https://x.com/AnthropicAI/status/2019496582698397945

关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/20520
