编程能力 - 鲸林向海

Claude Opus 4.7震撼发布：编程能力飙升64.3%，图像识别提升3倍，开启自动模式新纪元

周四晚间，Anthropic 宣布其最新基础模型 Claude Opus 4.7 全面上市。 Opus 4.7 在高级软件工程能力上相比前代 Opus 4.6 有显著提升，尤其是在处理最复杂的任务方面。根据用户反馈，现在可以将以往需要密切监督的棘手编码工作交给 Opus 4.7 处理。该模型能够严谨、一致地处理复杂且耗时的任务，精准执行指令，并在返回结果前设…

2026年4月17日

594000

AI产业动态

Anthropic发布Claude Opus 4.7：编程能力大幅提升，视觉输入分辨率翻三倍

Anthropic 正式发布 Claude Opus 4.7。本次更新的核心在于软件工程能力的显著提升。Opus 4.7 在最复杂的编程任务上表现突出，用户反馈称其能够独立处理以往需要密切监督的复杂代码工作。该模型能够执行长时间、多步骤的任务，严格遵守指令，并在最终输出前自行验证结果。 Opus 4.7 现已通过所有 Claude 产品、API 以及 Ama…

2026年4月16日

644000

AI产业动态

GPT-5.4震撼发布：一个模型整合编程、搜索、操控五大能力，知识工作击败人类83%

GPT-5.4 发布：五大核心能力集于一身，知识工作表现超越多数人类长期以来，用户在使用AI工具时，常常需要根据任务类型在不同模型间切换：编写代码、查询资料、操作计算机往往需要调用不同的专用模型。OpenAI最新发布的GPT-5.4旨在终结这种割裂的体验。该模型将编程、推理、计算机操控、网页搜索以及百万级Token上下文处理能力整合进同一个通用模型，且各项…

2026年3月6日

739000

AI产业动态

MiniMax M2.5深度评测：国模编程可用性突破，逻辑与工程能力全面进化

短的结论：向下扎根，向上生长基本情况：稀宇的前一代M2.1因技术问题，在逻辑能力上落后于M2。M2.5基本解决了这些问题，能力回归正轨，相比M2的综合性能提升约17%。不过，部分进步是通过更长的思维链和更深的解空间探索换来的。M2.5的平均Token消耗在测试模型中排第6高，几乎是对手Sonnet的2倍。得益于稀宇充足的算力与可控的成本，M2.5在编程…

2026年2月13日

1.1K000

AI产业动态

稀宇MiniMax M2.5深度评测：编程能力突破性提升，逻辑推理稳中有进

短的结论：向下扎根，向上生长基本情况：稀宇的前一代M2.1因技术问题，在逻辑能力上落后于M2。M2.5基本解决了这些问题，能力回归正轨。相比M2，M2.5的综合能力提升约17%。部分进步源于更长的思维链和更深的解空间探索，M2.5的平均Token消耗在测试模型中位列第6，几乎是对手Sonnet的2倍。得益于稀宇充足的算力与可控的成本，M2.5在编程上虽…

2026年2月13日

905000

AI产业动态

MiniMax-M2.5震撼上线：国产AI模型春节档激战，网页制作与编程能力全面升级

一句话做“黄金矿工”游戏、生成精美公司网站。智东西2月12日消息，春节将至，国产AI大模型之战愈发火爆。短短1天多时间，DeepSeek、智谱、字节等多家厂商模型密集更新，MiniMax-M2.5正式上线，其重点提升了Agent和编程能力。 ▲MiniMax-M2.5已可选 MiniMax AI相关负责人在X平台上发文称，他想尽快发布M2.5，已经迫不及待…

2026年2月12日

378000

AI产业动态

AI模型周报：通义千问、MiniMax、智谱AI等巨头齐发新版，图像编辑与编程能力全面升级

12月23日【闭源】通义千问发布图像编辑模型快照通义千问团队发布了 qwen-image-edit-plus-2025-12-15 图像编辑模型的最新快照。该版本在角色一致性、工业设计能力和几何推理能力上相较前代实现显著提升，优化了编辑后图片与原图在空间布局、纹理和风格上的匹配度，编辑效果更为精准细腻，旨在为专业图像处理提供更强大的工具支持。【开源】Mi…

2025年12月29日

465000

AI产业动态

GLM-4.7震撼发布：编程与推理能力全面突破，多项基准测试超越GPT-5.2与Claude 4.5

经过多日预热，12月22日，智谱AI正式发布新一代旗舰模型GLM-4.7。该模型在编程和复杂推理能力上实现重大突破，旨在对标当前顶尖闭源模型。基准测试表现亮眼根据官方信息，GLM-4.7在编程、复杂推理和工具使用方面均有显著提升，同时在聊天、创意写作和角色扮演等场景下的能力也有所增强。官方公布的测试结果显示，GLM-4.7在多项关键基准测试中表现优异：…

2025年12月23日

1.3K000

大模型工程

Gemini 3深度评测：硬核编程的SOTA王者，为何在Web开发上“翻车”？

📌 简短结论：强得离谱，但并非全能综合各类基准测试与我的实际体验，可以得出结论：Gemini 3 是目前我测试过最接近“真实智能”的模型。特别是在硬核编程任务上，其表现超越了包括 GPT-5 Pro 和 Gemini 2.5 Deep Think 在内的所有竞品。 ✅ 当前处于 SOTA（最优）水平的领域：调试复杂的编译器 Bug 无逻辑错误地重构大型代…

2025年11月22日

356000