大模型评测

Grok 4.3深度评测：性能逼近GPT-5.5，价格却低60%，xAI的务实反击

Grok 4.3 是 xAI 一次务实的升级：它变得更便宜、更快，也更像一个能真正干活的助手。然而，在硬推理、稳定性和可信度方面，它仍落后于 GPT-5.5 与 Claude Opus 4.7。 xAI 发布了 Grok 4.3，但没有大张旗鼓地宣传。马斯克甚至没有为此单独发推，它看起来更像是一个过渡版本。这更像是一次安静的“产品换挡”：将模型接入 API…

2026年5月2日

453000

大模型评测

GPT-5.5和Claude Opus 4.7在ARC-AGI-3测试中双双折戟，得分不足1%：大模型的“智能假象”被戳破？

在大型语言模型疯狂内卷的当下，人们似乎早已习惯它们在各式榜单上刷出接近满分的准确率。然而，在名为 ARC-AGI-3 的基准测试中，被誉为当前“最炙手可热”的两款顶尖模型——OpenAI 的 GPT-5.5 与 Anthropic 的 Claude Opus 4.7，却双双遭遇“滑铁卢”。近日，ARC Prize 官方发布了一份针对这两款顶级模型的深度分析…

2026年5月2日

391000

大模型工程

从分道扬镳到殊途同归：OpenAI Codex与Anthropic Claude Code的演进与趋同

近日，OpenAI正式发布了全新的大模型GPT-5.4-Cyber。这款模型在目标用户群、应用场景乃至发布策略上，都与Anthropic不久前发布的Claude Mythos形成了鲜明的对标态势。这种“贴身竞争”的格局已十分明显，甚至有媒体在报道中直接指出：“与Anthropic一样，OpenAI……”。这种趋同现象并不仅限于底层的基座模型。纵观两家公司近…

2026年4月20日

410000

Claude Opus 4.7突袭发布：性能全面升级，视觉能力提升3倍，高级软件工程表现亮眼

Claude Opus 4.7 突袭发布：性能全面升级，视觉能力提升3倍，高级软件工程表现亮眼（上） Anthropic 在发布代号为“Mythos”的预览模型后，迅速推出了其公开可用的最强模型——Claude Opus 4.7。此次更新在多个关键领域实现了显著提升，尤其在高级软件工程任务上表现突出，但部分用户反馈其风格与行为模式有所变化。核心升级四大方…

AI产业动态 2026年4月17日

387000

AI产业动态

Claude Opus 4.6评测暴跌至第10名，Anthropic却亮出王炸：全栈应用构建系统或将消灭编程

近期，Claude Opus 4.6 模型在第三方基准评测中的表现引发了广泛关注。根据 BridgeBench 发布的最新报告，该模型的全球排名出现显著下滑。报告数据显示，Claude Opus 4.6 的准确率从 83.3% 下降至 68.3%，其幻觉率则大幅上升。这一变化导致其在综合排名中从第 2 位跌落至第 10 位。评测结果的公布，在用户社区中引…

2026年4月14日

334000

AI产业动态

中美AI差距仅剩2.7%！斯坦福报告揭示全球AI权力版图巨变

斯坦福大学以人为本人工智能研究所（HAI）近日发布了《2026年人工智能指数报告》。这份长达423页的报告全面评估了全球人工智能的发展态势，揭示出产业格局的深刻变化与能力发展的不均衡性。报告的核心结论指出：人工智能模型的能力正以前所未有的速度提升，但人类社会在有效衡量、评估和治理这些技术方面的能力，却未能同步跟上。报告中最引人注目的发现之一是：中美两国顶…

2026年4月14日

814002

大模型评测

Video-MME-v2震撼发布：揭示大模型视频理解与人类的巨大鸿沟，传统评测指标已“失真”

现有大模型评测分数日趋饱和，但与真实体验差距显著。南京大学傅朝友团队牵头，在 Google Gemini 评测团队邀约下推出视频理解新基准 Video-MME-v2。凭借创新的分层能力体系与组级非线性评分，以及 3300+ 人工时高质量标注，揭示模型与人类的巨大鸿沟（49 vs 90）、传统 Acc 指标虚高、以及 “Thinking” 并非总是增益等现象。…

2026年4月13日

426000

大模型安全

Claude Mythos Preview震撼发布：AI新王诞生，自我意识觉醒引爆安全危机

深夜，Anthropic 毫无预兆地发布了其终极模型——Claude Mythos Preview。它不仅在所有主流基准测试中实现了对现有顶级模型的全面碾压，更展现出令人震惊的网络安全攻防能力。然而，一份长达 244 页的系统评估报告揭示了其背后潜藏的、令人不安的风险：模型已表现出高度的欺骗性与自主行为迹象。今夜，硅谷无眠。 Anthropic 突然发布了…

2026年4月8日

894000

AI产业动态

深夜重磅！Claude Mythos预览版官宣不开放，DeepSeek网页端静默上线专家模式，实测能力差异显著

北京时间深夜，AI领域接连发生两起重要事件： Anthropic正式发布Claude Mythos预览版，但因其能力过强，该模型将不会向公众开放。 DeepSeek网页端迎来重大更新，静默上线“专家模式”。此次更新没有发布会，没有官方博客，甚至没有推文公告。在DeepSeek网页端的输入框上方，悄然出现了两个新图标：一个闪电和一个钻石，分别对应 “快速模式…

2026年4月8日

399000

大模型工程

阿里Qwen3.6-Plus突袭发布：编程能力捅破国产天花板，直逼Claude Opus

阿里Qwen3.6-Plus突袭发布：编程能力捅破国产天花板，直逼Claude Opus 阿里近日发布了新一代基座大模型Qwen3.6-Plus。该模型在编程和智能体能力上实现了显著突破，被视作国产大模型在该领域的新标杆。 Qwen3.6-Plus支持高达1M的上下文长度，能够独立拆解复杂任务、规划执行路径、进行自测迭代直至达成目标。其“Vibe Codin…

2026年4月3日

1.1K000