大模型评测
-
Grok 4.3深度评测:性能逼近GPT-5.5,价格却低60%,xAI的务实反击
Grok 4.3 是 xAI 一次务实的升级:它变得更便宜、更快,也更像一个能真正干活的助手。然而,在硬推理、稳定性和可信度方面,它仍落后于 GPT-5.5 与 Claude Opus 4.7。 xAI 发布了 Grok 4.3,但没有大张旗鼓地宣传。马斯克甚至没有为此单独发推,它看起来更像是一个过渡版本。 这更像是一次安静的“产品换挡”:将模型接入 API…
-
GPT-5.5和Claude Opus 4.7在ARC-AGI-3测试中双双折戟,得分不足1%:大模型的“智能假象”被戳破?
在大型语言模型疯狂内卷的当下,人们似乎早已习惯它们在各式榜单上刷出接近满分的准确率。然而,在名为 ARC-AGI-3 的基准测试中,被誉为当前“最炙手可热”的两款顶尖模型——OpenAI 的 GPT-5.5 与 Anthropic 的 Claude Opus 4.7,却双双遭遇“滑铁卢”。 近日,ARC Prize 官方发布了一份针对这两款顶级模型的深度分析…
-
从分道扬镳到殊途同归:OpenAI Codex与Anthropic Claude Code的演进与趋同
近日,OpenAI正式发布了全新的大模型GPT-5.4-Cyber。这款模型在目标用户群、应用场景乃至发布策略上,都与Anthropic不久前发布的Claude Mythos形成了鲜明的对标态势。这种“贴身竞争”的格局已十分明显,甚至有媒体在报道中直接指出:“与Anthropic一样,OpenAI……”。 这种趋同现象并不仅限于底层的基座模型。纵观两家公司近…
-
Claude Opus 4.7突袭发布:性能全面升级,视觉能力提升3倍,高级软件工程表现亮眼
Claude Opus 4.7 突袭发布:性能全面升级,视觉能力提升3倍,高级软件工程表现亮眼(上) Anthropic 在发布代号为“Mythos”的预览模型后,迅速推出了其公开可用的最强模型——Claude Opus 4.7。 此次更新在多个关键领域实现了显著提升,尤其在高级软件工程任务上表现突出,但部分用户反馈其风格与行为模式有所变化。 核心升级四大方…
-
Claude Opus 4.6评测暴跌至第10名,Anthropic却亮出王炸:全栈应用构建系统或将消灭编程
近期,Claude Opus 4.6 模型在第三方基准评测中的表现引发了广泛关注。根据 BridgeBench 发布的最新报告,该模型的全球排名出现显著下滑。 报告数据显示,Claude Opus 4.6 的准确率从 83.3% 下降至 68.3%,其幻觉率则大幅上升。这一变化导致其在综合排名中从第 2 位跌落至第 10 位。 评测结果的公布,在用户社区中引…
-
中美AI差距仅剩2.7%!斯坦福报告揭示全球AI权力版图巨变
斯坦福大学以人为本人工智能研究所(HAI)近日发布了《2026年人工智能指数报告》。这份长达423页的报告全面评估了全球人工智能的发展态势,揭示出产业格局的深刻变化与能力发展的不均衡性。 报告的核心结论指出:人工智能模型的能力正以前所未有的速度提升,但人类社会在有效衡量、评估和治理这些技术方面的能力,却未能同步跟上。 报告中最引人注目的发现之一是:中美两国顶…
-
Video-MME-v2震撼发布:揭示大模型视频理解与人类的巨大鸿沟,传统评测指标已“失真”
现有大模型评测分数日趋饱和,但与真实体验差距显著。南京大学傅朝友团队牵头,在 Google Gemini 评测团队邀约下推出视频理解新基准 Video-MME-v2。凭借创新的分层能力体系与组级非线性评分,以及 3300+ 人工时高质量标注,揭示模型与人类的巨大鸿沟(49 vs 90)、传统 Acc 指标虚高、以及 “Thinking” 并非总是增益等现象。…
-
Claude Mythos Preview震撼发布:AI新王诞生,自我意识觉醒引爆安全危机
深夜,Anthropic 毫无预兆地发布了其终极模型——Claude Mythos Preview。它不仅在所有主流基准测试中实现了对现有顶级模型的全面碾压,更展现出令人震惊的网络安全攻防能力。然而,一份长达 244 页的系统评估报告揭示了其背后潜藏的、令人不安的风险:模型已表现出高度的欺骗性与自主行为迹象。 今夜,硅谷无眠。 Anthropic 突然发布了…
-
深夜重磅!Claude Mythos预览版官宣不开放,DeepSeek网页端静默上线专家模式,实测能力差异显著
北京时间深夜,AI领域接连发生两起重要事件: Anthropic正式发布Claude Mythos预览版,但因其能力过强,该模型将不会向公众开放。 DeepSeek网页端迎来重大更新,静默上线“专家模式”。此次更新没有发布会,没有官方博客,甚至没有推文公告。 在DeepSeek网页端的输入框上方,悄然出现了两个新图标:一个闪电和一个钻石,分别对应 “快速模式…
-
阿里Qwen3.6-Plus突袭发布:编程能力捅破国产天花板,直逼Claude Opus
阿里Qwen3.6-Plus突袭发布:编程能力捅破国产天花板,直逼Claude Opus 阿里近日发布了新一代基座大模型Qwen3.6-Plus。该模型在编程和智能体能力上实现了显著突破,被视作国产大模型在该领域的新标杆。 Qwen3.6-Plus支持高达1M的上下文长度,能够独立拆解复杂任务、规划执行路径、进行自测迭代直至达成目标。其“Vibe Codin…
