AI基准测试

PinchBench基准发布：大模型“养虾”能力大比拼，成功率、速度、成本三维度揭秘各家真实水平

一个评估大模型在“养虾”（OpenClaw）任务中表现的基准——PinchBench，现已正式发布。该基准获得了OpenClaw项目创始人的关注与转发。 PinchBench智能体评测系统通过真实的成功率、执行速度和运行成本三个维度，综合评估各大模型在OpenClaw实际业务场景中的表现。需要指出的是，本次评测尚未包含近期发布的新模型，例如谷歌主打性价比…

2026年3月9日

1.1K000

AI产业动态

Claude Opus 4.6震撼发布：ARC-AGI得分68%创纪录，百万token上下文窗口开启AI新纪元

Anthropic 正式发布了其旗舰模型 Claude Opus 的最新版本 4.6。此次升级带来了显著的智能提升，尤其是在衡量抽象推理能力的 ARC-AGI 2 测试中取得了 68% 的得分，创造了新的纪录，并大幅领先于其他主流模型。核心能力提升 Opus 4.6 在编程能力上实现了重要进步，能够更细致地规划任务，在大型代码库中进行更可靠的操作，并提升了…

2026年2月6日

293000

大模型评测

FysicsWorld：全球首个物理世界全模态评测基准，开启AI感知真实环境新纪元

近年来，多模态大语言模型正经历快速的范式转变，研究焦点转向构建能够统一处理和生成跨语言、视觉、音频等多种感官模态信息的全模态大模型。这类模型的目标不仅是感知全模态内容，更要将视觉理解与生成整合进统一架构，实现模态间的协同交互。这一转变的驱动力源于真实物理世界的复杂性。人类自文明诞生以来，正是通过对视觉线索、听觉信号、空间动态等复杂多模态信息的持续观察、分析…

2025年12月28日

1.2K000

大模型评测

2024年12月大语言模型逻辑能力深度评测：15款主流模型性能横评与趋势洞察

1 参赛选手本次评测共包含15个模型，均为近期更新版本（按发布时间排序）：本月出榜模型：* GLM-4.6（后继版本：GLM-4.7）* MiniMax M2.1（后继版本：M2）* DeepSeek V3.2-Speciale（官方已下线）* Doubao-Seed-1.6 1015（后继版本：1.8）* DeepSeek V3.2-Exp（后继版本：…

2025年12月26日

688002

大模型评测

Gemini-3-pro登顶AI评测榜首：性能飞跃31%成本激增，终结豆包250天霸榜神话

谷歌近期发布了Gemini-3-pro-preview新版本，官方称其在推理能力和多模态能力上达到最先进水平，在所有主要AI基准评测中显著超越Gemini-2.5-pro。我们对这两个版本进行了全面的对比评测，测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 Gemini-3-pro-preview版本表现：* 测试题数：约1.5万* …

2025年11月25日

337000

大模型评测

实测Gemini 3 Pro：屠榜AI基准测试，一键生成网页应用与游戏

谷歌最新发布的 Gemini 3 Pro 模型在多项 AI 基准测试中实现了“断层式”领先。与通常宣称“领先1个百分点”的模型不同，它在关键测试中领先幅度高达5-6个百分点。尤其在被誉为「人类最后考试」的“Humanity’s Last Exam”基准上，它取得了45.8%的准确率。该测试由全球近千名学者联合打造，包含3000道高难度题目。以…

2025年11月21日

287000