基准测试

  • AI Agent评测进入下半场:从“看答案”到“看行动”,Claw-Eval如何防止系统放水?

    今天的 AI Agent 越来越像能真正干活的数字员工:可以调用 API、查询数据库、撰写邮件、修改代码、安排日程、生成报表。但真正的难题并非它“会不会说”,而是两个更实际的问题:它到底有没有真正完成任务?以及我们用来测试它的任务,是否还代表当下真实世界最重要的工作流程? Claw-Eval 回答了前者,Claw-Eval-Live 回答了后者。前者解决的是…

    1天前
    15800
  • AI评测信任危机:伯克利团队10行代码攻破8大基准,作弊已成现实

    本周,AI评测领域经历了一场严重的信任危机。 SWE-bench作为业界公认的AI编程能力标杆,是各大模型发布会上的关键指标,也是投资人评估模型价值的重要依据。然而,伯克利的研究团队揭示,仅需一个conftest.py文件即可令其防线崩溃。 不仅如此。伯克利RDI团队构建了一个自动化漏洞扫描智能体,对当前最主流的8个AI智能体评测基准进行了系统性渗透测试。结…

    2026年4月19日
    41400
  • Anthropic神秘王炸Mythos基准测试泄露,多项跑分刷新纪录!卡皮巴拉细节曝光,支持1M上下文

    过去24小时内,AI领域接连发生信息泄露事件。继Anthropic的命令行工具Claude Code源码意外流出后,其疑似下一代旗舰模型Mythos的基准测试数据也遭到曝光。 据泄露信息显示,Mythos被定位为独立于现有Claude系列的高端产品线。其基准测试成绩对比当前版本Opus 4.6,在多项关键指标上均有显著提升: Terminal-Bench 2…

    2026年4月2日
    52500
  • KernelArena:首个AI生成GPU内核评测平台,终结“靠感觉选模型”时代

    KernelArena:首个AI生成GPU内核评测平台,终结“靠感觉选模型”时代 前沿大模型的能力边界正在持续突破,如今甚至能精准编写GPU内核代码,成为高性能计算领域的新帮手。但一个行业痛点也随之浮现:没有单一前沿模型能在GPU内核生成上持续领先,而行业内对模型能力的评测大多依靠主观体验,缺乏统一、严谨、可复现的量化标准。 为了解决这一问题,Wafer团队…

    2026年3月14日
    33500
  • NVIDIA DreamZero登顶机器人基准测试:世界-动作模型如何实现性能突破?

    近日,NVIDIA 发布的世界-动作模型 DreamZero 在两项机器人基准测试 RoboArena 与 MolmoSpaces 中均取得了领先成绩。 DreamZero 的核心设计思想是:在单一模型内,同步预测未来视频帧与机器人动作。这意味着,机器人在执行动作前,能够在模型内部进行“想象”,预演其行为可能引发的世界状态变化。 然而,这一设计也引出了更深层…

    2026年3月4日
    45300
  • Gemini 3.1 Pro震撼发布:推理能力翻倍,成本效率双突破,AI竞赛进入新阶段

    今天,Google正式推出Gemini 3.1 Pro。在评估模型解决全新逻辑模式能力的ARC-AGI-2基准测试中,其得分达到77.1%,相较前代Gemini 3 Pro的31.1%实现了翻倍以上的飞跃。 具体基准测试表现 根据详细测试数据,Gemini 3.1 Pro在多个关键领域取得显著突破: 智能工具使用:能力提升82%,在APEX-Agents测试…

    2026年2月20日
    61800
  • 视觉压缩革命:DeepSeek-OCR与VTCBench如何重塑长文本理解的未来?

    DeepSeek-OCR 提出的视觉文本压缩(Vision-Text Compression, VTC)技术,通过将文本编码为视觉 Token,实现了高达 10 倍的压缩率,显著降低了大模型处理长文本的计算与显存成本。然而,一个核心问题随之浮现:视觉语言模型(VLM)能否真正理解这种高度压缩后的高密度信息? 为了系统性地评估模型在视觉压缩范式下的认知能力,来…

    2026年1月10日
    31100
  • 突破RISC-V迁移瓶颈:首个RVV适配基准揭示LLM代码迁移潜力,20%通过率提升方案开源

    关键词: RISC-V Vector Intrinsic、Code Migration、Benchmark、Large Language Model、Intrinsic Code VecIntrinBench: Benchmarking Cross-Architecture Intrinsic Code Migration for RISC-V Vector…

    2025年12月21日
    52300
  • GPT-5.2发布遇冷:技术跃进与用户体验的鸿沟分析

    OpenAI在成立十周年之际发布了备受期待的GPT-5.2系列模型,官方宣称这是“迄今为止在专业知识工作上最强大的模型系列”,并在多项基准测试中刷新了SOTA水平。然而,发布后短短24小时内,社交媒体上却涌现出大量负面评价,用户普遍反映模型“不通人性”、“安全过度”、“像对待幼儿园小孩”,甚至认为这是“技术倒退”。这一现象揭示了当前大模型发展中一个核心矛盾:…

    2025年12月13日
    32600
  • AI Agent独立复现顶会论文能力大揭秘:OpenAI PaperBench基准测试深度解析

    当我们探讨AI的边界时,一个颇具挑战性的问题浮现出来:AI能否像人类研究者一样,独立阅读一篇前沿论文,理解其核心思想,从零编写代码,并成功复现实验结果? OpenAI最新发布的PaperBench基准测试,正是为回答这个问题而设计的。这项研究不仅展现了当前AI Agent的真实能力边界,更为我们理解“AI辅助科研”这一命题提供了量化的参照系。 为什么需要Pa…

    2025年11月6日
    52100