基准测试 - 鲸林向海

KernelArena：首个AI生成GPU内核评测平台，终结“靠感觉选模型”时代

KernelArena：首个AI生成GPU内核评测平台，终结“靠感觉选模型”时代前沿大模型的能力边界正在持续突破，如今甚至能精准编写GPU内核代码，成为高性能计算领域的新帮手。但一个行业痛点也随之浮现：没有单一前沿模型能在GPU内核生成上持续领先，而行业内对模型能力的评测大多依靠主观体验，缺乏统一、严谨、可复现的量化标准。为了解决这一问题，Wafer团队…

2026年3月14日

113000

AI产业动态

NVIDIA DreamZero登顶机器人基准测试：世界-动作模型如何实现性能突破？

近日，NVIDIA 发布的世界-动作模型 DreamZero 在两项机器人基准测试 RoboArena 与 MolmoSpaces 中均取得了领先成绩。 DreamZero 的核心设计思想是：在单一模型内，同步预测未来视频帧与机器人动作。这意味着，机器人在执行动作前，能够在模型内部进行“想象”，预演其行为可能引发的世界状态变化。然而，这一设计也引出了更深层…

2026年3月4日

135000

AI产业动态

Gemini 3.1 Pro震撼发布：推理能力翻倍，成本效率双突破，AI竞赛进入新阶段

今天，Google正式推出Gemini 3.1 Pro。在评估模型解决全新逻辑模式能力的ARC-AGI-2基准测试中，其得分达到77.1%，相较前代Gemini 3 Pro的31.1%实现了翻倍以上的飞跃。具体基准测试表现根据详细测试数据，Gemini 3.1 Pro在多个关键领域取得显著突破：智能工具使用：能力提升82%，在APEX-Agents测试…

2026年2月20日

254000

AI产业动态

视觉压缩革命：DeepSeek-OCR与VTCBench如何重塑长文本理解的未来？

DeepSeek-OCR 提出的视觉文本压缩（Vision-Text Compression, VTC）技术，通过将文本编码为视觉 Token，实现了高达 10 倍的压缩率，显著降低了大模型处理长文本的计算与显存成本。然而，一个核心问题随之浮现：视觉语言模型（VLM）能否真正理解这种高度压缩后的高密度信息？为了系统性地评估模型在视觉压缩范式下的认知能力，来…

2026年1月10日

167000

大模型工程

突破RISC-V迁移瓶颈：首个RVV适配基准揭示LLM代码迁移潜力，20%通过率提升方案开源

关键词： RISC-V Vector Intrinsic、Code Migration、Benchmark、Large Language Model、Intrinsic Code VecIntrinBench: Benchmarking Cross-Architecture Intrinsic Code Migration for RISC-V Vector…

2025年12月21日

242000

AI产业动态

GPT-5.2发布遇冷：技术跃进与用户体验的鸿沟分析

OpenAI在成立十周年之际发布了备受期待的GPT-5.2系列模型，官方宣称这是“迄今为止在专业知识工作上最强大的模型系列”，并在多项基准测试中刷新了SOTA水平。然而，发布后短短24小时内，社交媒体上却涌现出大量负面评价，用户普遍反映模型“不通人性”、“安全过度”、“像对待幼儿园小孩”，甚至认为这是“技术倒退”。这一现象揭示了当前大模型发展中一个核心矛盾：…

2025年12月13日

190000

大模型评测

AI Agent独立复现顶会论文能力大揭秘：OpenAI PaperBench基准测试深度解析

当我们探讨AI的边界时，一个颇具挑战性的问题浮现出来：AI能否像人类研究者一样，独立阅读一篇前沿论文，理解其核心思想，从零编写代码，并成功复现实验结果？ OpenAI最新发布的PaperBench基准测试，正是为回答这个问题而设计的。这项研究不仅展现了当前AI Agent的真实能力边界，更为我们理解“AI辅助科研”这一命题提供了量化的参照系。为什么需要Pa…

2025年11月6日

249000

大模型评测

AI Agent评测体系全景：如何衡量智能体的真实能力？

在AI Agent领域，我们正见证一场从“数量竞赛”到“质量较量”的深刻转变。从年初Manus的横空出世，到最近Genspark Super Agent的火爆登场，通用智能体的能力边界不断被刷新。与此同时，扣子、腾讯元器等平台上涌现出成千上万个垂直领域Agent。这让我们不得不思考一个核心问题：当企业将Agent作为核心竞争力时，究竟应该追求“万能工具箱”…

2025年10月31日

241000

大模型评测

超越准确率：揭秘AI Agent评测的三大真相与行为分析革命

当我们谈论AI Agent的性能时，一个百分比数字真的能说明全部问题吗？最近一项针对20,000多次Agent运行的深度研究《Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent Evaluation》给出了发人深省的答案——远比我们想象的复杂。这项研究覆盖了9个极具挑战性的…

2025年10月30日

212000

大模型评测

LLM应用评测全指南：核心指标、基准测试与实践方法

手动抽查提示词和输出，既慢又容易遗漏，长期来看难以持续。要确保 LLM 应用上线后稳定可靠，必须将评估过程自动化、流水线化。本文旨在全面解析 LLM 评测的各个方面，帮助你构建长期稳定运行的 LLM 应用。对 LLM 进行评测，是确保其输出符合人类预期的关键环节，涉及伦理安全、准确性、相关性等多个维度。从工程实践角度看，LLM 的输出可被转化为一系列单元测…

2025年10月22日

179000