大模型评测

KernelArena：首个AI生成GPU内核评测平台，终结“靠感觉选模型”时代

KernelArena：首个AI生成GPU内核评测平台，终结“靠感觉选模型”时代前沿大模型的能力边界正在持续突破，如今甚至能精准编写GPU内核代码，成为高性能计算领域的新帮手。但一个行业痛点也随之浮现：没有单一前沿模型能在GPU内核生成上持续领先，而行业内对模型能力的评测大多依靠主观体验，缺乏统一、严谨、可复现的量化标准。为了解决这一问题，Wafer团队…

3天前

80000

大模型评测

EgoSound：首个第一人称声音理解基准发布，多模态大模型“失聪”问题被量化，最强模型与人类差距超27%

EgoSound：首个第一人称声音理解基准发布，多模态大模型“失聪”问题被量化当多模态大模型进入真实世界，其“失聪”问题开始凸显。例如，在厨房场景中：背景可能有人交谈、金属碰撞、蒸汽嘶鸣——这些关键信息并未呈现在画面里，却完全由声音传递。此时，即便是当前最先进的模型也开始“失灵”：它们能看懂动作，却听不懂发生了什么；能描述现象，却无法推断背后的原因。核…

5天前

77000

大模型评测

AI专家级任务评测新标准：百万美元基准揭示模型真实经济价值

如果有价值一百万美元的顶级专家任务，AI 能完成其中多少？答案是：价值约 48 万美元的任务，而完成这些任务的 API 成本仅需约 100 美元。这个结论源于 Humanlaya Data Lab 联合北京通用人工智能研究院（BIGAI）、xbench、M-A-P 共同构建的百万美元级评测基准——$OneMillion-Bench。该基准招募了来自摩根士…

2026年3月10日

122000

大模型评测

PinchBench基准发布：大模型“养虾”能力大比拼，成功率、速度、成本三维度揭秘各家真实水平

一个评估大模型在“养虾”（OpenClaw）任务中表现的基准——PinchBench，现已正式发布。该基准获得了OpenClaw项目创始人的关注与转发。 PinchBench智能体评测系统通过真实的成功率、执行速度和运行成本三个维度，综合评估各大模型在OpenClaw实际业务场景中的表现。需要指出的是，本次评测尚未包含近期发布的新模型，例如谷歌主打性价比…

2026年3月9日

425000

大模型评测

通用大模型工业考试翻车，IndustryGPT三场全胜揭示制造业AI新方向

通用大模型工业考试遇挫，IndustryGPT全胜揭示制造业AI新方向近期，数款顶级通用大模型参与了三场特殊的 “工业执业考试” 。结果出人意料：即便是GPT-5.2 Thinking (high)、Gemini-3.1-Pro这类表现卓越的模型，在面对真实的工业工程语境时，也显得力不从心。能写诗、能编程的通用AI，为何难以应对一条生产线的实际问题？ …

2026年3月9日

156000

大模型评测

3B小模型逆袭万亿巨头：Nanbeige4.1-3B如何以“小而全”颠覆大模型军备竞赛？

近年来，大模型领域的竞争日趋白热化，无论是开源还是闭源阵营，都陷入了对 Scaling Law、算力与参数量的极致追求，其规模膨胀的速度已近乎“军备竞赛”。过去，拥有约15亿参数的GPT-2在如今看来已属“小模型”。而GPT-4的参数规模据业内估计已达万亿级别，GPT-5等后续模型的体量更是难以估量。开源模型同样在向超大参数迈进，超过6000亿参数的模型已…

2026年3月9日

316000

大模型评测

OpenAI重磅研究：推理越强的AI，越管不住自己的“脑子”！思维链可控性测试惊现0.1%成功率

【新智元导读】 OpenAI的最新研究揭示了一个反直觉的现象：推理能力越强的模型，越难以控制自身的思维过程。在CoT-Control评估套件测试的13款前沿模型中，DeepSeek R1控制自身思维链的成功率仅为0.1%，Claude Sonnet 4.5也仅有2.7%。向AI下达一条明确的指令：在推理过程中，严禁出现“XOR”一词。模型开始正常推理，但…

2026年3月9日

75000

大模型评测

Anthropic推出技能评测框架：无需代码即可测试和改进Claude技能

Anthropic 近日为其 Skill Creator 工具推出了全新的评测框架。自去年 10 月以来，他们观察到大多数技能创建者是业务专家而非工程师。他们熟悉自身工作流程，但缺乏有效工具来评估技能是否真正有效、是否能在正确时机触发，以及修改后是否确实带来了改进。新的评测框架旨在解决这一问题，它将软件开发中的严谨性——包括测试、基准测试和迭代改进——引入…

2026年3月6日

176000

大模型评测

Gemini 3.1 Flash Lite评测：推理速度创5秒新低，指令遵循能力意外强劲

核心结论：为高速响应与高效执行而生的轻量化模型概述 Gemini 3.1 Flash Lite（下称Lite）在响应速度上实现了显著突破。其前代模型曾创下平均10秒的极速应答纪录，而新版Lite将非推理模式下的平均应答时间进一步缩短至5秒新低。对于简单问题，其响应近乎瞬时。在推理能力方面，Lite展现出与其“轻量”定位不符的潜力。其推理模式可支持高达45…

2026年3月5日

163000

大模型评测

Theory of Space：具身智能新突破，让大模型像人一样探索未知空间

【核心摘要】全新的具身模型空间能力评估范式“Theory of Space”突破了传统静态图文问答的局限，系统性地考察基础模型能否像人一样，在部分可观测的动态环境中，通过自主探索来构建、修正和利用空间信念。该论文已被 ICLR 2026 接收。当今的多模态大模型（如 GPT-5.2, Gemini-3 Pro）在各类视觉问答榜单上屡破纪录。然而，若希望将…

2026年3月4日

155000