评测框架 - 鲸林向海

几何感知短板暴露！清华团队提出GEOPERCEIVE评测框架，首次独立评估VLM几何识别能力

几何感知短板暴露！清华团队提出GEOPERCEIVE评测框架，首次独立评估VLM几何识别能力近年来，视觉语言模型（VLMs）在图文问答、表格理解、数学应用题等多模态任务上取得了显著进展。然而，当面对几何图形问题时，它们的表现往往明显下降。近日，来自光明实验室与清华大学的研究团队通过深入剖析多个主流模型的错误案例，发现了一个关键问题：当前VLM在几何问题上…

2026年3月31日

221000

大模型评测

Anthropic推出技能评测框架：无需代码即可测试和改进Claude技能

Anthropic 近日为其 Skill Creator 工具推出了全新的评测框架。自去年 10 月以来，他们观察到大多数技能创建者是业务专家而非工程师。他们熟悉自身工作流程，但缺乏有效工具来评估技能是否真正有效、是否能在正确时机触发，以及修改后是否确实带来了改进。新的评测框架旨在解决这一问题，它将软件开发中的严谨性——包括测试、基准测试和迭代改进——引入…

2026年3月6日

563000

AI产业动态

超越能跑就行：Agent评测的三层四维框架与实战指南

传统 Agent 评测的三大盲区当前主流的 Agent 评测方式，主要关注任务完成率这一单一指标。这种评测方式存在三个显著盲区：盲区一：只评结果，不评过程Agent 完成了任务，但中间调用了多次不必要的工具、走了弯路，这种「低效完成」和「高效完成」在传统评测中得分相同。盲区二：只评能力，不评工程化Agent 在实验环境表现优秀，但无法部署到生产环境、无…

2026年2月1日

759000

大模型评测

大模型评测框架全景解析：如何选择适合你的测试工具？

在大模型技术快速迭代的今天，我们面临一个共同的挑战：如何客观、全面地评测一个模型的真实能力？这不仅关乎技术指标的高低，更涉及模型在实际应用中能否真正解决问题。大模型评测框架正是为了回应这一需求而生。目前主流框架已形成开源平台、商业工具和学术研究框架三大阵营，各自在评测深度、应用场景和技术侧重上展现出明显差异。值得关注的是，评测正从单一维度的“跑分”走向多…

2025年11月14日

584000

大模型评测

Agent能力评测全景图：从多轮对话到数据分析，解锁智能体真实水平

大型语言模型的进化速度令人惊叹。我们见证了它们从简单的文本生成工具，逐步演变为能够感知、推理、规划并调用外部工具的智能体（Agent）。这种质的飞跃让LLM开始真正走向复杂任务的解决——无论是自动化办公流程、辅助数据分析，还是多轮对话中的智能决策。然而，一个关键问题随之浮现：如何科学、系统地评测这些Agent的真实能力？这并非简单的准确率计算。Agent…

2025年11月8日

391000