自动化评测

大模型评测

大模型评测实战：从Benchmark幻象到业务落地的量化艺术

当我们谈论大模型应用开发时，评测环节往往是那个“既重要又棘手”的存在。它决定了产品能否真正解决用户问题，却又充满了难以量化的灰色地带。这篇文章，聊聊在实践中对评测的一些观察与思考。为什么公开Benchmark的参考价值有限各家模型发布时，漂亮的Benchmark数据总是标配。如果仅看这些数字，似乎AGI已经近在咫尺。然而现实往往给人当头一棒——Ilya在…

2026年1月8日
190000
大模型评测

GAPS框架：全球首个专病循证评测标准，AI医生临床能力迎来硬核标尺

蚂蚁健康与北京大学人民医院王俊院士团队联合发布全球首个大模型专病循证评测框架蚂蚁健康与北京大学人民医院王俊院士团队历时6个多月，联合十余位胸外科医生共同打磨，发布了全球首个大模型专病循证能力的评测框架——GAPS （Grounding, Adequacy, Perturbation, Safety），及其配套评测集 GAPS-NSCLC-preview。…

2025年12月29日
207000