多模态评测

开源项目

30B参数开源模型UniScientist：实现自主科研闭环，将开放式问题转化为可验证单元测试

30B参数开源模型UniScientist：实现自主科研闭环，将开放式问题转化为可验证单元测试（1/2）当前许多大语言模型能够生成看似专业的论文，但其“科研能力”往往停留在表面——它们擅长模仿格式、排列逻辑和引用文献，却难以进行严谨、可验证的科学推理。模型常陷入“叙事推理”的陷阱，结论缺乏稳固的证据支撑，可复现性弱。近期，UniPat AI团队发布了一个…

2026年3月9日

310000

大模型评测

FysicsWorld：全球首个物理世界全模态评测基准，开启AI感知真实环境新纪元

近年来，多模态大语言模型正经历快速的范式转变，研究焦点转向构建能够统一处理和生成跨语言、视觉、音频等多种感官模态信息的全模态大模型。这类模型的目标不仅是感知全模态内容，更要将视觉理解与生成整合进统一架构，实现模态间的协同交互。这一转变的驱动力源于真实物理世界的复杂性。人类自文明诞生以来，正是通过对视觉线索、听觉信号、空间动态等复杂多模态信息的持续观察、分析…

2025年12月28日

1.2K000

大模型评测

破解医疗大模型落地难题：构建科学评测体系的三大关键维度

近年来，大型语言模型正在重塑医疗领域的技术版图。从辅助临床决策到患者健康教育，从医学影像分析到复杂病例推理，这些技术展现出令人瞩目的应用前景。然而，我们也注意到一个关键问题：如何科学、全面地评测这些模型在医疗场景中的真实表现？这个问题远比表面看起来复杂。医疗领域的特殊性——高风险、强专业性、数据敏感性——使得传统的模型评测方法面临前所未有的挑战。我们需要更…

2025年11月7日

344000

大模型评测

AI Agent评测体系全景：如何衡量智能体的真实能力？

在AI Agent领域，我们正见证一场从“数量竞赛”到“质量较量”的深刻转变。从年初Manus的横空出世，到最近Genspark Super Agent的火爆登场，通用智能体的能力边界不断被刷新。与此同时，扣子、腾讯元器等平台上涌现出成千上万个垂直领域Agent。这让我们不得不思考一个核心问题：当企业将Agent作为核心竞争力时，究竟应该追求“万能工具箱”…

2025年10月31日

517000