证据链对齐
-
多模态深度研究评测新标准:MMDR-Bench实现过程可核验、证据可追溯
Deep Research Agent 已变得流行,但其评估标准仍停留在“看起来很强”的层面。 生成内容像论文,并不等同于真正进行了研究。尤其当证据来自图表、截图、论文插图或示意图时,一个关键问题浮现:模型究竟是“看懂了”,还是仅仅“编造得像懂了一样”? 为了将多模态深度研究的评估从“读起来不错”拉回到更严格的标准,俄亥俄州立大学与 Amazon Scien…
Deep Research Agent 已变得流行,但其评估标准仍停留在“看起来很强”的层面。 生成内容像论文,并不等同于真正进行了研究。尤其当证据来自图表、截图、论文插图或示意图时,一个关键问题浮现:模型究竟是“看懂了”,还是仅仅“编造得像懂了一样”? 为了将多模态深度研究的评估从“读起来不错”拉回到更严格的标准,俄亥俄州立大学与 Amazon Scien…