证据链对齐

AI产业动态

多模态深度研究评测新标准：MMDR-Bench实现过程可核验、证据可追溯

Deep Research Agent 已变得流行，但其评估标准仍停留在“看起来很强”的层面。生成内容像论文，并不等同于真正进行了研究。尤其当证据来自图表、截图、论文插图或示意图时，一个关键问题浮现：模型究竟是“看懂了”，还是仅仅“编造得像懂了一样”？为了将多模态深度研究的评估从“读起来不错”拉回到更严格的标准，俄亥俄州立大学与 Amazon Scien…

2026年2月14日
366000