代码驱动
-
大模型做不出理科题?研究揭示瓶颈在“眼神差”,CodePercept用代码重塑视觉感知
当多模态大语言模型在科学、技术、工程和数学领域的视觉推理任务中频频遭遇“滑铁卢”,一个根本性的困惑始终萦绕在研究者心头:大模型无法解答理科题目,究竟是源于其推理能力的先天不足(“脑子笨”),还是视觉感知环节存在缺陷(“眼神差”)? 为揭开这一谜团,来自上海交通大学与Qwen等机构的研究团队,将任务拆解为两个独立的阶段进行系统性分析:视觉感知阶段(将图像转化为…
当多模态大语言模型在科学、技术、工程和数学领域的视觉推理任务中频频遭遇“滑铁卢”,一个根本性的困惑始终萦绕在研究者心头:大模型无法解答理科题目,究竟是源于其推理能力的先天不足(“脑子笨”),还是视觉感知环节存在缺陷(“眼神差”)? 为揭开这一谜团,来自上海交通大学与Qwen等机构的研究团队,将任务拆解为两个独立的阶段进行系统性分析:视觉感知阶段(将图像转化为…