ICLR 2026

工具文档质量成AI智能体瓶颈？ICLR 2026新研究：简单文档扩展即可显著提升工具检索性能

在大模型时代，工具调用（Tool-Use）已成为智能体能力的核心。从代码生成到复杂API调用，大语言模型正在学会使用各类工具。然而，一个日益凸显的现实问题是：工具真的难找。来自宁波东方理工大学/宁波数字孪生研究院沈晓宇团队的一项研究，在ICLR 2026发表论文《Tools Are Under-Documented: Simple Document Exp…

10小时前

29000

大模型工程

Prompt Learning的进化之路：从静态优化到SIPDO闭环自进化系统

Prompt 作为一种接口，直接决定了大型语言模型（LLM）与智能体系统的行为模式与性能上限。对提示（prompt）的理解与控制，本质上决定了系统能力能被释放到何种程度。提示学习（prompt learning）的出现，使这一过程从经验驱动走向可系统化研究，并逐步形成了一条清晰的发展脉络。回顾这条路径，本身就有助于我们理解提示学习是如何一步步构建起来的。然…

2026年2月27日

176000

大模型工程

破解自动驾驶测试「跷跷板」难题：一个模型遍历从保守到激进的对抗行为

破解自动驾驶测试「跷跷板」难题：一个模型遍历从保守到激进的对抗行为自动驾驶系统的落地离不开大规模的安全测试。为了解决真实路测中“长尾分布”和“稀疏性”难题，对抗性场景生成成为了一种高效的仿真测试手段。然而，现有方法面临一个经典的“跷跷板”难题：要么生成的场景极具攻击性但物理上不真实，要么过于保守而失去了测试价值，难以触及系统的长尾失效边界。更关键的是…

2026年2月26日

95000

AI产品库

西湖大学AutoFigure：智能体绘图框架实现学术插图自动化，ICLR 2026入选成果

你是否也经历过这样的困境：论文截稿在即，面对大段的文字，绘制图表和PPT插图却耗费了大量精力；尝试用AI工具生成图片，结果要么逻辑混乱，要么文字模糊不清；好不容易调整好了提示词，生成的图片却是一张无法编辑的“死图”。这种“审美与逻辑难以兼顾、生成与编辑相互割裂”的痛点，如今有望被解决。现在，你可以将大段的文字材料直接交给 AutoFigure ，这…

2026年2月22日

756000

大模型工程

北航开源Code2Bench：双扩展动态评测，终结代码大模型高分幻觉

在衡量大语言模型（LLM）代码生成能力的竞赛中，一个日益严峻的问题正浮出水面：当模型在 HumanEval、MBPP 等经典基准上纷纷取得近乎饱和的成绩时，我们究竟是在评估其真实的泛化推理能力，还是在检验其对训练语料库的「记忆力」？现有的代码基准正面临两大核心挑战：数据污染的风险，以及测试严谨性不足。前者使评测可能退化为「开卷考试」，后者则常常导致一种「正…

2026年2月21日

95000

AI产业动态

AutoBio：VLA模型在生物实验室的“图灵测试”——ICLR 2026新基准揭示科研自动化挑战

现有视觉-语言-动作模型的研究和基准测试多集中于家庭场景，缺乏对专业科学场景的适配。生物实验室具有实验流程结构化、操作精度要求高、多模态交互复杂等特点，是评估VLA模型精准操作、视觉推理和指令遵循能力的理想场景。近期，来自香港大学MMLAB与上海交通大学的研究团队提出了AutoBio，一个面向数字化生物实验室的机器人仿真系统与基准测试平台。该工作已被ICL…

2026年2月20日

120000

AI产业动态

自适应视觉推理新突破：MoVT范式让AI学会“看图说话”与“文字思考”的智能切换

本文介绍了复旦大学与阿里巴巴未来生活实验室的研究成果，该工作已被 ICLR 2026 接收。当前，视觉推理方法主要衍生出两种思考模式：一种是与大型语言模型一致的纯文本思考模式；另一种是更贴近图像本身的视觉化思考模式。这两种模式在不同任务领域各有优势，但现有工作通常只专注于单一模式，未能充分利用二者之间的互补性。为此，本文提出了 Mixture-of-Vi…

2026年2月5日

86000

AI产业动态

港科团队突破AI学术博弈：RebuttalAgent用心智理论解码审稿人意图，让反驳回复直击痛点

面对同行评审，许多作者都有过这样的经历：明明回答了审稿人的每一个问题，态度也足够谦卑，为什么最终还是没能打动对方？现有的通用大模型在处理这类任务时，往往陷入一种“表面礼貌”的陷阱：它们擅长生成流畅、委婉的“Thank you for your insightful comment”，却缺乏对审稿人言外之意的深度洞察，导致回复虽然客气，但缺乏直击痛点的说服力…

2026年2月3日

96000

AI产业动态

SIM-CoT：隐式推理新突破，零开销实现可解释的AI内部思考

魏熙林是本文的第一作者，复旦大学博士生，师从林达华教授，研究方向主要为多模态大语言模型与高效人工智能。他目前在上海人工智能实验室实习，指导老师为臧宇航与王佳琦。本文介绍隐式思维链（Implicit Chain-of-Thought）的最新进展——SIM-CoT（Supervised Implicit Chain-of-Thought）。该方法直击了隐式Co…

2026年2月1日

299000