港科团队突破AI学术博弈:RebuttalAgent用心智理论解码审稿人意图,让反驳回复直击痛点

面对同行评审,许多作者都有过这样的经历:明明回答了审稿人的每一个问题,态度也足够谦卑,为什么最终还是没能打动对方?

现有的通用大模型在处理这类任务时,往往陷入一种“表面礼貌”的陷阱:它们擅长生成流畅、委婉的“Thank you for your insightful comment”,却缺乏对审稿人言外之意的深度洞察,导致回复虽然客气,但缺乏直击痛点的说服力。

究竟什么样的回复策略,才能在有限的篇幅内,有效消除误解、赢得共识?

针对这一问题,来自香港科技大学的研究团队提出了一种全新的框架——RebuttalAgent。该研究首次将认知科学中的心智理论(Theory of Mind, ToM) 引入学术 Rebuttal 任务,让 AI 能够像资深学者一样“读懂”审稿人,从而生成兼具战略性与说服力的回复。

目前,该论文已被 ICLR 2026 接收。

港科团队突破AI学术博弈:RebuttalAgent用心智理论解码审稿人意图,让反驳回复直击痛点

  • 论文标题:Dancing in Chains: Strategic Persuasion in Academic Rebuttal via Theory of Mind
  • 论文链接:https://arxiv.org/pdf/2601.15715
  • 代码链接:https://github.com/Zhitao-He/RebuttalAgent

Rebuttal 需要怎样的博弈智慧?

在学术界的博弈论视角下,Rebuttal 是一个典型的“不完全信息动态博弈”。作者不仅要面对审稿人显性的质疑,还要应对隐性的信息不对称,你不知道审稿人的知识背景、潜在偏见,也不知道你的解释会引发怎样的连锁反应。

现有的基于监督微调的模型,大多止步于对人类回复的“语言学拟态”。它们精准复刻了礼貌的“外壳”,却未能触及审稿人意图的“内核”,即缺乏对审稿人的深度建模。针对这一痛点,研究者提出了 RebuttalAgent,其核心洞察是:有效的说服机制,必须建立在对他人的“心智理论”建模之上。

港科团队突破AI学术博弈:RebuttalAgent用心智理论解码审稿人意图,让反驳回复直击痛点
图一:RebuttalAgent 框架总览图,展示 Data Preparation, TSR Framework 和 Agent Training 三个阶段

TSR 框架:先“读心”再“落笔”,重构 AI 的思考链路

RebuttalAgent 并没有直接端到端地生成回复,而是模拟了人类专家的思维过程,通过 ToM-Strategy-Response (TSR) 框架来拆解这一复杂任务:

  1. ToM(心智理论建模):AI 首先充当一名“分析师”,对审稿意见进行分层剖析。
    • 宏观层面:判断审稿人的整体立场(接受/拒绝)、态度(建设性/消极)以及领域专业度。
    • 微观层面:拆解每一条评论背后的核心关切(是方法论缺陷?还是单纯的表达不清?)。
    • 这种建模让 AI 不再盲目回复,而是先构建出审稿人的“心理画像”。
  2. Strategy(谋定而后动):基于上述画像,AI 会生成一个明确的战略计划。例如,面对一个“专业度高但态度怀疑”的审稿人,策略可能是“先承认局限性以建立信任,再用补充实验数据进行强力反击”;而面对“误解型”评论,策略则是“澄清概念,重述核心贡献”。
  3. Response(精准打击):最后,AI 结合原始论文片段、战略计划和审稿人画像,生成最终的回复。

港科团队突破AI学术博弈:RebuttalAgent用心智理论解码审稿人意图,让反驳回复直击痛点
表一:评估的一致性:Rebuttal-RM 在对齐人类偏好上超越 GPT-4.1

无需外部导师,“自我博弈”中习得说服的艺术

为了训练这样一个能够“运筹帷幄”的 Agent,研究团队面临的最大挑战是数据的稀缺与主观性。为此,他们构建了 RebuttalBench,包含超过 7 万条高质量的“分析-策略-回复”链条数据。

更进一步,研究者引入了 Self-Reward 机制强化学习策略。与传统的依赖外部奖励模型不同,RebuttalAgent 利用自身生成的评价信号进行迭代:
* 格式与逻辑奖励:确保 AI 真的在进行思考和布局,而不是形式主义。
* 多样性奖励:这是一个关键设计。为了防止 AI 偷懒生成“万金油”式的套话(如反复使用 “We thank the reviewer…” 模板),研究者设计了多样性惩罚,迫使模型探索更多样、更像人类专家的表达方式。

从“辞藻堆砌”到“攻心为上”:当 AI 学会了换位思考

为了量化评估效果,研究团队开发了 Rebuttal-RM,这是一个专门针对学术反驳场景训练的奖励模型。在与人类专家评分的一致性测试中,Rebuttal-RM 的表现超越了 GPT-4.1。

在这一评估体系下,RebuttalAgent 展现出了显著优势:
* 在综合得分上,RebuttalAgent 达到了 9.42,显著优于 GPT-4.1 和 O3。
* 在说服力这一核心指标上,提升尤为明显,表明引入“心智理论”确实增强了模型在观点交锋中的有效性。

港科团队突破AI学术博弈:RebuttalAgent用心智理论解码审稿人意图,让反驳回复直击痛点
表二:RebuttalAgent 与其他强基线的性能对比

“即插即用”的思维外挂:让小模型也能像专家一样思考

RebuttalAgent 生成的“分析”和“策略”是否具有普适性?研究者设计了一个巧妙的实验:将 RebuttalAgent 生成的策略作为上下文,喂给参数量较小的基础模型(如 Qwen3-8B 和 Llama-3.1-8B),观察它们的表现变化。

实验发现,这是一个通用的“思维外挂”。仅需引入 RebuttalAgent 的策略指导,Qwen3-8B 在“表达清晰度”上的得分就提升了 21.0%,这有力地证明了 TSR 框架的可迁移性。

港科团队突破AI学术博弈:RebuttalAgent用心智理论解码审稿人意图,让反驳回复直击痛点

做科研路上的“理性副驾驶”,而非“幽灵写手”

RebuttalAgent 的提出,展示了 LLM 在处理高阶认知任务,特别是涉及复杂人际博弈和战略沟通场景的巨大潜力。但 Agent 无法替你完成实验,也不会凭空捏造数据,模型在训练之初就刻意剥离了涉及实验结果生成的指令,杜绝了“幻觉造假”的可能。

  • 打破“新手墙”:对于许多刚踏入学术圈的新手而言,面对犀利甚至尖锐的审稿意见,往往容易陷入恐慌或产生防御性心态。RebuttalAgent 的价值正是在于提供战略性的建议与实用的技巧,帮助作者克服情绪干扰,理清逻辑脉络,组织得体的语言。
  • 促进学术交流:该研究的核心价值在于“提升学术对话的清晰度与建设性”。它致力于消除因表达不当或沟通策略缺失而造成的误解,让审稿人与作者的对话回归真理本身,而非陷入情绪对抗或单纯的语言技巧博弈。

RebuttalAgent 本质上是对大语言模型在严重信息不对称条件下战略说服能力的一次探索性研究。最终的科学判断与责任,始终掌握在人类作者手中。

作者介绍
何致涛,香港科技大学计算机系博士生,导师 Yi R. (May) Fung。曾在中国科学院自动化研究所、清华大学 AIR、蚂蚁集团从事研究,并在 ACL、NeurIPS、COLM、ICLR 等机器学习与自然语言处理顶级会议上发表多篇论文。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/20145

(0)
上一篇 2026年2月3日 下午9:57
下一篇 2026年2月3日 下午10:04

相关推荐

  • AI巨头的商业分岔:OpenAI的规模扩张与Anthropic的利润深耕

    2025年的AI产业格局正在经历一场深刻的结构性分化。OpenAI与Anthropic这两家源自同一技术血脉的公司,正沿着截然不同的商业路径向前推进——前者致力于构建面向大众的AI生态系统,后者则专注于企业级市场的利润深耕。这种分化不仅反映了AI技术商业化进程中的战略选择差异,更预示着整个行业将从技术驱动转向商业可持续性驱动的关键转折。 从技术同源到商业分道…

    2025年11月24日
    40200
  • 具身智能领军学者苏昊加盟复旦,领衔建设通用物理智能研究院

    具身智能领军学者苏昊加盟复旦,领衔建设通用物理智能研究院 具身智能领域论文被引次数最高的华人学者,带着十七年的海外科研积淀,正式回国。 在第五届中国三维视觉大会(China3DV 2026)上,李飞飞弟子、ImageNet缔造者之一苏昊被复旦大学正式宣布引进。加盟后,他将担任复旦大学浩清特聘教授,并领衔建设通用物理智能研究院,出任院长一职。 复旦大学将苏昊的…

    2026年4月17日
    77600
  • 搜索革命:从信息检索到AI协同伙伴——深度解析百度猎户座如何重塑人机交互范式

    在数字信息爆炸式增长的今天,传统搜索引擎的局限性日益凸显。用户不再满足于简单的关键词匹配和网页链接列表,而是渴望更智能、更人性化的信息获取体验。这一需求推动着搜索技术从“检索工具”向“智能伙伴”的深刻转型。百度最新推出的猎户座系统,正是这一转型浪潮中的标志性产物,它基于多智能体框架,整合了百度25年的搜索技术积累、行业专业能力和MCP服务生态,旨在构建一个能…

    2025年11月14日
    35400
  • OpenAI发布GPT-5.5 Instant:幻觉率降低52.5%,模型更简洁更懂你

    OpenAI 正式推出了 GPT-5.5 Instant,并将其设为 ChatGPT 的默认模型,取代了之前的 GPT-5.3 Instant,现已向所有用户开放。Instant 系列作为 ChatGPT 日常使用的主力模型,每天有数以亿计的用户在持续使用。官方表示,在这个规模下,即使是微小的改进,累积起来的效果也相当显著。这一版本聚焦于三大核心:更精准、更…

    2026年5月6日
    80800
  • AI大模型周报:蚂蚁Ring-2.5-1T开源、OpenAI发布GPT-5.3-Codex-Spark、字节跳动多模态模型全面升级

    2月11日 【开源】 蚂蚁集团旗下团队 inclusionAI 发布 Ring-2.5-1T,这是 Ring-1T 的升级版本,核心特性可概括为“快、深、长”。其生成效率提升超过 3 倍,访存开销降低 10 倍;具备国际数学奥林匹克竞赛金牌级别的深度思考能力,并能连续工作 2 小时编写出迷你操作系统。该模型采用 MIT 协议完全开源。 模型详情:https:…

    2026年2月16日
    30600