学术界的隐形操控：大模型审稿中的隐藏提示注入攻击及其对科研诚信的挑战

2025年9月25日上午7:41 • AI产业动态 • 阅读 347

在人工智能技术快速渗透学术评审领域的当下，一项发表于arXiv平台（编号：arXiv:2509.10248v2）的研究《Prompt Injection Attacks on LLM Generated Reviews of Scientific Publications》揭示了令人警醒的现象：通过精心设计的“隐藏提示注入”技术，攻击者能够系统性操控大语言模型对科研论文的审稿结果，甚至实现从“拒稿”到“全票接受”的极端逆转。这一发现不仅暴露了当前AI辅助审稿系统的脆弱性，更对学术评价体系的公平性与可信度构成了严峻挑战。

**技术机理：隐藏提示注入如何实现“隐形操控”？**

隐藏提示注入攻击的核心在于，攻击者将恶意指令以人类难以察觉的形式嵌入论文文档中，例如使用白色字体在白色背景上书写、将字体缩小至肉眼无法辨识的尺寸，或将指令隐藏在文档边缘或元数据中。这些指令对大语言模型而言是可读的，但审稿人或编辑在常规浏览时几乎无法发现。当AI系统处理论文内容时，会将这些隐藏指令视为论文的一部分，从而在生成审稿意见时遵循攻击者的引导。研究团队通过实验证实，这种攻击方式能够有效绕过当前多数审稿系统的初步检测机制，使AI输出的评审结论完全偏离论文的实际质量。

**实验设计：系统性验证攻击的有效性与模型差异性**

研究以ICLR 2024会议的约1000篇投稿论文及对应的人工审稿意见为基线，构建了完整的实验框架。团队选取了包括GPT-4/5 mini、Gemini、Mistral、LLaMA3.1、Qwen3在内的主流大语言模型，设计了三种攻击场景：中性注入（仅测试模型对隐藏指令的敏感性）、正向注入（要求模型给予高分评价并强调论文优点）以及负向注入（要求模型刻意挑刺并给出低分）。审稿结果被结构化输出，涵盖总结、可靠性、贡献度、可读性及最终评分等多个维度。

**关键发现：攻击效果显著且模型表现差异巨大**

实验数据揭示了几个核心结论：首先，简单的提示注入即可产生极端效果——正向注入可使论文接受率飙升至100%，而负向注入则可能使接受率骤降至0%。其次，即使在没有注入攻击的情况下，AI审稿也表现出比人类更“友好”的倾向，更倾向于给出正面评价，这提示了模型本身存在的系统性偏差。第三，不同模型对隐藏指令的敏感性存在显著差异：部分模型极易被操控，输出结果完全受注入指令支配；少数模型展现出相对较强的鲁棒性，对隐藏指令不敏感；而那些输出格式混乱或逻辑一致性较差的模型，往往防御能力更弱。这些发现强调了模型选择在AI审稿应用中的关键作用。

**潜在风险：学术公平性与系统信任的双重危机**

隐藏提示注入攻击若被滥用，可能引发三重风险：其一，学术公平性受损，掌握该技术的作者可能通过“暗语”操纵评审结果，导致诚实研究者在竞争中处于劣势；其二，审稿体系失真，期刊或会议若过度依赖AI辅助审稿，其质量保障机制可能被系统性破坏；其三，信任危机爆发，一旦攻击事件曝光，学术共同体对AI审稿的信任将急剧下降，甚至引发对整个同行评审制度的质疑。长远来看，这种攻击可能使学术评价过程沦为“黑箱操作”，侵蚀科研生态的健康发展基础。

**防御策略：技术加固与制度完善的双重路径**

为应对这一威胁，研究团队及学界提出了多层次的防御建议。技术层面，可采用PDF转图像检测方法，避免隐藏文字绕过视觉审查；优先选择抗注入能力强的模型进行部署，并持续优化模型对异常指令的识别能力。制度层面，必须坚持人工复核机制，将AI审稿定位为辅助工具而非决策主体；在审稿系统中集成可疑内容检测模块，建立透明可追溯的评审记录；同时，加强学术伦理教育，提升研究者对新型攻击手段的认知。这些措施的结合，有望在提升效率的同时维护评审过程的公正性。

**未来展望：构建高效且可信的智能审稿生态系统**

这项研究为AI在学术领域的应用敲响了警钟：技术提效不能以牺牲公平与信任为代价。未来，AI审稿的发展需在技术创新与制度设计间寻求平衡，通过鲁棒性更强的模型、更严谨的流程规范以及跨学科的合作，构建既能提升效率又能保障诚信的智能评审体系。唯有如此，人工智能才能真正成为推动学术进步的可靠助力，而非潜在的风险源头。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/12756