顶会 NeurIPS 暗藏提示，抓违规用 AI 审稿

即将于 2026 年 12 月在澳大利亚悉尼举办的第 40 届 NeurIPS 大会，目前正在审稿阶段。该会议禁止评审人将受审稿件上传给 AI 聊天机器人，但允许将 AI 用于背景研究。为执行这一规则，组委会在送审论文中植入了刻意隐藏的提示词（prompt injection），一旦评审使用大模型代写审稿意见，系统即可通过特定措辞识破。该做法引发学界广泛讨论，而同行会议 ICML 2026 已率先借此拒收接近 500 篇相关稿件。

「陷阱」如何运作

组委会在送审论文里埋入针对 LLM 的隐藏指令。一旦评审将完整论文文本输入给大模型并请求代写审稿意见，这些指令就会引导模型使用特定的标志性短语。识别信号例如：

「This work addresses the central challenge」
「The claims of the paper」

会议手册中明确规定，禁止评审将受审论文上传给 AI 工具，但允许用 AI 做背景调研。值得注意的是，部分作者也已开始在论文中塞入「反向指令」，试图让 AI 给出更有利的审稿意见，攻防并非单向。

研究社区反应不一

多位为 NeurIPS 评审论文的研究者已在社交媒体上公开表达担忧。

德国莱布尼茨汉诺威大学计算机科学家 Sören Auer 表示：「设计一个预设恶意假设的陷阱，会腐蚀整个系统赖以运转的关系。」他透露自己本批次被分配审阅 8 篇 NeurIPS 论文，由于在转 Word 时看到嵌入指令，曾误以为是作者所为，直接拒掉了一篇稿件，直到第二篇再次出现并经 Reddit 讨论后才确认来源。

英国萨里大学 AI 研究者 Sara Atito 在自己评审的 4 篇论文里都发现了相同提示词，连组委会发给她本人论文的版本也不例外。她认为这是一种「糟糕的机制」，只能在一定程度上过滤违规者，无法解决同行评审更深层的问题：「我们把过多责任压在评审身上，因为他们是那个可见的失败点。」

NeurIPS 组委会则在声明中表示，已对发现隐藏提示的评审逐一回复，提醒他们不要因此扣分。

ICML 的先行先试

这一思路并非 NeurIPS 首创。ICML 2026（将于下月在韩国首尔举行）的学术诚信主席、卡内基梅隆大学计算机科学家 Nihar Shah 主导了在所有投稿中注入隐藏提示词的项目，相关数据已有披露：

借此机制识别出数百名违规使用 LLM 的评审；
ICML 2026 因此对接近 500 篇稿件执行 desk rejection；
占该届总投稿量的约 2%。

Shah 称研究社区对此策略表达了「压倒性的支持」，并已将方法分享给 NeurIPS 组委会。他坦言：「我从事会议评审工作多年，几乎从未见过对任何议题有如此强烈的共识。人们真的受够了复制粘贴 AI 生成的审稿意见。」

「猎捕」之外的争议

这场围绕 AI 使用的猫鼠游戏，把同行评审中一个长期隐忧摆上了台面：是该用技术手段强制约束评审行为，还是应通过更开放的讨论引导合理使用？

NeurIPS 组委会对隐藏提示的具体内容讳莫如深，仅称「详细描述会削弱干预效果」。但对 Auer、Atito 等研究者而言，默认评审「可能违规」并设下验证陷阱，本身就改变了学术共同体彼此信任的基础。在 AI 工具日益普及的当下，学界真正需要的，或许不只是一份更聪明的水印设计，而是一份关于 AI 与同行评审边界的清晰共识。