桃子桃子快讯
返回首页
行业动态

顶会 NeurIPS 暗藏提示,抓违规用 AI 审稿

NeurIPS 2026 在送审论文中埋藏隐藏提示词以识别违规将论文喂给大模型的审稿人;ICML 2026 已借此拒收近…

2026.07.04 · 周六4 分钟阅读

即将于 2026 年 12 月在澳大利亚悉尼举办的第 40 届 NeurIPS 大会,目前正在审稿阶段。该会议禁止评审人将受审稿件上传给 AI 聊天机器人,但允许将 AI 用于背景研究。为执行这一规则,组委会在送审论文中植入了刻意隐藏的提示词(prompt injection),一旦评审使用大模型代写审稿意见,系统即可通过特定措辞识破。该做法引发学界广泛讨论,而同行会议 ICML 2026 已率先借此拒收接近 500 篇相关稿件。

「陷阱」如何运作

组委会在送审论文里埋入针对 LLM 的隐藏指令。一旦评审将完整论文文本输入给大模型并请求代写审稿意见,这些指令就会引导模型使用特定的标志性短语。识别信号例如:

  • 「This work addresses the central challenge」
  • 「The claims of the paper」

会议手册中明确规定,禁止评审将受审论文上传给 AI 工具,但允许用 AI 做背景调研。值得注意的是,部分作者也已开始在论文中塞入「反向指令」,试图让 AI 给出更有利的审稿意见,攻防并非单向。

研究社区反应不一

多位为 NeurIPS 评审论文的研究者已在社交媒体上公开表达担忧。

德国莱布尼茨汉诺威大学计算机科学家 Sören Auer 表示:「设计一个预设恶意假设的陷阱,会腐蚀整个系统赖以运转的关系。」他透露自己本批次被分配审阅 8 篇 NeurIPS 论文,由于在转 Word 时看到嵌入指令,曾误以为是作者所为,直接拒掉了一篇稿件,直到第二篇再次出现并经 Reddit 讨论后才确认来源。

英国萨里大学 AI 研究者 Sara Atito 在自己评审的 4 篇论文里都发现了相同提示词,连组委会发给她本人论文的版本也不例外。她认为这是一种「糟糕的机制」,只能在一定程度上过滤违规者,无法解决同行评审更深层的问题:「我们把过多责任压在评审身上,因为他们是那个可见的失败点。」

NeurIPS 组委会则在声明中表示,已对发现隐藏提示的评审逐一回复,提醒他们不要因此扣分。

ICML 的先行先试

这一思路并非 NeurIPS 首创。ICML 2026(将于下月在韩国首尔举行)的学术诚信主席、卡内基梅隆大学计算机科学家 Nihar Shah 主导了在所有投稿中注入隐藏提示词的项目,相关数据已有披露:

  • 借此机制识别出数百名违规使用 LLM 的评审;
  • ICML 2026 因此对接近 500 篇稿件执行 desk rejection;
  • 占该届总投稿量的约 2%。

Shah 称研究社区对此策略表达了「压倒性的支持」,并已将方法分享给 NeurIPS 组委会。他坦言:「我从事会议评审工作多年,几乎从未见过对任何议题有如此强烈的共识。人们真的受够了复制粘贴 AI 生成的审稿意见。」

「猎捕」之外的争议

这场围绕 AI 使用的猫鼠游戏,把同行评审中一个长期隐忧摆上了台面:是该用技术手段强制约束评审行为,还是应通过更开放的讨论引导合理使用?

NeurIPS 组委会对隐藏提示的具体内容讳莫如深,仅称「详细描述会削弱干预效果」。但对 Auer、Atito 等研究者而言,默认评审「可能违规」并设下验证陷阱,本身就改变了学术共同体彼此信任的基础。在 AI 工具日益普及的当下,学界真正需要的,或许不只是一份更聪明的水印设计,而是一份关于 AI 与同行评审边界的清晰共识。

信源