AI 文本检测的盲区：误报率因文本类型剧烈波动

AI 文本检测近年来成为教育、出版与社交平台热议的工具。Pangram 作为新兴创业公司，主打高准确率的 AI 生成内容识别。然而一篇发布在 Hacker News 的长文对其检测能力与商业定位提出系统性质疑，核心观点是：在混合写作、润色改写等真实场景下，检测器的误报率会显著偏离厂商宣传的数字，而公司又存在以「为公众把关」叙事扩大影响的动机，使公开指责他人的行为存在风险。

检测器输出的真正含义

文章首先解释了分类器（classifier）输出的解读方式。Pangram 在「纯人类文本」与「纯 LLM 文本」两类极端样本上的表现最接近其宣传的万分之一误报率（1-in-10,000 FPR）。但一旦进入混合写作（hybrid authorship）场景——即作者本人撰稿后用 AI 编辑、润色、措辞替换——分类准确率会出现「实质性的下降」。这种下降在 Pangram 自家「主场」实验室构造的样本上成立，在外部数据集测试时同样存在。文章援引 EditLens 报告中对不同 AI 参与程度的估计作为唯一公开参考，指出 AI 参与的层级越高，误判风险越大。

真实场景下的误报数据

文章给出几组关键数字，揭示宣传话术与实际表现之间的落差：

仅一次 AI 编辑或借助 Grammarly 等工具进行 paraphrase，就会让相当比例的样本滑出「完全人类」区间；作者根据箱线图大致估计，最多约 20% 的例子会被判定为「完全 AI」。
基于标准差的「编辑次数」图表显示：经过 1 次编辑后，仍有约 15% 的样本能留在「完全人类」空间；而高于均值 1.5 个标准差的位置上，1 次编辑即可让约 6.5% 的样本被直接归类为「完全 AI」。
诗歌体裁的误报率约为 1/200，显著高于通用文本。
在研究论文、创意写作等模型训练覆盖较少的领域，准确率出现明显下降。

文章特别指出，检测器 UI 不会告知用户输入文本属于哪一类，使用者也无从据此重新校准预期，这放大了误判后果。

基准测试与现实条件的脱节

作者反复强调一个核心问题：基准测试未必能反映真实世界。训练集与测试集均使用 LLM 聊天时代之前的「人类文本」，再与按结构化方式「实验室培育」的 AI 文本对比。当遇到以下情况时，模型表现会显著下滑：

模型未见过的新一代 LLM 生成的文本；
与训练分布不同的领域或体裁；
「野生」AI 文本，偏离实验室构造模式。

这些场景下的失败率按固定 FPR 报告，文章指出我们看不到「人类文本侧」的具体失败率，但人 + AI 混合判定的总体错误率约在 1% 量级。

商业动机与「不可证伪」的舆论

文章最后一节讨论公司定位与激励机制。Pangram 作为营收驱动的创业公司，「为人民把关」的叙事有助于增长与营销，客观上存在放大指控力度的倾向。作者类比测谎仪在司法领域的争议——即便多数情况下结论正确，公开羞辱学生、学者等场景下「可能错判」的风险仍需严肃对待。近期社交媒体上对各类文章「AI 代笔」的指控已呈泛滥之势，部分缺乏可证伪性，受指控者也几乎无法自证清白。

透明度倡议

作者在文末披露，本文正文全部为人类撰写，但 Claude 在研究、解读结果、压力测试论点、对抗性思考等环节提供了协助，部分直接引语也明确标注。作者希望「披露 AI 如何被使用」能逐渐成为行业规范，并认为 LLM 作为思想碰撞伙伴、防止过度断言的工具有其价值。

整体而言，这篇文章并非否认 AI 文本检测的用途，也不是断言 Pangram「产品坏了」，而是在大量具体数据的基础上，提示公众与机构：检测器的宣传数字高度依赖文本类型与生成方式，真实场景的误报远比看上去复杂，单一「最终判定」式的公开指控应保持审慎。