LLM 污染：在线行为研究的新方法论威胁

随着大语言模型的能力与可及性快速提升，一个新的方法论威胁正在浮现：在线行为研究中，受试者越来越多地借助 LLM 完成本应反映人类认知与行为的任务。最新一篇论文将这一现象命名为「LLM 污染」（LLM Pollution），并提出概念框架与缓解路径。

研究背景：「100% 人类」承诺正被打破

以 Prolific、Amazon Mechanical Turk 为代表的在线招募平台，长期以来凭借「100% 经身份核验的人类受试者」吸引行为科学研究。但论文作者指出，这一承诺正面临结构性挑战：

行为证据：在一项以 Prolific 受试者为对象的试点研究中，开放问答题的页面上监测到 45% 的受试者执行了复制或粘贴操作，其中不少回答明显具有 LLM 生成特征，例如出现「我并不像人类那样体验困惑」等非典型措辞。
审计证据：Veselovsky 等人的研究显示，即使在明确要求不要使用 LLM 的众包任务中，仍有高达 24% 的参与者使用了 LLM；其他结合自动分类器、行为启发式与自报数据的调查也报告了不同平台的污染比例。

论文将这种「LLM 参与本应测量人类反应之在线任务」的现象统称为 LLM 污染。它既不同于早期技术粗糙、可被轻易识别的「机器人作答」，也因 LLM 输出的流畅性与人类文本愈发难以区分，而演变为一种持续的诊断难题。

论文识别出三种相互交织的变异体，分别对应不同的威胁机制：

部分 LLM 中介（Partial LLM Mediation）：受试者将 LLM 用于翻译指令、生成思路或提升作答表现，回答仍包含大量人类输入。
完全 LLM 代理（Full LLM Delegation）：受试者把任务全部交给智能体 LLM，例如可操作浏览器、解读截图并自主导航实验页面的工具（如 OpenAI 的 GPT Agent 或开源的 Browser Use），几乎无需人类参与。
LLM 溢出（LLM Spillover）：LLM 生成的语料进一步扩散到训练数据、社交媒体或其他渠道，反过来影响后续研究中的「人类」作答，使污染跨越单次研究边界。

三者共同作用于样本来源、推断效度与群体差异估计，造成分布失真、效应膨胀或个体差异被掩盖，并使排除标准本身陷入不确定性，形成研究者与越来越先进的 LLM 使用之间的「方法论军备竞赛」。

论文从三个层面提出应对建议：

研究者实践：在实验设计中加入复制粘贴检测、注意力校验题、时间戳等行为启发；采用自动 LLM 生成检测器与人类评审结合的多模态筛查；对受试者使用 LLM 的边界进行明确告知与知情同意。
平台问责：在线招募平台需承担数据真实性的中介责任，例如纳入身份与行为持续核验机制、对异常行为模式进行标记。
社区适应：行为科学社区需建立共享的污染报告标准、可复现的检测基准，以及对已发表结果的回溯审查机制。

论文最后提醒：LLM 污染的终极认识论风险在于，行为研究可能无法再有效捕捉人类认知与行为本身。概念框架的提出旨在为后续实证检验与迭代优化提供起点——随着人机作答日益纠缠，如何保证在线研究的「人类性」，将成为一个需要持续维护的方法论工程。