Meta 被曝派外包伪装未成年人测试对手 AI

近日，一则来自《连线》（Wired）杂志的深度调查将 Meta 推上风口浪尖：曝光文件显示，这家科技巨头长期运行着一个代号为「戛纳（Cannes）」的秘密项目，雇佣外包员工冒充未成年人，向 OpenAI 的 ChatGPT、谷歌的 Gemini 以及 Character.AI 等竞品聊天机器人输入数万条高危提示，试图系统性试探这些模型的安全边界。被测试的三家公司均明确表示，从未授权此类测试。

「戛纳」项目如何运转

该项目由 Meta 委托都柏林外包公司 Covalen 执行。Covalen 招募员工，使用临时注册的 Gmail 与 Outlook 账号，以 18 岁以下青少年身份登录竞品 AI 聊天服务。员工以未成年人口吻发送涉及自杀、自残、暴食症、毒品及性幻想等敏感话题的提示，并将聊天机器人的回复逐条记录到电子表格中，供 Meta 分析使用。

为了让测试更具迷惑性，外包团队还准备了多语言提示词（英语、法语、西班牙语等），并发送散落药丸、刀具、上吊绳圈、医疗解剖图等不合规图片，刻意突破 AI 应有的拒绝、转介或降级处理边界。

提示词规模与内容尺度

曝光的内部文件记录了 3748 条恶意提示词，尺度大到连参与的外包员工都感到强烈不适。一位匿名员工对《连线》表示：「我宁愿没看到过这些东西」「我认识的每个参与该项目的人，都对要求测试的文本感到震惊」。

仅 2025 年 8 月一轮集中测试中，Meta 的「马甲号」就向 ChatGPT、Gemini、Character.AI 输入超过 45000 条高危提示；
其中大量内容死死咬住自残、自杀与暴食症话题；
至少 239 条涉及未成年人相关的性与幻想内容；
其余提示词则充斥着毒品、脏话和种族歧视。

被测公司集体否认

事件曝光后，被测试的三家公司迅速作出切割：

Character.AI 表示，未曾授权此类测试，报道所描述的行为违反其服务条款与政策；
OpenAI 发言人称公司正在调查，并强调其政策禁止未经请求的安全测试、绕过安全措施，以及使用输出结果「开发与 OpenAI 竞争的模型」；
Google 同样表示未授权此次第三方测试，也不知晓测试目的。

行业震动：安全成为新的竞争筹码

Meta 给这一项目披上「comprehensive AI 安全基准测试」的外衣，声称这是负责任的行业常规。但在人道主义智能组织（Humane Intelligence）创始人 Rumman Chowdhury 看来，「戛纳」项目的规模、不透明性，以及对被测公司的刻意隐瞒，已让其彻底偏离正常的安全研究轨道——这更像是「以安全为名行反竞争之实」。

当模型能力日趋同质化，安全边界正在成为新的产品边界。一款聊天机器人能否在青少年危机场景中保持克制，已经直接影响用户信任、监管压力与品牌形象。Meta 愿意投入如此成本去试探对手的底线，也折射出 AI 行业的竞争重心正在从「能回答多少」转向「能拒绝多少」。

这场被称为「戛纳」的行动最终会如何收场，目前尚无定论。唯一可以确定的是：用户、监管者与被测公司，都不会轻易让这件事翻篇。