桃子桃子快讯
返回首页
研究论文

URL 出现在 prompt 中,会改变大模型的回答吗

开发者搭建实验系统测试发现,URL 只有在其内容真正进入训练数据时才会影响模型输出,且 JS 渲染的页面很可能并未被采集…

2026.07.04 · 周六4 分钟阅读

近期,一位开发者在 Hacker News 上分享了一项个人实验:在大模型的 prompt 中仅放入一个 URL(不附任何额外说明),是否会让模型的输出偏向该 URL 对应页面的内容?实验得到的核心结论是——URL 本身并不具备「魔法」,只有当 URL 指向的内容确实进入了模型的训练语料时,模型才可能输出与之相关的内容;如果内容从未被采集过,那么无论 URL 是否出现在 prompt 中,模型都不会因此给出对应回答。

实验设计:围绕「知识截止日」前后做对照

作者首先搭建了一套自动化测试框架,对多个主流大模型在「描述任务」「仅给 URL」「URL + 描述」「完整粘贴页面内容」「随机/虚假 URL」等多种条件下的输出进行了对比,并采用 LLM-as-a-judge 的方式自动评判答案是否命中。

为了控制幻觉变量,作者选取了位于各模型「知识截止日」前后的内容作为测试样本:

  • 截止日之前的 URL:用于测试模型是否真的「记得」页面内容;
  • 截止日之后的内容:作为对照,如果模型应当拒绝回答却依然给出「自信的错误答案」,即可判定为幻觉。

其中一类关键测试样本来自 chromestatus.com(Chrome 平台功能仪表盘)。这类 URL 的特征是「域名能告诉模型这是 Web 相关内容,但后面的数字 feature ID 完全无法透露具体功能」,因此被视为一种「不透明 URL」,可以排除模型从 URL 字符串本身推断出主题的可能。

核心发现:不透明 URL 几乎无效,热门内容也未必被记住

实验结果显示:仅在 prompt 中放入一个不透明 URL,平均下来对模型输出几乎没有影响;相当比例的不透明 URL 完全无法让模型回忆起对应内容。

更让人意外的是,部分本身非常知名的内容(例如 Service Worker 这种 Chrome 平台关键特性)也无法仅凭 URL 被模型召回。这与「知名内容理应被收录」的直觉相矛盾,促使作者进一步追溯数据来源。

训练数据采集层面的发现

在排查过程中,作者结合 Common Crawl 数据与各厂商公开的爬虫标识,得到几条值得关注的观察:

  • chromestatus.com 页面确实出现在 Common Crawl 的抓取记录中,出现频率与那些模型几乎能「秒答」的 arXiv 论文相当;
  • 但实际抓取下来的字节里几乎没有正文内容——因为该站是 JavaScript 单页应用,爬虫只拿到了空壳 HTML;
  • 作者可验证的爬虫中,ClaudeBot 与 GPTBot 都会抓取页面资源,但不会执行 JavaScript;OpenAI 的 OAI-SearchBot 是其唯一抓到过执行 JS 的爬虫。

由此作者推断:依赖 JavaScript 渲染才能呈现内容的站点,其正文很可能并未进入大模型的训练数据

讨论与局限

作者在文中坦承自己「不是研究者」,实验设计存在不少假设需要进一步验证,部分方法(如 LLM-as-a-judge)也存在固有偏差。文章以「求反馈」的态度发布,欢迎读者通过邮件提供改进建议。

综合来看,这篇文章的价值不在于给出确定结论,而在于提出了一个值得追问的方向:当我们在 prompt 中放入一个链接,模型究竟是在「读」链接,还是在「回忆」训练时见过的内容?而对于依赖 JS 渲染的现代 Web 站点来说,答案很可能是后者——而且可能根本没有被回忆过。

信源