AI 可见性工具的排名可靠吗？工程师拆解测量黑箱

一篇发布于 Hacker News 的分析文章指出，市面上流行的「AI 可见性」工具声称能告诉品牌方在 ChatGPT、Claude、Gemini、Perplexity 等 AI 助手中的提及率、引用率、声量份额与排名，但这些看似精确的数字实际上掩盖了底层测量系统的根本性问题。作者 Arber Xhindoli 是一名资深软件工程师，他从测量工程的角度逐一拆解了这些工具的工作机制与其声称精度之间的落差。文章的核心判断是：方向性信号有价值，但「你排名第四」「你本周上升两位」这种干净数字的精度是被制造出来的。

前端抓取：天生的样本偏差

多数 AI 可见性工具通过抓取 ChatGPT、Claude 等消费端前端来采集数据。这种方式确实更接近真实用户看到的界面，但本质上仍然是在「一个受控样本」上做测量。

抓取来自一个或一组受控账号，意味着固定的历史记录、记忆状态、订阅层级、地理位置、浏览器会话与 prompt 模板。改变其中任一变量，答案都可能不同。
大规模抓取需要借助云主机、代理、托管浏览器或无头会话等自动化层，这会引入集中 IP 模式、重复登录、异常会话节奏等问题，甚至可能触发 AI 产品自身的反滥用处理。
账号本身的「生活轨迹」也会污染数据。一个专门用于跑基准 prompt 的账号，长期下来其全部历史都是基准流量，与真实买家完全不同。

对本地化和商业意图强的 prompt（如「附近最好的商业屋顶公司」「纽约最好的 AEO 代理机构」），地理位置、检索源和账号状态的差异会进一步放大偏差。单一前端回答本质上只是一个实验室样本，而不是稳定的事实。

同一 prompt，多次结果不同

这类工具最常见的辩护理由是：每周用同一个问题提问，看品牌是否被提及。但这个说法成立的前提是「同一问题有稳定答案」，而现实并非如此。

Thinking Machines Lab 解释过一种技术原因：批处理与内核行为在真实生产负载下会发生变化，即使 temperature 设为 0，相同请求也可能产生多个不同的补全结果。
SparkToro 与 Gumshoe 的志愿者实验也印证了营销层面的同款问题：让志愿者在 ChatGPT、Claude 与 Google 的 AI 产品中重复运行商业 prompt，品牌推荐结果在多次运行间差异显著。

这才是核心测量难题：如果系统下一次抽样可能给出不同的品牌集合，那么「你排名第四」就只是某次分布中的一个抽样。一个诚实的仪表盘应该把这个分布展示出来，而不是呈现一个干净却虚假的精确数字。

消费端与 API：两条不同的产品路径

部分工具绕过浏览器抓取，直接调用厂商 API。API 调用在重复性、审计难度、运行成本与稳定性上确实更优，但代价是与真实消费端产品存在系统性差异。

消费端产品可能包含记忆、账号个性化、模型路由、网页检索、位置推断、购物模块、本地模块与引用展示等特性，而 API 只是一个可编程的模型调用，开发者需要手动添加网页搜索等工具才能获得 grounding 能力。
Gemini API 也有自己独立的 grounding 与搜索配置，与消费端 Gemini 的行为并不完全一致。

这个差距是双向的：API 调用可能低估消费端会展示的内容（因为检索方式不同），浏览器抓取又可能高估真实用户所见（因为它把一次个性化会话当作代表性样本）。API 适合作为受控测量的表面，但不应被包装成「消费者应用给你买家展示的内容」。

prompt 集决定分数

AI 可见性工具监测的是一组 prompt 集合，是对市场问题的抽样，而非覆盖真实买家提问的完整长尾。这套 prompt 集是决定性的。

跟踪「纽约最好的 AEO 代理机构」「AI 搜索优化顾问」「答案引擎优化审计」是一套品牌画像；跟踪「SEO 代理机构」「数字营销公司」「AI 营销软件」则是另一套画像。两套 prompt 集都可以合理，但回答的是不同问题。
标题中那个数字，本质上取决于运营方选择了哪些 prompt、它们怎么分类、权重如何分配。

整体来看，文章认为这些工具的「方向性信号」仍有一定价值——比如揭示在商业 prompt 上的不可见性，或暴露特定地区的覆盖缺口——但精确的排名数字缺乏支撑。一个真正合格的测量系统应当公开分布、方法论、方差与原始证据，而不是用一个干净的排行榜数字把不确定性藏起来。