AI 超级预测者登场：在 Kalshi 把 35 美元做到 200 万美元

近期举行的预测市场年会上，AI 超级预测者（AI superforecaster）取代传统议题成为全场焦点。所谓 AI 超级预测者，通常是基于 ChatGPT、Claude 等前沿模型构建的「脚手架」程序：模型在长流程中被引导调用搜索工具、拆解子任务、派遣子智能体，经过多轮研究后给出带概率的预测。整个过程类似普通 AI 对话，但耗时更长、成本更高。

初创公司亮出成绩单

会议现场，多家 AI 预测初创公司公布了交易战绩。一位创始人称，其 AI 在 Kalshi 平台用七个月时间把 35 美元做到 200 万美元；另一家公司 FutureSearch 宣称用市场中性组合跑赢美股 25%，在 Kalshi 和 Polymarket 上同样以可观幅度领先。文章作者表示「相信这些人」，并回顾了此前「AI 将在 2026—2027 年超越人类顶级预测者」的预测，认为这一刻来得并不令人意外。

五分钟、212 个信源、8 美元

作者亲自试用了 FutureSearch 的系统，提问「硅谷慈善家近期启动的终结普通感冒项目，到 2040 年将美国呼吸道感染发病率减半的概率有多大」。运行过程如下：

两分钟内：派出 3 个子智能体、阅读 16 个网页，正在调研 ASHRAE Standard 241 空气净化技术到 2040 年的住宅普及可行性。
五分钟后：给出最终答案 7%。
报告引用 212 条信源，消耗 8 美元积分。

系统的核心论据包括：引发感冒的病毒超 200 种、鼻病毒血清型超 150 种、50 年疫苗攻关未果；Intercept 项目商业化要到 5—7 年后，预算 5 亿美元疑似不足；轻微病症下人们不会规律使用鼻喷剂；美国缺乏常规感冒监测体系，2020—2026 年基线被疫情行为扭曲。

与其他预测者交叉验证

为判断答案是否站得住脚，作者请另一家声称在 Kalshi 实现 10 万倍收益的 Preseen 给出同题预测，结果为 8.8%，与 FutureSearch 的 7% 接近。再请一位人类超级预测者作答，结论落在 5%—10% 区间。三方数量级一致，但都偏低。

绝对水平如何衡量

文章指出，预测能力难以用「答对率」衡量，题目难度差异巨大，更可行的方式是让不同预测者同台对擂，再用直觉可理解的群体（如普通公众、CIA 分析师）做锚点。Metaculus 一直在做这件事：其图表显示，截至 2026 年 5 月 Gemini 3.1 处于前沿水平时，AI 正在逼近 Metaculus 社区聚合预测，但距专业超级预测者仍有显著差距。

文章末尾被截断，但核心结论已经清晰：AI 在预测市场的盈利能力已有案例支撑，在结构化问题上的表现开始接近人类专家，但距离稳定超越顶级预测者还有距离，且多数战绩尚需更长周期与更大规模来验证是否只是运气。