AI 超级预测者登场:在 Kalshi 把 35 美元做到 200 万美元
预测市场年会上 AI 超级预测成焦点,初创公司宣称用 AI 在 Kalshi 实现 35000 倍回报,文章实测并与人类…
近期举行的预测市场年会上,AI 超级预测者(AI superforecaster)取代传统议题成为全场焦点。所谓 AI 超级预测者,通常是基于 ChatGPT、Claude 等前沿模型构建的「脚手架」程序:模型在长流程中被引导调用搜索工具、拆解子任务、派遣子智能体,经过多轮研究后给出带概率的预测。整个过程类似普通 AI 对话,但耗时更长、成本更高。
初创公司亮出成绩单
会议现场,多家 AI 预测初创公司公布了交易战绩。一位创始人称,其 AI 在 Kalshi 平台用七个月时间把 35 美元做到 200 万美元;另一家公司 FutureSearch 宣称用市场中性组合跑赢美股 25%,在 Kalshi 和 Polymarket 上同样以可观幅度领先。文章作者表示「相信这些人」,并回顾了此前「AI 将在 2026—2027 年超越人类顶级预测者」的预测,认为这一刻来得并不令人意外。
五分钟、212 个信源、8 美元
作者亲自试用了 FutureSearch 的系统,提问「硅谷慈善家近期启动的终结普通感冒项目,到 2040 年将美国呼吸道感染发病率减半的概率有多大」。运行过程如下:
- 两分钟内:派出 3 个子智能体、阅读 16 个网页,正在调研 ASHRAE Standard 241 空气净化技术到 2040 年的住宅普及可行性。
- 五分钟后:给出最终答案 7%。
- 报告引用 212 条信源,消耗 8 美元积分。
系统的核心论据包括:引发感冒的病毒超 200 种、鼻病毒血清型超 150 种、50 年疫苗攻关未果;Intercept 项目商业化要到 5—7 年后,预算 5 亿美元疑似不足;轻微病症下人们不会规律使用鼻喷剂;美国缺乏常规感冒监测体系,2020—2026 年基线被疫情行为扭曲。
与其他预测者交叉验证
为判断答案是否站得住脚,作者请另一家声称在 Kalshi 实现 10 万倍收益的 Preseen 给出同题预测,结果为 8.8%,与 FutureSearch 的 7% 接近。再请一位人类超级预测者作答,结论落在 5%—10% 区间。三方数量级一致,但都偏低。
绝对水平如何衡量
文章指出,预测能力难以用「答对率」衡量,题目难度差异巨大,更可行的方式是让不同预测者同台对擂,再用直觉可理解的群体(如普通公众、CIA 分析师)做锚点。Metaculus 一直在做这件事:其图表显示,截至 2026 年 5 月 Gemini 3.1 处于前沿水平时,AI 正在逼近 Metaculus 社区聚合预测,但距专业超级预测者仍有显著差距。
文章末尾被截断,但核心结论已经清晰:AI 在预测市场的盈利能力已有案例支撑,在结构化问题上的表现开始接近人类专家,但距离稳定超越顶级预测者还有距离,且多数战绩尚需更长周期与更大规模来验证是否只是运气。
