用 git 时间戳为 AI 角色打分:asktheboard 让预测可追溯
开源工具 asktheboard 让多角色 AI 在决策前预先登记概率预测,以 git 提交时间作为时间戳锚定,并在到期…
近日,开源项目 asktheboard 提出了一套让 AI 多角色判断「可追溯、可校准」的工程方案。与常见的「AI 专家委员会」聊天机器人不同,它强制每一条预测在结果揭晓前完成登记,并用 git 提交记录作为时间戳锚点,使事后难以伪造或调整立场。
核心思路:把预测变成可结算的 ADR
项目作者认为,如今克隆一个「AI 专家小组」并不困难,真正稀缺的是「事前说对过」的记录。asktheboard 因此把每一次决策打包成一份类似架构决策记录(ADR)的"董事会纪要",内容包含:
- 进入决策前的先验信念
- 各位角色(Seat)的立场与各自给出的概率
- 一条附带日期、可证伪的预测,锚定在结果尚未揭晓之时
- 到期日由现实结果自动核账,产出每位角色的 Brier 校准分
整套记录以 JSON 与 Markdown 双格式写入 board-minutes/ 目录,直接可 git 提交。"外部可信性来自 git 历史本身——它背书了锚定时间戳,任何演示都无法伪造这部分。"作者在文档中写道。
60 秒本地试用
asktheboard 已发布到 PyPI,无需 API Key 即可在样本数据上演练 create → resolve → score 全流程:
pip install asktheboardasktheboard create --spec sample_minute.json:写入一份样本纪要asktheboard resolve --id <id> --outcome true:按事先设定好的结果结算asktheboard score:按 Brier 分数(越低越好)列出每位角色的命中率
文档中的示例问题为「继续用 Postgres + pgvector 还是迁移到专用向量数据库」,其中务实派(pragmatist)给出 0.8 的肯定概率与 0.040 的 Brier 分数,怀疑派(skeptic)持反对意见并给出 0.35 的概率,分数明显落后。
自己跑 LLM:BYOK 模式
开源核心不内置任何模型调用,而是提供 HTTPLLMClient,这是一个仅依赖 Python 标准库的 OpenAI 兼容 HTTP 客户端。用户只需自带 OpenAI 兼容端点的 API Key,所有推理费用由自己承担。convene() 函数会把这个端点对每位角色「扇出调用」,最终把各角色的概率取均值作为董事会共识。这种「零依赖、按用量付费」的设计让引擎在任何规模下都可以免费运行。
完整性约束写在测试里
为防止「事后补录」等作弊行为,仓库 tests/test_model.py 中明确定义了三条由代码强制执行的约束:
- 预测不可设置在过去的日期结算,杜绝把已知结果伪装成旧判断;
- 在到期日之前不允许打分,保证结算是「先见之明」;
- 锚定时间戳与预测文本一旦创建即冻结,后续打分不会改动它们。
首笔公开赌注:6 月非农
除了样本演示,项目方还把这一机制套用到自身:仓库里预先登记了一份关于「asktheboard 自身发布」的开盘纪要,锚定时间 2026-06-26,结算日 2026-09-24,目前尚未有分。下一笔公开赌注则是 2026 年 6 月美国就业报告——董事会给出「新增非农就业 ≥ 15 万、概率 56%」的预测,怀疑派以 40% 概率反对,结算锚定 2026-07-02,对照美国劳工统计局(BLS)Employment Situation 公布的数据。任何人都可以在那天回来看谁被现实打脸。
商业化路径
当前发布的是永久免费的开源核心;作者提到一个「带额度上限的托管付费版」正在排队,用来托管长期累计的公开校准榜,感兴趣的开发者可发邮件加入候补名单。整体来看,asktheboard 更像是一项用工程化手段解决 AI 预测可信度问题的尝试,而非面向主流开发者的基础设施。
