12 家国产大模型在美加墨世界杯小组赛预测中整体命中率 61.9%,领先人类玩家 7.3 个百分点;平局预测失误率最高,…
2026 美加墨世界杯 72 场小组赛全部结束,赛场之外,一场由联想与咪咕联合发起、12 家国产大模型与数万名人类玩家同台竞猜的「人机大战」也交出了阶段性成绩单:AI 整体命中率约 61.9%,人类玩家 54.6%,AI 领先约 7.3 个百分点。在排名上,腾讯混元和中移九天并列第一,命中率均为 68.1%;百度文心、千问、DeepSeek 以 63.9% 打成平手;垫底的阶跃星辰仅 43.1%,甚至低于人类选手平均水平,头尾相差 25 个百分点。
世界杯历来是品牌流量战场,大模型厂商今年以猜球切入,借助四年一度的窗口让用户直观感受 AI 的分析能力。活动规模最大的是联想咪咕的「人机大战」,召集了 DeepSeek、通义千问、Kimi、腾讯混元等 12 家国产模型与人类选手同场竞技;单独下场的厂商也不少,千问上线了覆盖全部 104 场比赛的预测 AI 助手并配套公益球场计划,Kimi 搭建了 300 个 Agent 分别负责战术分析、球员追踪、赔率监测等方向,产出一份 224 页预测报告。
三场活动的侧重点各有不同:联想咪咕做能力横评,用统一规则提升关注度;千问把预测嵌入用户互动与公益,走 C 端获客路线;Kimi 侧重展示 Agent 处理复杂任务的能力,预测只是载体。其中只有联想咪咕设置了统一规则与评分标准,使 12 家模型与人类玩家在同一赛道竞争,因此也成为目前最具可比性的参照。
在西班牙对沙特、德国对库拉索这类强弱分明的比赛中,12 家 AI 中分别有 11 家和 10 家做出正确判断。某 AI 出海负责人曾小健解释,大模型预测本质上是「排序机器」,把球队各项数据加权比较,实力差距越大,排序结果越稳定,越接近「背公式就能答对」的题目,AI 表现越好。
但 AI 在平局和冷门上集体失手。整个小组赛阶段,20 场平局中 AI 仅命中 11 次。最典型的案例是西班牙对佛得角:西班牙是夺冠热门,11 家模型均押注其获胜,比赛结果却是 0-0。曾小健认为,平局不是排序结果,而是概率分布中的特殊区间,大模型天然倾向于输出明确答案,即便双方接近也会选边站;大模型从业者 Hongson 补充说,平局背后往往是强队进攻受阻、弱队成功压缩空间的临场策略选择,本身就难以提前量化。换言之,AI 猜强弱分明比赛较准,预测平局与冷门赛事时明显下滑;命中率超过 50% 并不等同于 AI 擅长预测。
曾小健将 AI 猜球概括为「不是预测,而是复述」,模型把足球评论员常说的话语重新组织一遍,这也解释了 12 家模型结论为何经常高度一致。在这一层之下,行业实际存在四条路径:
四条路径门槛与严谨度逐级递增,但大多数厂商仍停留在前两层。对多数厂商而言,优化预测更多依赖数据工程——喂更多信息、写更好的 prompt、接更全的数据源,而非模型层面的突破。
72 场小组赛中相当一部分强弱分明,对 AI 是相对友好的排序题;但淘汰赛留下的 32 支球队经过筛选,实力差距被压缩,赛制也变为单场定胜负,加时赛与点球大战样本极少,模型缺乏「经验」。Hongson 指出,要在淘汰赛阶段表现更好,模型需要主动调整策略,提高对低比分、平局和小差胜的权重——强队进入淘汰赛会变得谨慎,但多数模型并不具备这种主动调整机制。
Hongson 认为 AI 在预测上的天花板不在于算出唯一正确比分,而在于把概率、风险与可能路径讲清楚;曾小健则更倾向于把 AI 定位为决策辅助系统,作用是更快整理信息、识别关键变量、生成情景分析、评估风险,而非最终拍板者。两人均提到,这套方法论可迁移到商业选品、营销投放、舆情判断等领域,关键是把影响结果的变量结构化,用概率表达判断,并在每次结果出来后复盘校准。
世界杯天然具有流量属性,厂商借势做预测难免带有营销色彩;但比赛结果透明,预测本身仍是一个有价值的测试场景,它考验的并非参数大小与榜单排名,而是面对真实世界不确定性时,模型能否表达得更诚实、清楚、可验证。