桃子桃子 AI 快讯
返回首页
行业动态

打破大模型「群体思维」,澳洲初创推出 Flint 模型

澳大利亚初创 Springboards 发布大模型 Flint,主打开放式问答的多样性输出,回应主流 LLM 趋同的「群…

2026.07.01 · 周三4 分钟阅读

澳大利亚初创公司 Springboards 推出了一款名为 Flint 的大语言模型,专门针对主流 LLM 在开放式问题上的「趋同」现象,试图打破模型之间的「群体思维」。

主流 LLM 的「群体思维」困境

如果向 ChatGPT、Claude 或 Gemini 提问「给我一个 1 到 10 之间的随机数」,大多数情况下你都会得到 7。连续追问「再给一个」,得到的答案往往也只是 3、4、8、9 中的某一个。这并非巧合——大多数大语言模型在面对开放式问题时,会收敛到高度相似的回答上,远没有用户预期的那么富有创意。Springboards 联合创始人兼 CEO Pip Bingemann 表示,主流模型在训练方式和数据上高度趋同,导致输出「丢失了大量信息」。

学术研究证实了这一现象

2025 年 11 月,一篇题为《Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)》的论文对这一问题进行了系统研究。研究团队让 25 个不同的大语言模型——包括美国头部厂商的模型以及来自中国等地的开源模型——各回答 50 次「写一个关于时间的隐喻」,共获得 1,250 条回答。结果显示,绝大多数答案都是「时间是河流」或「时间是编织者」的变体。该论文获得了 NeurIPS 大会最佳论文奖。

OpenAI 在回应中表示,训练模型给出可靠、连贯的答案会让它们倾向于围绕高概率的熟悉回答收敛,而过度追求新颖性可能导致答案质量下降。该公司还指出,上述论文研究的是 2024 年的模型版本,这些模型此后已经过更新。

Springboards 的 Flint 模型

Flint 的设计思路与主流模型恰恰相反。Springboards 联合创始人兼 CTO Kieran Browne 介绍,团队「欢迎幻觉」,以换取更丰富的回答多样性。在 Springboards 展示的对比测试中:

  • 随机数问题:ChatGPT 与 Claude 均给出 7,Flint 给出 3.7916。
  • 推荐车型:ChatGPT 与 Claude 给出丰田或本田,Flint 给出福特 F-150。
  • New Balance 跑鞋广告语:Claude 与 ChatGPT 均输出「Run your way」,Flint 给出「Built to last, run to win」。

在更实际的测试中,品牌策略公司 Bodacious 创始人 Zoe Scaman 用经典 MBA 案例对比了 Flint 与 Claude、Gemini、ChatGPT。当被问及「如何为当今年轻人重塑一家金融公司」时,三款主流模型都建议「以有趣的方式教授金融知识」,而 Flint 则提出「应该重新定义财富积累的概念」。Scaman 表示,Flint 能将她「弹射到完全不同的方向」。

仍处早期阶段

目前 Flint 仍是原型产品。Springboards 表示,围绕 Flint 已构建了一款创意辅助工具,将 Flint 与 ChatGPT、Claude 等模型并列供用户选择,用户可以拖拽不同模型输出的文本片段进行组合。Browne 也承认,在某些情况下 Flint 仍会出现问题,距离稳定可靠的产品体验还有距离。

信源