用 Gemini 自我打脸：聊天框真是 LLM 的界面倒退吗？

一位开发者近日撰文指出，大语言模型（LLM）的聊天框界面是一次「40 年以上的界面设计倒退」，并罕见地用 Gemini 3.1 Pro 对自己的核心论点进行了事实核查。结果显示，原文中关于 Claude Code「首先产生明确经济价值」的说法被 Gemini 判定为错误，而关于聊天框界面设计的批评则被认为主观但有充分依据。

核心论点：聊天框是界面设计的倒退

作者认为，尽管 ChatGPT 意外走红，真正开始产生明确经济价值的是 Claude Code。原因之一在于「聊天」这种交互方式相比图形用户界面（GUI）是一次巨大的倒退——1984 年 Macintosh 推广的 GUI 强调「可发现性」和「直接操作」，用户可以直观看到软件能做什么；而空白聊天框完全依赖记忆而非识别，用户必须猜测系统能力，相当于回到了 1970 年代的命令行界面。

作者援引 1985 年一篇计算机界面基础论文（Hutchins 等）中的观点：界面会让用户逐步适应其缺陷，从而掩盖设计上的问题；用户会围绕界面调整工作流，进而忽略其缺陷。

用 Gemini 自我验证

为检验自身论点是否成立，作者将原文段落直接输入 Gemini 3.1 Pro（标准思考模式），要求其判断真实性。Gemini 给出了逐条拆解的核查结果，将核心论断分为「错误前提」「主观但有效的 UX 批评」「对当前 AI 摩擦的准确描述」三类。

Gemini 的核查结论

「Claude Code 率先产生经济价值」：被判定为错误。Gemini 指出，GitHub Copilot（2021 年发布，早于 ChatGPT）才是公认的首个产生明确经济价值的生成式 AI 产品；ChatGPT 本身在 2022 年末发布后，也迅速通过订阅和 API 集成创造了大量经济价值，Claude Code 远非首创。
「Chat 是 40 年的界面倒退」：被判定为主观但获设计专家广泛支持。Gemini 认为这反映了 HCI 领域对聊天框「依赖记忆而非识别」的批评，用户必须知道准确的「咒语」（提示词）才能得到好结果。
「聊天框造成诡异谷交互」：被判定为对当前 AI 摩擦的高度准确描述（原文此节被截断，Gemimi 的完整分析未在原文中给出）。

更广泛的启示

作者强调，整个实验过程本身就是关于 LLM 时代信息可信度的隐喻：读者可以通过链接验证引用，但若默认作者本身可能就是 LLM，那么一切文字都需重新审视。文章还提醒，仅凭文字论证观点并不充分，附带可追溯的引用和链接才能让读者独立判断真伪，这也是当前 AI 写作与传播环境下的一种方法论示范。