智谱公开征集 GLM-5.3 意见，社区齐喊要视觉

智谱创始人唐杰近日在社交平台公开征集网友对下一代 GLM 模型——GLM-5.3 的功能期望，帖子浏览量迅速突破 40 万。评论区中呼声最高的诉求是「视觉」：用户希望旗舰模型能够看图、识图、补齐多模态能力。这并非智谱第一次向社区「求需求」，去年 GLM-4.6 开源前唐杰也曾做过类似征集，彼时社区提出的多项建议在后续版本中陆续落地，被网友戏称为「有求必应·阿拉丁」。

GLM-5.2 的视觉之痛

两周前，智谱刚刚开源 GLM-5.2，定位为编程强化的文本模型。官方与社区数据显示其在开源编程榜单中位列国内第一、全球第二，但该模型未搭载视觉编码器，无法处理图像输入或生成图像，只能在百万级 Token 长上下文与深度逻辑推理方向发力。相比之下，被拿来对标的 Fable-5 是原生多模态模型，能同时处理文本与视觉任务，这让不少 GLM 用户感到落差。

事实上，智谱在多模态方向并非没有积累：今年 4 月发布的 GLM-5V-Turbo 是原生多模态编程基座，可在预训练阶段融合视觉与文本；更早的 CogVLM 视觉编码器也出自智谱团队，唐杰本人在视觉方向也有多篇论文。问题在于，这些能力并未被整合进最强旗舰模型，GLM-5.2 仍是纯文本形态。

科学家视角与用户诉求的拉扯

唐杰此前在年终总结中表达过对多模态的态度：一方面认可多模态是未来方向，另一方面认为当下多模态对提升 AGI 智能上界帮助有限，更有效的方式或许是文本、多模态、多模态生成分开推进，再适度探索融合。这一观点反映了他作为一线研究者的第一性原理——模型智能的提升仍依赖复杂推理等核心能力，视觉更多是「锦上添花」。

而用户的视角则更实用：贴张设计稿、截个网页，模型能不能直接读懂并给出可用代码。这种体验差距在评论区被反复放大，形成科学家与开发者之间微妙的认知错位。

来自对手的多模态压力

外部竞争同样不容忽视。Kimi K2.5 今年 1 月即以原生多模态形态亮相，Qwen3.5-Omni 在 3 月实现文本、图像、音频、视频端到端统一，国际上 Gemini 3 也是原生支持文、图、音、视频的全能选手。在主流旗舰全面多模态化的趋势下，GLM 旗舰款补足视觉已成为社区与行业的共同期待。

唐杰此次主动开口征集意见，某种程度上也是对这一压力的回应。GLM-5.3 能否将视觉能力正式纳入旗舰，将直接影响智谱在下一代基础模型竞争中的位置。