桃子桃子 AI 快讯
返回首页
产品功能

智谱公开征集 GLM-5.3 意见,社区齐喊要视觉

唐杰发文征集下代 GLM 改进方向,评论清一色要求补齐视觉能力,折射智谱旗舰模型多模态短板与同行压力。

2026.06.30 · 周二3 分钟阅读评分 58
评分细项加权总分 58
重要性
55
新颖性
62
影响面
50
可信度
72
实质性
55

智谱创始人唐杰近日在社交平台公开征集网友对下一代 GLM 模型——GLM-5.3 的功能期望,帖子浏览量迅速突破 40 万。评论区中呼声最高的诉求是「视觉」:用户希望旗舰模型能够看图、识图、补齐多模态能力。这并非智谱第一次向社区「求需求」,去年 GLM-4.6 开源前唐杰也曾做过类似征集,彼时社区提出的多项建议在后续版本中陆续落地,被网友戏称为「有求必应·阿拉丁」。

GLM-5.2 的视觉之痛

两周前,智谱刚刚开源 GLM-5.2,定位为编程强化的文本模型。官方与社区数据显示其在开源编程榜单中位列国内第一、全球第二,但该模型未搭载视觉编码器,无法处理图像输入或生成图像,只能在百万级 Token 长上下文与深度逻辑推理方向发力。相比之下,被拿来对标的 Fable-5 是原生多模态模型,能同时处理文本与视觉任务,这让不少 GLM 用户感到落差。

事实上,智谱在多模态方向并非没有积累:今年 4 月发布的 GLM-5V-Turbo 是原生多模态编程基座,可在预训练阶段融合视觉与文本;更早的 CogVLM 视觉编码器也出自智谱团队,唐杰本人在视觉方向也有多篇论文。问题在于,这些能力并未被整合进最强旗舰模型,GLM-5.2 仍是纯文本形态。

科学家视角与用户诉求的拉扯

唐杰此前在年终总结中表达过对多模态的态度:一方面认可多模态是未来方向,另一方面认为当下多模态对提升 AGI 智能上界帮助有限,更有效的方式或许是文本、多模态、多模态生成分开推进,再适度探索融合。这一观点反映了他作为一线研究者的第一性原理——模型智能的提升仍依赖复杂推理等核心能力,视觉更多是「锦上添花」。

而用户的视角则更实用:贴张设计稿、截个网页,模型能不能直接读懂并给出可用代码。这种体验差距在评论区被反复放大,形成科学家与开发者之间微妙的认知错位。

来自对手的多模态压力

外部竞争同样不容忽视。Kimi K2.5 今年 1 月即以原生多模态形态亮相,Qwen3.5-Omni 在 3 月实现文本、图像、音频、视频端到端统一,国际上 Gemini 3 也是原生支持文、图、音、视频的全能选手。在主流旗舰全面多模态化的趋势下,GLM 旗舰款补足视觉已成为社区与行业的共同期待。

唐杰此次主动开口征集意见,某种程度上也是对这一压力的回应。GLM-5.3 能否将视觉能力正式纳入旗舰,将直接影响智谱在下一代基础模型竞争中的位置。

信源