AIMAC 代码无障碍榜单:GPT 5.4 Mini 居首
GAAD 基金会联合 ServiceNow 发布 AIMAC 评测,对 36 个 AI 模型的网页无障碍生成能力打分,O…
- 重要性
- 58
- 新颖性
- 72
- 影响面
- 60
- 可信度
- 75
- 实质性
- 82
由全球无障碍意识日基金会(GAAD Foundation)联合 ServiceNow 发起的 AIMAC(AI Model Accessibility Checker)项目,本月更新了最新一期排行榜。该项目让主流大模型在 28 个网页类目下分别生成页面,并统一审计其无障碍缺陷,最终以「AIMAC Debt(无障碍债务)」越低越好为标准对模型打分,同时叠加每次任务成本。该排行首次将「生成的代码是否对残障人士友好」作为独立维度摆上了桌面。
评测设计与背景
AIMAC 的出发点是一组并不乐观的数字:WebAIM 追踪显示,访问量最大的 100 万个网站中,95.9% 连基础无障碍检查都无法通过;连续 6 年缓慢改善之后,2026 年趋势反转,单页平均错误数上涨 10% 至 56.1。在「氛围编程」(Vibe Coding)入选柯林斯词典年度词汇、越来越多代码由 AI 自动生成的背景下,AIMAC 的目标被明确写为「让 AI 模型默认写出无障碍代码」。
榜单要点:OpenAI 拿下前五
最新榜单测试了 36 个模型,整体得出几个关键结论:
- OpenAI 的 GPT 5.4 Mini 以 0.00 的中位 AIMAC Debt、22 处违规、$0.95 的单次成本位居第一。
- 紧跟其后的 GPT 5.3 Codex 同样获得 0.00 中位分,违规总数 20 处,单次成本 $3.02,被性价比更高的 GPT 5.4 Mini 反超。
- 前五名全部来自 OpenAI,依次为 GPT 5.4 Mini、GPT 5.3 Codex、GPT 5.5、GPT 5.5 Pro,以及开源权重模型 gpt-oss 120b($0.09/次,AIMAC Debt 3.85)。
前 15 名中,Qwen 系共上榜 4 款,旗舰 Qwen3.5 397B A17B 排在第 6;Z.ai 的 GLM 4.7 Flash 凭借 $0.10 的极低价格拿到第 7。Anthropic 的 Claude Haiku 4.5 与 Claude Opus 4.8 分别排在第 11 和第 14 位。
性价比与帕累托前沿
AIMAC 把「AIMAC Debt」与「单次成本」做成了二维帕累托图,并标注若干帕累托最优模型。最具性价比的几款包括:
- gpt-oss 120b:$0.09,AIMAC Debt 3.85。
- GLM 4.7 Flash:$0.10,AIMAC Debt 4.19。
- Z.AI 系模型与众多 Gemma、DeepSeek 变体共同构成低价区间。
相比之下,旗舰级模型如 GPT 5.5 Pro($128.11)与 Claude Fable 5($22.33)虽然排名靠前或中游,但单次成本显著高于同梯队选手。全部 36 个模型一次完整跑完累计花费 $237.68。
谷歌进步明显,Claude 与开源生态仍有空间
上一版 Google Gemini 3 Pro Preview 仅排第 39 位,AIMAC 对其点名批评;本期 Gemini 3.1 Pro Preview 跃升至第 8(AIMAC Debt 4.40,$4.16)。不过 Gemini 3.5 Flash 仍停在中下游($4.83,第 35 名),Gemma 4 两个小模型也落在后段。Anthropic 三款主力全部进前 15,但单次成本偏高;MoonshotAI、xAI、Mistral 等厂商普遍位于榜单后段,其中 Grok 4.3 与 Grok Build 0.1 分别排第 36、第 37 位。
AIMAC 已公开全部生成页面供逐页对比,并设置了独立章节记录模型常见错误模式与 Emdash 用法统计。对于正在用 AI 生成前端代码的团队,这份榜单首次给出了「除了「能不能写」之外还要不要看「写得对不对」」的量化参考。
