AIMAC 代码无障碍榜单：GPT 5.4 Mini 居首

由全球无障碍意识日基金会（GAAD Foundation）联合 ServiceNow 发起的 AIMAC（AI Model Accessibility Checker）项目，本月更新了最新一期排行榜。该项目让主流大模型在 28 个网页类目下分别生成页面，并统一审计其无障碍缺陷，最终以「AIMAC Debt（无障碍债务）」越低越好为标准对模型打分，同时叠加每次任务成本。该排行首次将「生成的代码是否对残障人士友好」作为独立维度摆上了桌面。

评测设计与背景

AIMAC 的出发点是一组并不乐观的数字：WebAIM 追踪显示，访问量最大的 100 万个网站中，95.9% 连基础无障碍检查都无法通过；连续 6 年缓慢改善之后，2026 年趋势反转，单页平均错误数上涨 10% 至 56.1。在「氛围编程」（Vibe Coding）入选柯林斯词典年度词汇、越来越多代码由 AI 自动生成的背景下，AIMAC 的目标被明确写为「让 AI 模型默认写出无障碍代码」。

榜单要点：OpenAI 拿下前五

最新榜单测试了 36 个模型，整体得出几个关键结论：

OpenAI 的 GPT 5.4 Mini 以 0.00 的中位 AIMAC Debt、22 处违规、$0.95 的单次成本位居第一。
紧跟其后的 GPT 5.3 Codex 同样获得 0.00 中位分，违规总数 20 处，单次成本 $3.02，被性价比更高的 GPT 5.4 Mini 反超。
前五名全部来自 OpenAI，依次为 GPT 5.4 Mini、GPT 5.3 Codex、GPT 5.5、GPT 5.5 Pro，以及开源权重模型 gpt-oss 120b（$0.09/次，AIMAC Debt 3.85）。

前 15 名中，Qwen 系共上榜 4 款，旗舰 Qwen3.5 397B A17B 排在第 6；Z.ai 的 GLM 4.7 Flash 凭借 $0.10 的极低价格拿到第 7。Anthropic 的 Claude Haiku 4.5 与 Claude Opus 4.8 分别排在第 11 和第 14 位。

性价比与帕累托前沿

AIMAC 把「AIMAC Debt」与「单次成本」做成了二维帕累托图，并标注若干帕累托最优模型。最具性价比的几款包括：

gpt-oss 120b：$0.09，AIMAC Debt 3.85。
GLM 4.7 Flash：$0.10，AIMAC Debt 4.19。
Z.AI 系模型与众多 Gemma、DeepSeek 变体共同构成低价区间。

相比之下，旗舰级模型如 GPT 5.5 Pro（$128.11）与 Claude Fable 5（$22.33）虽然排名靠前或中游，但单次成本显著高于同梯队选手。全部 36 个模型一次完整跑完累计花费 $237.68。

谷歌进步明显，Claude 与开源生态仍有空间

上一版 Google Gemini 3 Pro Preview 仅排第 39 位，AIMAC 对其点名批评；本期 Gemini 3.1 Pro Preview 跃升至第 8（AIMAC Debt 4.40，$4.16）。不过 Gemini 3.5 Flash 仍停在中下游（$4.83，第 35 名），Gemma 4 两个小模型也落在后段。Anthropic 三款主力全部进前 15，但单次成本偏高；MoonshotAI、xAI、Mistral 等厂商普遍位于榜单后段，其中 Grok 4.3 与 Grok Build 0.1 分别排第 36、第 37 位。

AIMAC 已公开全部生成页面供逐页对比，并设置了独立章节记录模型常见错误模式与 Emdash 用法统计。对于正在用 AI 生成前端代码的团队，这份榜单首次给出了「除了「能不能写」之外还要不要看「写得对不对」」的量化参考。