中国信通院发布 AI Infra 运维首个评测基准，覆盖 5 款国产芯片

中国信息通信研究院（中国信通院）近日正式发布 AISHPerf 人工智能软硬件基准体系 3.0 版本，其中包含两项面向 AI Infra 的核心评测基准，标志着国内在智算运维与算子生成领域的标准化建设迈出关键一步。其中，AISHPerf-智算运维智能体评测基准是业内首个面向 AI 基础设施的运维智能体评测体系，由无问芯穹与清华大学团队作为重点技术支持方参与建设，已在 Gitee 开源。

AISHPerf 3.0 两大新基准

本次发布的两项基准分别瞄准智算运维与算子生成两个关键环节：

AISHPerf-智算运维智能体评测基准：首个面向 AI Infra 的运维智能体评测基准，基于近百亿条真实运维数据构建，考核智能体在真实生产场景中解决实际问题的能力。
AISHPerf-算子生成智能体评测基准：聚焦「模型生成的算子能否在真实量化推理部署中替代现有算子」的工程可部署性，更贴合产业实际落地需求。

二者从底层算力优化到上层集群运维，共同为智算产业提供统一的能力参照框架。AISHPerf 体系由中国信通院与人工智能大模型及软硬件评测工信部重点实验室联合构建，依托国家信创园内的「人工智能软硬件协同创新与适配验证中心」运行。

智算运维基准：103 个用例覆盖 5 款国产芯片

当前业内对运维智能体的评估多停留在语言问答层面，类似「笔试」，无法反映智能体「能否解决实际问题」。AISHPerf-智算运维智能体评测基准正是为弥补这一缺口而设计，其核心特征包括：

以无问芯穹沉淀的近百亿条真实运维数据为底座，经资深运维专家脱敏、标注和筛选，提炼出 103 条高保真、高质量典型评测用例。
覆盖 5 大技术栈、44 种问题现象、22 个细分故障领域、3 种难度层级。
覆盖 6 种芯片，其中 5 种为国产芯片（天数、壁仞、沐曦、摩尔、昇腾）。
评测流程不明确指出故障根因，只提供真实集群环境和有限问题现象描述，要求智能体自主探索、排查和修复。
最终输出时延、Token 消耗、工具调用效率等关键维度的量化结果。

这也是同类评测基准中首次将国产芯片集群运维场景纳入评测范围，为国产智算运维智能体建立起统一、可量化的评估标尺。

产业背景：从「规模落地」到「效能释放」

据 IDC 统计，2025 年中国 AI 加速卡国产化率已突破四成，国产 GPU 集群规模进入快速扩容期。但相较于成熟通用 GPU 生态，国产芯片在硬件架构、驱动体系、通信协议及框架适配等层面存在显著差异，运维复杂度更高，直接制约 Token 产出效率与投产效益。

无问芯穹方面披露，其在自有 AI 基础设施中部署运维智能体后，工单平均处理时间缩短 50%，关键故障处理效率提升约 6 倍，综合运维成本下降约 30%，在算力和电能不变的前提下实现 Token 产能显著提升。这一实践为基准的工程价值提供了佐证。

开源与后续规划

AISHPerf-智算运维智能体评测基准已在 Gitee 开源，包含故障模拟器、运维数据集与评测框架。后续，中国信通院将与无问芯穹、清华大学深化产学研协同，持续扩充场景覆盖维度、丰富数据集规模，推动该基准成为行业公认的 AI 集群运维智能体能力评估公共基线，并逐步构建覆盖 AI Infra 全领域的标准矩阵。

开源地址：https://gitee.com/aishperf-caict/aishperf_openness