AI 基础设施知识库上线，覆盖 GPU 集群全栈运维

AI 基础设施服务商 setloop.io 在 Hacker News 发布了一个名为「ai-infrastructure.net」的知识库，定位为面向 GPU 集群全栈运维的可引用参考站，覆盖从数据中心物理设施、InfiniBand 互联网络，到 Kubernetes、Slurm、Ray 编排、分布式训练、强化学习后训练，以及大规模 LLM 推理服务的完整链路。该知识库更新至 2026 年中，当前焦点为 Blackwell Ultra（B300 / GB300 NVL72）一代。

定位与目标读者

知识库面向「让加速器保持忙碌」的工程群体，包括系统管理员、GPU 服务器工程师、平台工程师、SRE 与 MLOps 工程师。每个页面遵循统一结构：概述、核心知识、必看清单、故障模式与参考资料，并配有 Ansible、Helm/Kubernetes、Slurm、PyTorch、vLLM 等参考示例及架构图。

硬件覆盖范围

知识库覆盖 NVIDIA 完整产品线：数据中心 GPU（Ampere、Hopper、Blackwell）、RTX 消费级与工作站显卡，以及 DGX 系统与 DGX Spark，并详细说明各代硬件在运维、安装与网络层面的差异。

六大核心模块

按运维生命周期组织，内容包括：

GPU 硬件：完整 NVIDIA 产品线及其运维差异
建设与验收：BOM 校验、机房供电与冷却、HPC 互联网络、验收流程
集群技术：Kubernetes、k3s、Ray、Slurm 的原理、选型与扩展
训练与后训练：FSDP、DDP、ZeRO、张量与流水线并行、DiLoCo；SFT/LoRA、DPO、GRPO；verl、slime、SkyRL 等强化学习库
推理服务：Kimi K2、GLM、DeepSeek、Qwen 等开源权重模型的部署，continuous batching、KV cache、prefill/decode 分离
运维与优化：可观测性、RAS 与 XID 故障模式、NCCL 调优、SLO/SLI 与错误预算告警

此外还设有「Recipes & Runbooks」章节，提供 Ansible playbook、Helm/Kubernetes manifest、遥测栈配置与常见故障处置流程。

入门路径建议

针对不同任务，知识库提供分级阅读路线：搭建集群的用户从 Ansible 起步，再进入 Kubernetes/Helm 平台与遥测体系；模型服务方应先看开源权重模型部署与 SLO/SLI 目录；微调用户可沿着 SFT/LoRA → GRPO → RL 库的顺序阅读。页面末尾引用了 NVIDIA Blackwell 架构、DGX SuperPOD 参考架构、Kubernetes、PyTorch 分布式与 vLLM 官方文档作为权威来源。