工具
HexGrid Cloud 发起社区点单:开源大模型跨 GPU 推理基准实测
云部署平台 HexGrid Cloud 向社区征集测试请求,将在 H100、H200 等多款 GPU 上对开源聊天模型进…
2026.07.05 · 周日约 2 分钟阅读
AI 推理部署平台 HexGrid Cloud 在 Reddit r/MachineLearning 发帖,邀请社区用户点单实测开源大模型在各档次 GPU 上的推理性能,并承诺公开完整、可复现的测试结果。
活动背景
HexGrid Cloud 是一个面向开源大模型的 GPU 部署与服务平台,团队近期正集中优化其服务与部署层。为了对自家平台进行「压力测试」,他们选择直接运行社区用户真正关心的模型与硬件组合,而不是凭主观猜测决定测试对象。
可选模型清单
平台目前聚焦于 chat/instruct 类模型(这也是其用户部署的主要场景),首轮候选名单包括:
- Nemotron-3 Super 120B-A12B(仅支持 NVFP4 量化)
- Nemotron-3 Nano 30B A3B
- Qwen-3.6 27B
- Llama 3.3 70B Instruct
- Gemma-4 31B
- Devstral-Small-2-24B-Instruct-2512
- 由社区建议的其他能放入单卡 H200(141GB 显存)的开源 chat 模型
硬件与量化配置
本轮测试覆盖的硬件与参数选项为:
- GPU:RTX PRO 6000、L40S、H100、H200
- 量化格式:FP8、AWQ、BF16
- 上下文长度:8K、32K、64K、128K
- 关注指标:最大吞吐、单流速度、长上下文 prefill 等
承诺公开的结果指标
对于获得票数最多的测试请求,HexGrid Cloud 表示将发布完整测试报告,包括 tokens/sec(每秒生成 token 数)、TTFT(首 token 延迟)、TPOT(每 token 间隔)、并发场景下的吞吐量,以及每百万 token 的成本。同时会附上配置文件与启动参数,以便社区复现。
参与方式
用户可在原帖评论区提交希望测试的模型与硬件组合,或从已有清单中点选。平台表示将根据社区反馈决定优先运行的测试项。
