HexGrid Cloud 发起社区点单：开源大模型跨 GPU 推理基准实测

AI 推理部署平台 HexGrid Cloud 在 Reddit r/MachineLearning 发帖，邀请社区用户点单实测开源大模型在各档次 GPU 上的推理性能，并承诺公开完整、可复现的测试结果。

活动背景

HexGrid Cloud 是一个面向开源大模型的 GPU 部署与服务平台，团队近期正集中优化其服务与部署层。为了对自家平台进行「压力测试」，他们选择直接运行社区用户真正关心的模型与硬件组合，而不是凭主观猜测决定测试对象。

可选模型清单

平台目前聚焦于 chat/instruct 类模型（这也是其用户部署的主要场景），首轮候选名单包括：

Nemotron-3 Super 120B-A12B（仅支持 NVFP4 量化）
Nemotron-3 Nano 30B A3B
Qwen-3.6 27B
Llama 3.3 70B Instruct
Gemma-4 31B
Devstral-Small-2-24B-Instruct-2512
由社区建议的其他能放入单卡 H200（141GB 显存）的开源 chat 模型

硬件与量化配置

本轮测试覆盖的硬件与参数选项为：

GPU：RTX PRO 6000、L40S、H100、H200
量化格式：FP8、AWQ、BF16
上下文长度：8K、32K、64K、128K
关注指标：最大吞吐、单流速度、长上下文 prefill 等

承诺公开的结果指标

对于获得票数最多的测试请求，HexGrid Cloud 表示将发布完整测试报告，包括 tokens/sec（每秒生成 token 数）、TTFT（首 token 延迟）、TPOT（每 token 间隔）、并发场景下的吞吐量，以及每百万 token 的成本。同时会附上配置文件与启动参数，以便社区复现。

参与方式

用户可在原帖评论区提交希望测试的模型与硬件组合，或从已有清单中点选。平台表示将根据社区反馈决定优先运行的测试项。