桃子桃子快讯
返回首页
工具

HexGrid Cloud 发起社区点单:开源大模型跨 GPU 推理基准实测

云部署平台 HexGrid Cloud 向社区征集测试请求,将在 H100、H200 等多款 GPU 上对开源聊天模型进…

2026.07.05 · 周日2 分钟阅读

AI 推理部署平台 HexGrid Cloud 在 Reddit r/MachineLearning 发帖,邀请社区用户点单实测开源大模型在各档次 GPU 上的推理性能,并承诺公开完整、可复现的测试结果。

活动背景

HexGrid Cloud 是一个面向开源大模型的 GPU 部署与服务平台,团队近期正集中优化其服务与部署层。为了对自家平台进行「压力测试」,他们选择直接运行社区用户真正关心的模型与硬件组合,而不是凭主观猜测决定测试对象。

可选模型清单

平台目前聚焦于 chat/instruct 类模型(这也是其用户部署的主要场景),首轮候选名单包括:

  • Nemotron-3 Super 120B-A12B(仅支持 NVFP4 量化)
  • Nemotron-3 Nano 30B A3B
  • Qwen-3.6 27B
  • Llama 3.3 70B Instruct
  • Gemma-4 31B
  • Devstral-Small-2-24B-Instruct-2512
  • 由社区建议的其他能放入单卡 H200(141GB 显存)的开源 chat 模型

硬件与量化配置

本轮测试覆盖的硬件与参数选项为:

  • GPU:RTX PRO 6000、L40S、H100、H200
  • 量化格式:FP8、AWQ、BF16
  • 上下文长度:8K、32K、64K、128K
  • 关注指标:最大吞吐、单流速度、长上下文 prefill 等

承诺公开的结果指标

对于获得票数最多的测试请求,HexGrid Cloud 表示将发布完整测试报告,包括 tokens/sec(每秒生成 token 数)、TTFT(首 token 延迟)、TPOT(每 token 间隔)、并发场景下的吞吐量,以及每百万 token 的成本。同时会附上配置文件与启动参数,以便社区复现。

参与方式

用户可在原帖评论区提交希望测试的模型与硬件组合,或从已有清单中点选。平台表示将根据社区反馈决定优先运行的测试项。

信源