JetBrains 开源 Mellum2，主打高并发推理

JetBrains 团队近日宣布开源其自研轻量级语言模型 Mellum2，主打高并发推理与本地部署场景。该系列模型参数规模为 12B 总参数 / 2.5B 活跃参数，采用类混合专家（MoE）架构，完全从零训练而成，而非基于既有模型微调。模型最初面向 H100/H200 级别 GPU 的生产环境进行优化，但团队同时强调本地部署的可用性。

模型定位与训练目标

Mellum2 属于 JetBrains 推出的轻量化大语言模型（SLM）系列。与当前主流的「通用大模型 + 下游微调」路线不同，团队从预训练阶段就将「高吞吐、低延迟」作为核心目标，力求在并发请求场景下保持稳定的响应速度。据团队在 Reddit 公布的内部基准截图，Mellum2 在并发负载下的吞吐量显著高于同体量开源小模型，同时在通用能力上与同类 SLM 持平。

部署形态与可用资源

目前 Mellum2 已在 Hugging Face 开放了部分权重检查点，完整的 GGUF 量化版本同步上线 Ollama，便于用户在本地或私有环境中快速拉起推理服务。技术报告同步发布在 arXiv 上，涵盖训练数据、模型架构与评测细节，便于社区复现与进一步研究。

参数规模：12B 总参数 / 2.5B 活跃参数
训练目标：H100/H200 生产级推理 + 本地部署
开源平台：Hugging Face、Ollama
技术报告：arXiv 已发布

社区反馈征集

发布方在 Reddit 的 r/LocalLLaMA 板块发起讨论，邀请本地部署用户分享实际体验，包括硬件配置、推理速度、适用场景，以及与同类小模型的对比感受。对于一款定位「生产可用 + 本地可跑」的小模型而言，社区的实测反馈将直接影响其后续迭代方向。

作为 IDE 领域的头部厂商，JetBrains 此次从工具层切入基础模型研发，并以完全开源的形式发布权重，反映出 AI 编程助手赛道正从「调用外部 API」向「自研可控底座」延伸的趋势。Mellum2 的实际表现能否在 Llama 3、Qwen 等同类开源小模型的夹击中脱颖而出，仍有待社区进一步验证。