JetBrains 开源 Mellum2,主打高并发推理
JetBrains 团队开源 Mellum2 轻量语言模型,参数 12B/2.5B,主打高并发推理与本地部署。
- 重要性
- 58
- 新颖性
- 75
- 影响面
- 50
- 可信度
- 72
- 实质性
- 50
JetBrains 团队近日宣布开源其自研轻量级语言模型 Mellum2,主打高并发推理与本地部署场景。该系列模型参数规模为 12B 总参数 / 2.5B 活跃参数,采用类混合专家(MoE)架构,完全从零训练而成,而非基于既有模型微调。模型最初面向 H100/H200 级别 GPU 的生产环境进行优化,但团队同时强调本地部署的可用性。
模型定位与训练目标
Mellum2 属于 JetBrains 推出的轻量化大语言模型(SLM)系列。与当前主流的「通用大模型 + 下游微调」路线不同,团队从预训练阶段就将「高吞吐、低延迟」作为核心目标,力求在并发请求场景下保持稳定的响应速度。据团队在 Reddit 公布的内部基准截图,Mellum2 在并发负载下的吞吐量显著高于同体量开源小模型,同时在通用能力上与同类 SLM 持平。
部署形态与可用资源
目前 Mellum2 已在 Hugging Face 开放了部分权重检查点,完整的 GGUF 量化版本同步上线 Ollama,便于用户在本地或私有环境中快速拉起推理服务。技术报告同步发布在 arXiv 上,涵盖训练数据、模型架构与评测细节,便于社区复现与进一步研究。
- 参数规模:12B 总参数 / 2.5B 活跃参数
- 训练目标:H100/H200 生产级推理 + 本地部署
- 开源平台:Hugging Face、Ollama
- 技术报告:arXiv 已发布
社区反馈征集
发布方在 Reddit 的 r/LocalLLaMA 板块发起讨论,邀请本地部署用户分享实际体验,包括硬件配置、推理速度、适用场景,以及与同类小模型的对比感受。对于一款定位「生产可用 + 本地可跑」的小模型而言,社区的实测反馈将直接影响其后续迭代方向。
作为 IDE 领域的头部厂商,JetBrains 此次从工具层切入基础模型研发,并以完全开源的形式发布权重,反映出 AI 编程助手赛道正从「调用外部 API」向「自研可控底座」延伸的趋势。Mellum2 的实际表现能否在 Llama 3、Qwen 等同类开源小模型的夹击中脱颖而出,仍有待社区进一步验证。
