桃子桃子 AI 快讯
返回首页
开源

JetBrains 开源 Mellum2,主打高并发推理

JetBrains 团队开源 Mellum2 轻量语言模型,参数 12B/2.5B,主打高并发推理与本地部署。

2026.06.29 · 周一2 分钟阅读评分 62
评分细项加权总分 62
重要性
58
新颖性
75
影响面
50
可信度
72
实质性
50

JetBrains 团队近日宣布开源其自研轻量级语言模型 Mellum2,主打高并发推理与本地部署场景。该系列模型参数规模为 12B 总参数 / 2.5B 活跃参数,采用类混合专家(MoE)架构,完全从零训练而成,而非基于既有模型微调。模型最初面向 H100/H200 级别 GPU 的生产环境进行优化,但团队同时强调本地部署的可用性。

模型定位与训练目标

Mellum2 属于 JetBrains 推出的轻量化大语言模型(SLM)系列。与当前主流的「通用大模型 + 下游微调」路线不同,团队从预训练阶段就将「高吞吐、低延迟」作为核心目标,力求在并发请求场景下保持稳定的响应速度。据团队在 Reddit 公布的内部基准截图,Mellum2 在并发负载下的吞吐量显著高于同体量开源小模型,同时在通用能力上与同类 SLM 持平。

部署形态与可用资源

目前 Mellum2 已在 Hugging Face 开放了部分权重检查点,完整的 GGUF 量化版本同步上线 Ollama,便于用户在本地或私有环境中快速拉起推理服务。技术报告同步发布在 arXiv 上,涵盖训练数据、模型架构与评测细节,便于社区复现与进一步研究。

  • 参数规模:12B 总参数 / 2.5B 活跃参数
  • 训练目标:H100/H200 生产级推理 + 本地部署
  • 开源平台:Hugging Face、Ollama
  • 技术报告:arXiv 已发布

社区反馈征集

发布方在 Reddit 的 r/LocalLLaMA 板块发起讨论,邀请本地部署用户分享实际体验,包括硬件配置、推理速度、适用场景,以及与同类小模型的对比感受。对于一款定位「生产可用 + 本地可跑」的小模型而言,社区的实测反馈将直接影响其后续迭代方向。

作为 IDE 领域的头部厂商,JetBrains 此次从工具层切入基础模型研发,并以完全开源的形式发布权重,反映出 AI 编程助手赛道正从「调用外部 API」向「自研可控底座」延伸的趋势。Mellum2 的实际表现能否在 Llama 3、Qwen 等同类开源小模型的夹击中脱颖而出,仍有待社区进一步验证。

信源