桃子桃子 AI 快讯
返回首页
开源

Kog 开源 Laneformer 2B:以推理延迟为先的编码小模型

Kog 在 Hugging Face 开源 2.3B 参数编码模型 Laneformer 2B,提出「延迟张量并行」架构…

2026.06.29 · 周一3 分钟阅读评分 59
评分细项加权总分 59
重要性
50
新颖性
72
影响面
42
可信度
78
实质性
73

AI 初创公司 Kog 近日在 Hugging Face 平台开源了 Laneformer 2B 模型的权重与代码,这是一款 2.3B 参数的指令微调编码模型。它的核心特点是「以推理延迟为第一目标」进行架构设计,而非沿用「先刷基准、再做推理优化」的常规思路。

设计动机:把速度写进架构里

Kog 在博文中指出,在 batch-size-1 的单请求解码场景下,推理耗时并不只由算力(FLOPs)决定,大量时间被消耗在权重搬运、内核同步以及层间通信上。在多 GPU 环境中,张量并行(TP)虽然能拆分矩阵运算,但每一层都会引入设备间同步开销,延迟被一层层累加。

基于这一观察,Kog 提出:能否把这些通信开销「隐藏」起来,而不是逐层显式支付?团队给出的答案是「延迟张量并行」(Delayed Tensor Parallelism,DTP),并配合「车道结构」(lane-structured)的 Transformer 架构,让模型本身暴露出推理引擎可利用的结构,使架构与运行时协同设计成为可能。

架构选型与训练规模

DTP 方案确定后,团队刻意让其余设计选择保持保守,避免在已有一项较大改动上再叠加不相关的新颖性。最终模型规模由三类约束共同决定:

  • 足够小,能在 Kog 现有的算力预算内从头训练
  • 足够大,使编码基准测试与后训练具有实际意义
  • 兼容 DTP 与 Kog Inference Engine,追求最高推理速度

2B 级别正是这三条约束的交汇点。训练数据规模如下:

  • 预训练:约 4T tokens
  • 代码与推理类续训:约 2T tokens
  • 指令微调:约 210M tokens

基准表现

在贪心解码(greedy decoding)设置下,Laneformer 2B 取得:

  • HumanEval+:45.1%
  • MBPP+:51.6%

在同尺寸开源编码模型中处于有竞争力水平。

开源与体验入口

Kog 同步发布的内容包括:

  • 模型权重:Hugging Face 上的 kogai-laneformer-2b-it
  • 模型代码与文档
  • 技术报告(同样托管在 Hugging Face)
  • 加速版在线体验:Kog 官网 Playground(运行于其自研 Kog Inference Engine)

作为一家资源相对有限的初创公司,Kog 用 2.3B 规模模型展示了一条「小而精、软硬协同」的路径:在不依赖超大算力的前提下,通过架构与运行时的联合设计,仍能在编码任务上拿到具有竞争力的结果,也为关注低延迟推理的开发者社区提供了一个可复现的参考实现。

信源