桃子桃子快讯
返回首页
研究论文

ELDR:面向 PD 分离 MoE 推理的专家局部性感知路由

vLLM 团队提出 ELDR 解码路由器,通过专家签名与局部性感知路由,在 PD 分离 MoE 推理中将 TPOT 降低…

2026.07.03 · 周五3 分钟阅读

在预填充—解码(Prefill-Decode,PD)分离的大模型推理架构中,每个请求在完成预填充后会被分配到某个解码工作节点继续生成。传统的解码路由器通常只关注负载均衡,但对于混合专家(Mixture-of-Experts,MoE)模型而言,这种做法并不完整:即便各工作节点的整体负载相近,由于每次解码步加载的专家组合不同,其实际延迟也可能出现明显差异。论文 ELDR(Expert-Locality-Aware Decode Routing)正是围绕这一问题提出改进。

核心思路:专家签名 + 局部性感知路由

ELDR 的关键设计在于让路由器「预判」一个请求在解码阶段会激活哪些专家,并据此选择最合适的工作节点。具体包含两个阶段:

  • 离线阶段:利用请求在预填充阶段的专家激活分布,构建一个「专家签名(expert signature)」来刻画其后续生成过程中的专家使用模式;再通过均衡的 K-means 算法将签名空间划分到各个解码工作节点上,使每个节点负责一类相近的专家激活模式。
  • 在线阶段:采用「局部性带(locality-band)」路由,将每个请求送往签名最匹配且负载最低的工作节点。

为保证在启用前缀缓存(prefix caching)的场景下签名依然精确,ELDR 还维护了一个与 KV cache 以 KV 块粒度共同索引的签名缓存,避免因前缀复用导致签名漂移。

实现与实验效果

ELDR 已集成进主流推理引擎 vLLM,并在最多 40 张 GPU 的部署规模上进行了评测。实验中对比了四种负载均衡基线,覆盖三种 MoE 模型与两类工作负载,主要结论包括:

  • 中位 TPOT(Time Per Output Token)较最强基线降低 5.9%–13.9%
  • 模型输出内容与基线完全一致,不影响生成质量;
  • 在启用前缀缓存时签名缓存机制可保证路由决策的准确性。

意义与适用范围

随着 Mixtral、DeepSeek 等 MoE 架构模型被广泛部署,推理阶段的专家调度与负载均衡成为影响服务成本和延迟的关键因素。ELDR 从「专家激活模式相似性」这一新维度切入,为 PD 分离架构下的解码调度提供了一种可落地的优化路径。其与 vLLM 的深度集成也意味着相关改进有机会直接服务于生产环境的 MoE 推理部署。

论文已在 arXiv 发布(编号 2607.00466),感兴趣的读者可查阅完整论文获取更多实验细节与消融分析。

信源