role-model：本地与云端模型的混合路由协议

role-model 是一个本周在 Hacker News 上以 Show HN 形式发布的开源项目，目标是在本地大模型与云端 API 之间建立一套统一的请求路由协议和参考运行时，并通过配套的 Pi 扩展提供更丰富的路由元数据。

项目组成

该项目由三个相互衔接的部分组成：一套路由协议、一个参考运行时，以及一个面向 Pi 编程代理的扩展包。协议层定义了如何为模型分配「领域（domain）」与「角色（role）」，并允许消费端应用在请求中附带任务类型等元数据，从而提升路由决策的准确度。运行时默认是确定性的，但在策略无法给出明确答案时会回退到一台 controller model 继续判断。

路由策略与本地支持

运行时支持两类本地后端：既可以直接对接 LM Studio、llama.cpp 等本地推理端点，也可以通过内置的 llama-swap 在多台本地模型之间做切换。项目自带一个本地可跑的基准测试，可以从速度、质量、成本以及真实任务上的表现等维度横向对比模型池中的候选。

作者总结的四点经验

作者结合构建与测试过程，分享了对模型路由的四点观察：

路由的本质是预测未来：核心在于预判哪台模型会在当前请求上取得用户所定义的最优平衡。
路由之后需要回溯评估：判断当时的决定是否正确、是否本可换用其它模型拿到更好结果；为此项目后续将发布本地可运行的 evals，让用户在相同请求上对模型池做基准测试，并把结果反哺路由决策。
让路由器自行评估难度并不可靠：更好的做法是让消费端应用配合路由器来描述请求需求，例如在 Pi 中通过 role_model.intent 元数据声明难度、偏好角色、所需能力（工具调用、图像输入等）。
候选模型之间差异足够显著时路由才有价值：在两个同等水平的「前沿模型」之间切换意义有限，真正的价值来自成本、速度、质量呈倍数级差距的模型组合，以及代码、写作、数学、视觉等专用领域模型的市场。

定位与下一步

作者强调，role-model 当前仍是参考实现，仍有不少工作要做，包括更细粒度的路由控制、跨模型缓存优化、以及类似 FastContext 的上下文压缩技术等。项目的最终愿景是形成一套被消费端应用广泛采用的推理请求标准协议，使得路由中间件或推理服务商都能根据用户在成本、速度、质量之间的偏好进行调度，并在本地与云端之间自由混用。

GitHub：https://github.com/try-works/role-model
文档：https://role-model.dev/
设计说明：https://try.works/role-model-the-case-for-a-model-routing-pr...