←返回首页

开源

开发者开源 RL 工具：为 LLM 注入销售策略

开发者发布基于 PPO 的销售策略模型，通过桥接层将动作状态注入 LLM 残差流，让模型在销售对话中不再一味迎合。

2026.07.06 · 周一约 2 分钟阅读

近日，Reddit 用户 NandhaKishorM 在 r/LocalLLaMA 板块发布了一款开源强化学习（RL）工具 rl-sales-augment，目标是为大语言模型补充专业销售策略，使其在销售对话中摆脱「过于顺从、缺乏策略」的局限。

项目背景与动机

作者指出，目前主流大模型（包括 GPT-5、Opus 4.8、Gemini 3.1 Pro、Fable 5 等）在承担销售对话任务时，普遍表现「过于礼貌、始终迎合用户」，即便使用严格提示词也难以根本改变这一倾向。为弥补这一不足，作者尝试用 RL 策略为模型补充销售专业判断。

技术思路

项目的核心思路是：无需销售对话文本数据集，而是把客户状态量化为「信任度」「兴趣度」「预算匹配度」等数值，以收入（revenue）作为奖励信号，在数百万个仿真环境中训练 PPO 策略，让模型学习在何种客户状态下应执行 pitch、close、rapport 等动作。

为了让 RL 的隐层特征与动作状态影响 LLM，作者训练了一个桥接 MLP 层，将 RL 的隐藏表示映射到 LLM 的残差流中，在推理时影响最终输出。流程大致为：

第一个 LLM 实例生成包含客户状态数值（trust、interest 等）的 JSON；
RL 模型基于这些数值计算动作分布与隐藏特征；
桥接层将动作状态注入第二个 LLM 实例的残差流，由其生成最终回复。

关键参数：

客户状态维度：约 22 个数值特征；
RL 隐藏层规模：1024；
动作头数量：8（对应 pitch、close 等离散动作）。

使用方式

对开源 LLM（如 Gemma 系列）：可直接将 RL 信号注入残差流；
对闭源 API：把 RL 输出转换为系统提示词，由原模型据此生成最终回复，无需改动模型内部。

资源与现状

PyPI 包名：rl-sales-augment；
GitHub 仓库已公开；
基于一篇约一年前的 arxiv 论文（编号 2510.01237）扩展，作者表示新论文已提交 arxiv，接收后将公开链接。

项目目前仍处早期阶段，尚未公开 benchmark 数据或大规模用户验证，效果有待社区进一步检验。

关键词#强化学习 #开源 #LLM 微调 #残差流注入

信源

↗Reddit · r/LocalLLaMA

← 全部资讯回到首页 →