Gnosys 案例:在标签稀缺时优化安全分类器
Gnosys Labs 在 ToxicChat 基准上对比自家方法与 GEPA,在仅约 200 条验证标签的稀疏场景下取…
一家名为 Gnosys Labs 的团队发布案例研究,介绍其「自主模型工程」方法 Gnosys 在标签极度稀疏的安全分类任务中的表现。该方法在公开的 ToxicChat 基准上与主流提示词优化器 GEPA 进行对比,两轮测试中均以相同的底层优化器为基础,仅优化目标函数工程方式不同。实验在 5% 固定误报率下比较「抓到的有害内容占比」这一指标,结果显示 Gnosys 在两轮中均优于起始分类器与 GEPA。
核心问题:标签稀缺
研究团队指出,在内容审核、欺诈检测、理赔复核、风险评分等高风险场景中,团队往往只能拿到少量人工标注的「真值」,却需要在大量未标注数据上做决策。研究中描述的实验场景仅包含约 200 条已验证标签,其中真正有害样本只有 8 条,而未标注消息达数千条。在这种信号极弱的条件下,优化器容易拟合噪声而非真实模式,最终方向取决于碰巧拿到的那一小撮标签。
与 GEPA 的方法差异
GEPA 的作用是改进任何被给予的评估信号,这本身就是其设计目标。Gnosys 在其基础上更进一步:当可用信号不足以直接信赖时,会先判断其可信度,再把小型验证集与大型未标注池融合为一个经过校准的质量估计,并附带分片(slice)校准与显式的可信度检查。一旦信号被认为可用,便针对该目标改写提示词与分类器。团队强调,提示词优化只是整个工程循环中的一个步骤,Gnosys 试图自动化的是整个工程链路。
实验结果
在 5% 固定误报率下,团队报告两轮实验的有害召回率:
- 首轮(3,000 条消息):Gnosys 达到 0.777,起始分类器 0.731,GEPA 0.702。
- 此前一轮(1,000 条消息):Gnosys 0.909,起始分类器 0.788,GEPA 0.848。
在首轮中,GEPA 不仅落后于 Gnosys,甚至低于起始分类器;这正是稀疏标签下优化最棘手之处:有时有用,有时有害,没有可靠度量就无法判断究竟发生了什么。
切片级证据
为避免单一聚合指标掩盖局部退化,研究公开了全部切片的对比数据(首轮 Gnosys vs. GEPA):
按消息长度分:
- 短消息(< 约 80 字符,81 条有害样本):-18.5 个百分点。
- 中等长度(51 条):+21.6 个百分点。
- 长/多轮消息(≥ 200 字符,106 条):+20.8 个百分点。
按有害内容类别分:
- 暴力相关(21 条):+23.8 个百分点。
- 越狱尝试(49 条,经独立核验):+8.2 个百分点。
- 性相关内容(63 条):-7.9 个百分点。
团队解释称,提升集中在需要更多推理才能判断的内容上——暴力意图、刻意越狱、较长多轮消息;而短消息的「下降」并非模型排序变差,而是聚合最优阈值在固定误报预算下把报警预算集中到有害密度更高的长消息上;若对每段单独设预算,短消息召回率可升至约 0.90,但聚合指标会从 0.78 降到 0.71。性相关内容切片则是真实短板,在 77 条样本中只有 63 条有害,本地化阈值也无法挽回。仇恨言论与编程相关切片因样本过少被排除。
局限与适用范围
研究团队明确承认部分切片存在退化,并将其视为后续优化的方向,也认为是系统在被部署前应主动暴露的失败模式。该方法并非专为安全场景设计,团队认为在欺诈检测、理赔、合规审查、信用与风险评分、客服路由与推荐等同样面临「真值稀缺、昂贵或延迟」问题的领域,思路可以迁移:工程化一个可信目标、据此改进模型、验证结果、循环迭代——这正是其系统试图自动化的过程。
需要指出的是,本次对比由 Gnosys Labs 自行设计并发布,方法论与代码并未独立同行评审;读者在引用其结果时应注意这一背景。
