SupraLabs 发布 1800 万参数内容安全模型 SupraSafety-18M

SupraLabs 在 Hugging Face 上发布了一款面向内容安全场景的小型文本分类模型 SupraSafety-18M，参数量仅 1800 万，针对边缘设备、移动端以及低延迟生产环境设计，可在算力受限的条件下完成基础的「安全/不安全」二分类审核。

模型概览

SupraSafety-18M 是一款 BERT 架构的轻量级编码器，从零开始训练，参数规模 18M，仅包含二分类输出层，类别标签为 SAFE 与 UNSAFE。模型权重已在 Hugging Face 开源，开发者可直接下载并集成到本地推理链路中，适合作为内容审核流水线的前置过滤层。

SupraLabs 公布的最终指标为：准确率 81.2%，精确率 86.9%。官方还展示了若干示例输入的预测置信度：

从示例看，模型对明显的危险请求识别置信度较高，但对「如何烤蛋糕」等无害问题的置信度相对一般，提示其在细粒度语境理解上仍有提升空间。

SupraSafety-18M 主打边缘部署与低延迟审核，可在手机、IoT 设备或本地服务中作为内容过滤模块使用。模型权重与作者主页链接均已在 Hugging Face 公开，社区可直接进行测试与反馈。