开源
Clark Labs 发布 Sana 1.6B 三值量化版,体积压缩至 374 MB
Clark Labs 将 Sana 1.6B 文本生成图像模型权重三值化,实测约 1.85 bit/参数,打包后仅 37…
2026.06.28 · 周日约 2 分钟阅读评分 50
评分细项加权总分 50
- 重要性
- 50
- 新颖性
- 52
- 影响面
- 45
- 可信度
- 55
- 实质性
- 52
Clark Labs 在 Hugging Face 发布 clark-air-sana-1.6b-1.58bit 模型仓库,对 Sana 1.6B(512px)文本生成图像 transformer 进行了三值化(ternary)压缩,并采用 group-wise 缩放因子。打包后的权重文件体积仅 374 MB,约为 FP16 原始体积 3.21 GB 的 12%,对应实测约 1.85 bit/参数,整体压缩比达到 8.6×,官方描述其质量接近 FP16。
核心规格
- 基础模型:Sana 1.6B,512px 文本生成图像 transformer
- 量化方案:ternary(三值)+ group-wise scales
- 精度保留:约 5% 参数(conditioning 与 projection 层)保持较高精度
- 许可证:Apache-2.0
体积与文件
仓库提供两种权重形态:
- clark-air-sana-1.6b-packed.safetensors:374 MB,打包的三值权重,用于低资源部署
- transformer/ 目录下的 bf16 dequantized 权重:3.21 GB,与 diffusers 中原始 Sana 1.6B transformer 体积一致,可作为 drop-in replacement 直接替换使用
两种文件分别对应「极致压缩」与「即插即用」两种使用场景,前者适合显存或存储受限的本地推理环境,后者便于在已有 diffusers 流程中直接验证效果。
使用方式
若已在 diffusers 中跑通 Sana 1.6B,可直接用仓库内解包版本的 transformer 权重替换原模型,无需改动其他代码;若希望进一步减小部署体积,则使用 packed 三值权重自行在推理端反量化。
注意事项
官方仅以「near-FP16 quality」描述画质表现,未在仓库中公开 FID、IS 或人工评估等定量对比数据。实际生成质量受 prompt 与解码流程影响,社区用户需自行对比测试,以判断压缩带来的视觉损失是否在可接受范围内。1.58bit 这一数字源于理论三元编码 log2(3) ≈ 1.585,不含 group-wise 缩放因子与精度保留部分的额外开销,因此实测值高于理论值。
