开源
Reddit 开发者推出 800M 本地实时图像驱动角色模型
Reddit 用户 lucidml_lover 发布 800M 参数量版本,可在消费级 GPU 上实时将图像转为可控角色…
2026.06.29 · 周一约 2 分钟阅读评分 28
评分细项加权总分 28
- 重要性
- 22
- 新颖性
- 40
- 影响面
- 18
- 可信度
- 30
- 实质性
- 40
Reddit 用户 lucidml_lover 在 r/LocalLLaMA 发布了其「图像转可控角色」项目的 800M 参数量版本,宣称可在消费级 GPU 上实时运行。这是其此前 500M 模型的续作,目标是在本地把一张图片变成可在游戏中操控的角色。
模型规格与运行表现
新版本参数量为 800M,延续此前的整体架构,作者主要加宽了 MLP。上下文长度由上一版的 8 个潜空间帧(latent frame)提升至 12 个。作者表示,RTX 5090 上 500M 模型已可跑到 60 fps 以上,800M 版本在消费级显卡上仍可舒适运行。
因果扩散:把 KV 缓存当作帧记忆
作者在文中解释了其核心思路——「因果扩散」(causal diffusion),将大语言模型中常见的 KV 缓存机制与扩散模型的去噪过程结合:
- LLM 每轮前向只采样一个 token 并写入 KV 缓存,KV 缓存即为「上下文」所在。
- 扩散模型则基于引导(guidance)工作:输入噪声,模型做一轮去噪。
- 在作者的方案中,每一帧都执行一次去噪循环,再将结果写入 KV 缓存,使其成为「所有过去帧的存储」。
- 由于仅训练到约 20–30 个潜空间帧(经预训练 VAE 压缩后对应约 80–120 个像素帧),推理时必须在 KV 缓存上使用滑动窗口,淘汰中间不再需要的帧,让模型始终处于其训练过的上下文长度内。
当前进展与待解决问题
- 去噪器从头训练,采用 diffusion forcing 方式。
- 相比上一版,「奇怪的闪烁」基本消失,稳定性明显改善。
- 但一致性仍较差,作者称将在下一版本中继续改进。
- 模型的更多演示与尝试发布在作者自建子版块 r/lucidmlx。
该项目目前仍处于个人实验阶段,未发布正式论文或开源仓库链接,相关性能与质量数据均来自作者本人的 Reddit 描述,尚缺乏独立验证。
