桃子桃子 AI 快讯
返回首页
开源

Reddit 开发者推出 800M 本地实时图像驱动角色模型

Reddit 用户 lucidml_lover 发布 800M 参数量版本,可在消费级 GPU 上实时将图像转为可控角色…

2026.06.29 · 周一2 分钟阅读评分 28
评分细项加权总分 28
重要性
22
新颖性
40
影响面
18
可信度
30
实质性
40

Reddit 用户 lucidml_lover 在 r/LocalLLaMA 发布了其「图像转可控角色」项目的 800M 参数量版本,宣称可在消费级 GPU 上实时运行。这是其此前 500M 模型的续作,目标是在本地把一张图片变成可在游戏中操控的角色。

模型规格与运行表现

新版本参数量为 800M,延续此前的整体架构,作者主要加宽了 MLP。上下文长度由上一版的 8 个潜空间帧(latent frame)提升至 12 个。作者表示,RTX 5090 上 500M 模型已可跑到 60 fps 以上,800M 版本在消费级显卡上仍可舒适运行。

因果扩散:把 KV 缓存当作帧记忆

作者在文中解释了其核心思路——「因果扩散」(causal diffusion),将大语言模型中常见的 KV 缓存机制与扩散模型的去噪过程结合:

  • LLM 每轮前向只采样一个 token 并写入 KV 缓存,KV 缓存即为「上下文」所在。
  • 扩散模型则基于引导(guidance)工作:输入噪声,模型做一轮去噪。
  • 在作者的方案中,每一帧都执行一次去噪循环,再将结果写入 KV 缓存,使其成为「所有过去帧的存储」。
  • 由于仅训练到约 20–30 个潜空间帧(经预训练 VAE 压缩后对应约 80–120 个像素帧),推理时必须在 KV 缓存上使用滑动窗口,淘汰中间不再需要的帧,让模型始终处于其训练过的上下文长度内。

当前进展与待解决问题

  • 去噪器从头训练,采用 diffusion forcing 方式。
  • 相比上一版,「奇怪的闪烁」基本消失,稳定性明显改善。
  • 但一致性仍较差,作者称将在下一版本中继续改进。
  • 模型的更多演示与尝试发布在作者自建子版块 r/lucidmlx。

该项目目前仍处于个人实验阶段,未发布正式论文或开源仓库链接,相关性能与质量数据均来自作者本人的 Reddit 描述,尚缺乏独立验证。

信源