桃子 AI 快讯

←返回首页

开源

Reddit 开发者推出 800M 本地实时图像驱动角色模型

Reddit 用户 lucidml_lover 发布 800M 参数量版本，可在消费级 GPU 上实时将图像转为可控角色…

2026.06.29 · 周一约 2 分钟阅读评分 28

评分细项加权总分 28

重要性: 22
新颖性: 40
影响面: 18
可信度: 30
实质性: 40

Reddit 用户 lucidml_lover 在 r/LocalLLaMA 发布了其「图像转可控角色」项目的 800M 参数量版本，宣称可在消费级 GPU 上实时运行。这是其此前 500M 模型的续作，目标是在本地把一张图片变成可在游戏中操控的角色。

模型规格与运行表现

新版本参数量为 800M，延续此前的整体架构，作者主要加宽了 MLP。上下文长度由上一版的 8 个潜空间帧（latent frame）提升至 12 个。作者表示，RTX 5090 上 500M 模型已可跑到 60 fps 以上，800M 版本在消费级显卡上仍可舒适运行。

因果扩散：把 KV 缓存当作帧记忆

作者在文中解释了其核心思路——「因果扩散」（causal diffusion），将大语言模型中常见的 KV 缓存机制与扩散模型的去噪过程结合：

LLM 每轮前向只采样一个 token 并写入 KV 缓存，KV 缓存即为「上下文」所在。
扩散模型则基于引导（guidance）工作：输入噪声，模型做一轮去噪。
在作者的方案中，每一帧都执行一次去噪循环，再将结果写入 KV 缓存，使其成为「所有过去帧的存储」。
由于仅训练到约 20–30 个潜空间帧（经预训练 VAE 压缩后对应约 80–120 个像素帧），推理时必须在 KV 缓存上使用滑动窗口，淘汰中间不再需要的帧，让模型始终处于其训练过的上下文长度内。

当前进展与待解决问题

去噪器从头训练，采用 diffusion forcing 方式。
相比上一版，「奇怪的闪烁」基本消失，稳定性明显改善。
但一致性仍较差，作者称将在下一版本中继续改进。
模型的更多演示与尝试发布在作者自建子版块 r/lucidmlx。

该项目目前仍处于个人实验阶段，未发布正式论文或开源仓库链接，相关性能与质量数据均来自作者本人的 Reddit 描述，尚缺乏独立验证。

关键词#扩散模型 #实时推理 #消费级 GPU #开源项目

信源

↗Reddit · r/LocalLLaMA

← 全部资讯回到首页 →