Fastllm 推理库更新：单卡 10GB 显存可跑 DeepSeek 满血模型

Fastllm 是一款用 C++ 自实现底层算子、替代 PyTorch 的高性能大模型推理库，主打「低门槛 + 低显存 + 多硬件兼容」。本次更新重点引入了 DeepSeek-V4 模型支持、通用动态量化导出，以及对部分 GGUF 格式模型的读取能力，同时把命令行体验和部署向导做了进一步打磨。

低显存与全硬件适配

Fastllm 最核心的卖点是「任意显存大于 10GB 的显卡即可单卡部署满血版 DeepSeek R1 671B 模型」，通过 CPU + GPU 混合推理实现 MOE 专家层的卸载。同时支持双路 9004/9005 服务器 + 单显卡部署 FP8 原版 DeepSeek R1 671B，单并发速度约 20 tok/s；改用 INT4 模型时单并发可达 30 tok/s 左右，最高并发超过 60 tok/s。

硬件覆盖方面，Fastllm 兼容范围较广：

Nvidia：从 M40、K80 到 RTX 5090 全系列
AMD：MI50、7900 等显卡（ROCm 6.3.3）
国产卡：天数、沐曦、燧原、华为昇腾
NPU：支持 ThinkForce 推理

任意显卡都可启用 FP8 推理，老设备也能运行。

本次更新要点

新增 DeepSeek-V4 模型支持
支持导出通用动态量化模型，配合 --dtype_config 参数可灵活控制各层精度
新增对部分 GGUF 模型的读取，需通过 --ori 指定源模型配置文件夹
命令行部署向导（ftllm tui）支持以键盘方式新建、编辑、启动或删除部署配置

支持的模型格式包括 HuggingFace 上的 FP16/BF16、FP8、AWQ 模型，以及 Fastllm 自有格式和部分 GGUF 模型。

精度与设备参数

启动时可精细控制推理精度与设备分配：

--dtype：int4g、int4、int8、fp8、float16 等，用于设定整体精度
--moe_dtype：单独指定 MOE 层精度（如 --dtype fp8 --moe_dtype int4）
--device：可选 cpu、cuda、numa、multicuda，可混合 GPU+CPU 按比例拆分（--device multicuda:0:4,1:5,cpu:1）
--moe_device / --moe_device_layers：单独指定 MOE 层设备及层数，实现单卡 + 多 NUMA 节点混合推理

稠密模型默认 device=cuda；MOE 模型默认 device=cuda + moe_device=cpu。

安装与快速上手

安装方式较为轻量，主流平台一条 pip 命令即可：

Linux + Nvidia GPU：pip install ftllm -U
Linux + AMD GPU：先手动安装 ROCm 6.3.3，再 pip install ftllm-rocm -U
Windows + Nvidia GPU：先安装预编译依赖包，再 pip install ftllm -U

安装后可使用三组命令快速体验：

命令行聊天：ftllm run Qwen/Qwen3-0.6B
WebUI：ftllm webui Qwen/Qwen3-0.6B
OpenAI 风格 API Server：ftllm server Qwen/Qwen3-0.6B

如需进一步调优多 NUMA、multicuda worker 线程等高级参数，可参考项目文档中的「混合推理指南」与「multicuda 调优环境变量」章节。