工具
Fastllm 推理库更新:单卡 10GB 显存可跑 DeepSeek 满血模型
国产 C++ 推理库 Fastllm 更新,新增 DeepSeek-V4 支持、动态量化与 GGUF 读取能力,主打低显…
2026.06.30 · 周二约 4 分钟阅读评分 44
评分细项加权总分 44
- 重要性
- 42
- 新颖性
- 40
- 影响面
- 38
- 可信度
- 58
- 实质性
- 65
Fastllm 是一款用 C++ 自实现底层算子、替代 PyTorch 的高性能大模型推理库,主打「低门槛 + 低显存 + 多硬件兼容」。本次更新重点引入了 DeepSeek-V4 模型支持、通用动态量化导出,以及对部分 GGUF 格式模型的读取能力,同时把命令行体验和部署向导做了进一步打磨。
低显存与全硬件适配
Fastllm 最核心的卖点是「任意显存大于 10GB 的显卡即可单卡部署满血版 DeepSeek R1 671B 模型」,通过 CPU + GPU 混合推理实现 MOE 专家层的卸载。同时支持双路 9004/9005 服务器 + 单显卡部署 FP8 原版 DeepSeek R1 671B,单并发速度约 20 tok/s;改用 INT4 模型时单并发可达 30 tok/s 左右,最高并发超过 60 tok/s。
硬件覆盖方面,Fastllm 兼容范围较广:
- Nvidia:从 M40、K80 到 RTX 5090 全系列
- AMD:MI50、7900 等显卡(ROCm 6.3.3)
- 国产卡:天数、沐曦、燧原、华为昇腾
- NPU:支持 ThinkForce 推理
任意显卡都可启用 FP8 推理,老设备也能运行。
本次更新要点
- 新增 DeepSeek-V4 模型支持
- 支持导出通用动态量化模型,配合 --dtype_config 参数可灵活控制各层精度
- 新增对部分 GGUF 模型的读取,需通过 --ori 指定源模型配置文件夹
- 命令行部署向导(ftllm tui)支持以键盘方式新建、编辑、启动或删除部署配置
支持的模型格式包括 HuggingFace 上的 FP16/BF16、FP8、AWQ 模型,以及 Fastllm 自有格式和部分 GGUF 模型。
精度与设备参数
启动时可精细控制推理精度与设备分配:
- --dtype:int4g、int4、int8、fp8、float16 等,用于设定整体精度
- --moe_dtype:单独指定 MOE 层精度(如 --dtype fp8 --moe_dtype int4)
- --device:可选 cpu、cuda、numa、multicuda,可混合 GPU+CPU 按比例拆分(--device multicuda:0:4,1:5,cpu:1)
- --moe_device / --moe_device_layers:单独指定 MOE 层设备及层数,实现单卡 + 多 NUMA 节点混合推理
稠密模型默认 device=cuda;MOE 模型默认 device=cuda + moe_device=cpu。
安装与快速上手
安装方式较为轻量,主流平台一条 pip 命令即可:
- Linux + Nvidia GPU:pip install ftllm -U
- Linux + AMD GPU:先手动安装 ROCm 6.3.3,再 pip install ftllm-rocm -U
- Windows + Nvidia GPU:先安装预编译依赖包,再 pip install ftllm -U
安装后可使用三组命令快速体验:
- 命令行聊天:ftllm run Qwen/Qwen3-0.6B
- WebUI:ftllm webui Qwen/Qwen3-0.6B
- OpenAI 风格 API Server:ftllm server Qwen/Qwen3-0.6B
如需进一步调优多 NUMA、multicuda worker 线程等高级参数,可参考项目文档中的「混合推理指南」与「multicuda 调优环境变量」章节。
