桃子桃子 AI 快讯
返回首页
工具

Fastllm 推理库更新:单卡 10GB 显存可跑 DeepSeek 满血模型

国产 C++ 推理库 Fastllm 更新,新增 DeepSeek-V4 支持、动态量化与 GGUF 读取能力,主打低显…

2026.06.30 · 周二4 分钟阅读评分 44
评分细项加权总分 44
重要性
42
新颖性
40
影响面
38
可信度
58
实质性
65

Fastllm 是一款用 C++ 自实现底层算子、替代 PyTorch 的高性能大模型推理库,主打「低门槛 + 低显存 + 多硬件兼容」。本次更新重点引入了 DeepSeek-V4 模型支持、通用动态量化导出,以及对部分 GGUF 格式模型的读取能力,同时把命令行体验和部署向导做了进一步打磨。

低显存与全硬件适配

Fastllm 最核心的卖点是「任意显存大于 10GB 的显卡即可单卡部署满血版 DeepSeek R1 671B 模型」,通过 CPU + GPU 混合推理实现 MOE 专家层的卸载。同时支持双路 9004/9005 服务器 + 单显卡部署 FP8 原版 DeepSeek R1 671B,单并发速度约 20 tok/s;改用 INT4 模型时单并发可达 30 tok/s 左右,最高并发超过 60 tok/s。

硬件覆盖方面,Fastllm 兼容范围较广:

  • Nvidia:从 M40、K80 到 RTX 5090 全系列
  • AMD:MI50、7900 等显卡(ROCm 6.3.3)
  • 国产卡:天数、沐曦、燧原、华为昇腾
  • NPU:支持 ThinkForce 推理

任意显卡都可启用 FP8 推理,老设备也能运行。

本次更新要点

  • 新增 DeepSeek-V4 模型支持
  • 支持导出通用动态量化模型,配合 --dtype_config 参数可灵活控制各层精度
  • 新增对部分 GGUF 模型的读取,需通过 --ori 指定源模型配置文件夹
  • 命令行部署向导(ftllm tui)支持以键盘方式新建、编辑、启动或删除部署配置

支持的模型格式包括 HuggingFace 上的 FP16/BF16、FP8、AWQ 模型,以及 Fastllm 自有格式和部分 GGUF 模型。

精度与设备参数

启动时可精细控制推理精度与设备分配:

  • --dtype:int4g、int4、int8、fp8、float16 等,用于设定整体精度
  • --moe_dtype:单独指定 MOE 层精度(如 --dtype fp8 --moe_dtype int4)
  • --device:可选 cpu、cuda、numa、multicuda,可混合 GPU+CPU 按比例拆分(--device multicuda:0:4,1:5,cpu:1)
  • --moe_device / --moe_device_layers:单独指定 MOE 层设备及层数,实现单卡 + 多 NUMA 节点混合推理

稠密模型默认 device=cuda;MOE 模型默认 device=cuda + moe_device=cpu。

安装与快速上手

安装方式较为轻量,主流平台一条 pip 命令即可:

  • Linux + Nvidia GPU:pip install ftllm -U
  • Linux + AMD GPU:先手动安装 ROCm 6.3.3,再 pip install ftllm-rocm -U
  • Windows + Nvidia GPU:先安装预编译依赖包,再 pip install ftllm -U

安装后可使用三组命令快速体验:

  • 命令行聊天:ftllm run Qwen/Qwen3-0.6B
  • WebUI:ftllm webui Qwen/Qwen3-0.6B
  • OpenAI 风格 API Server:ftllm server Qwen/Qwen3-0.6B

如需进一步调优多 NUMA、multicuda worker 线程等高级参数,可参考项目文档中的「混合推理指南」与「multicuda 调优环境变量」章节。

信源