llmaker：一键自托管 LLM 全栈的开源工具

在 Hacker News 的 Show HN 板块，开发者 raiyanyahya 正式开源了一款名为 llmaker 的命令行工具，目标是把「本地运行一个大模型」变成「本地运行一个完整的大模型应用」。与传统 Ollama、LM Studio 仅提供模型推理不同，llmaker 把向量数据库、嵌入服务、缓存、编排与可观测性打包成一条命令，让开发者不再为 docker run 参数和 Compose 文件所困。

工具定位：一栈式声明式部署

llmaker 用 Go 编写，产物为单一静态二进制。其核心抽象是「stack（栈）」：用户在 stack.yaml 中声明所需的模型与服务，llmaker apply 会按依赖顺序将其部署到一个私有 Docker 网络，每个容器通过服务名互相发现，无需手动绑定 IP，也无需手写 Compose。配合 --prune 参数，工具可以删除未声明的资源，实现声明式与可调和（reconcilable）的部署流程。

按照作者描述，这种设计借鉴了 Kubernetes 的控制器循环思路，把「期望状态」与「实际状态」持续对齐，避免多容器配置随时间漂移的问题。

核心能力：模型之外的「应用层」

llmaker 内置了多个可直接使用的栈模板，包括 assistant（ChatGPT 风格 UI）、rag（检索增强生成）、voice（语音）、research、code、chatbot、faq、recommend 与 sql，覆盖了当下大多数本地大模型应用场景。其技术实现的关键模块包括：

检索与工具 Agent：基于 FastAPI + LangGraph 构建，覆盖「重写 → 检索 → 重排 → 生成」的多轮流程，支持 MMR、工具调用循环（计算器、知识库、自托管网页搜索、SQL），并提供语义推荐接口。
可观测性开箱即用：每个实例都暴露 Prometheus /metrics 端点；RAG 栈默认集成 Langfuse，自动记录检索命中、评分、模型与 token 用量。
评估接口：/api/eval 提供以 LLM 作为裁判的评估流水线，可对答案的「有据性、相关性、正确性」打分，便于跟踪检索质量的演进。
兼容 OpenAI API：模型端点遵循 /v1/* 规范（聊天、续写、嵌入、流式输出），目前由 Ollama 提供后端，llama.cpp 后端正在开发中。
隐私默认：容器默认绑定 127.0.0.1，文档、嵌入与追踪数据不离开本机。

服务目录支持 Qdrant、Chroma、pgvector、Weaviate、Redis、Open WebUI、n8n、Flowise、Whisper、Langfuse 等主流组件，用户也可通过 llmaker service add 按需扩展。

与既有方案的对比

作者在原帖中给出了一张对比表，呈现 llmaker 与「模型运行器（Ollama、LM Studio）」「Docker Compose DIY」「LangChain 框架」的差异：

模型运行器：仅提供 OpenAI 兼容的本地推理，不含向量库、服务发现、应用栈。
Docker Compose：可手动组合，但服务发现、声明式调和、应用模板均需自行维护。
LangChain：提供框架，但具体的服务编排、检索质量评估仍需用户编码。
llmaker：覆盖上述空白，提供「模型 + 基础设施 + 应用」的一栈式体验。

表格显示，llmaker 在「一键应用」「内建检索 Agent」「声明式调和」三项上具有差异化能力，其余项目则需要用户自行配置或编码。

安装与现状

llmaker 需要 Docker 环境，安装方式有两种：

预编译二进制（Linux / macOS）：curl -fsSL https://raw.githubusercontent.com/raiyanyahya/llmaker/master/scripts/install.sh | sh
Go 工具链：go install github.com/raiyanyahya/llmaker/cmd/llmaker@latest

安装完成后建议运行 llmaker doctor 校验环境。常见使用流程包括：llmaker up --model llama3:8b 启动模型、llmaker stack init rag 生成 RAG 模板、llmaker apply 应用栈、llmaker top 查看实时资源面板等。

作为个人开发者的早期开源项目，llmaker 暂未公开性能基准、生产级案例或第三方背书，目前更像是面向个人开发者与小团队的自托管脚手架。对于希望绕过云端 API、按需在本地或私有服务器上搭建完整大模型应用的工程师而言，它提供了一个值得尝试的整合方案。

工具定位：一栈式声明式部署

按照作者描述，这种设计借鉴了 Kubernetes 的控制器循环思路，把「期望状态」与「实际状态」持续对齐，避免多容器配置随时间漂移的问题。

核心能力：模型之外的「应用层」

检索与工具 Agent：基于 FastAPI + LangGraph 构建，覆盖「重写 → 检索 → 重排 → 生成」的多轮流程，支持 MMR、工具调用循环（计算器、知识库、自托管网页搜索、SQL），并提供语义推荐接口。

可观测性开箱即用：每个实例都暴露 Prometheus /metrics 端点；RAG 栈默认集成 Langfuse，自动记录检索命中、评分、模型与 token 用量。

评估接口：/api/eval 提供以 LLM 作为裁判的评估流水线，可对答案的「有据性、相关性、正确性」打分，便于跟踪检索质量的演进。

兼容 OpenAI API：模型端点遵循 /v1/* 规范（聊天、续写、嵌入、流式输出），目前由 Ollama 提供后端，llama.cpp 后端正在开发中。

隐私默认：容器默认绑定 127.0.0.1，文档、嵌入与追踪数据不离开本机。

服务目录支持 Qdrant、Chroma、pgvector、Weaviate、Redis、Open WebUI、n8n、Flowise、Whisper、Langfuse 等主流组件，用户也可通过 llmaker service add 按需扩展。

与既有方案的对比

作者在原帖中给出了一张对比表，呈现 llmaker 与「模型运行器（Ollama、LM Studio）」「Docker Compose DIY」「LangChain 框架」的差异：

模型运行器：仅提供 OpenAI 兼容的本地推理，不含向量库、服务发现、应用栈。

Docker Compose：可手动组合，但服务发现、声明式调和、应用模板均需自行维护。

LangChain：提供框架，但具体的服务编排、检索质量评估仍需用户编码。

llmaker：覆盖上述空白，提供「模型 + 基础设施 + 应用」的一栈式体验。

表格显示，llmaker 在「一键应用」「内建检索 Agent」「声明式调和」三项上具有差异化能力，其余项目则需要用户自行配置或编码。

安装与现状

llmaker 需要 Docker 环境，安装方式有两种：

预编译二进制（Linux / macOS）：curl -fsSL https://raw.githubusercontent.com/raiyanyahya/llmaker/master/scripts/install.sh | sh

Go 工具链：go install github.com/raiyanyahya/llmaker/cmd/llmaker@latest