开源 AI 原生数据库 GalaxDB 亮相,融合 PostgreSQL 协议、HNSW 向量检索、本地嵌入与版本化训练…
GalaxDB 是一款在 Hacker News 上以「Show HN」形式亮相的开源 AI 原生数据库,主打「一个二进制替代关系库、向量库、嵌入 API、对象存储与数据流水线」的设计思路。其服务端兼容 PostgreSQL 线协议,体积仅约 7.9 MB,开发者可直接复用 psycopg2、SQLAlchemy、tokio-postgres、JDBC 等既有客户端代码,也可通过 Python 嵌入式模式像 SQLite 一样使用。
GalaxDB 在标准 SQL 之上扩展了一组面向 AI 的语法原语,覆盖检索、去重、版本化与训练导出等常见场景:
SEMANTIC_MATCH(column, query, threshold):在 SQL 条件中直接进行语义相似度检索;AT VERSION 'tag':时间旅行查询,复现指定版本下的数据快照,可用于审计与可复现训练;NOT DUPLICATE:基于 MinHash LSH 的近重复去重,官方称可缩减训练集 15%–30%;CREATE VERSION TAG ... FOR TRAINING WITH TRAINING PRECISION 'float32':一键生成版本化训练快照;BULK INSERT、标准 BACKUP / RESTORE:兼容常规批量写入与备份流程。嵌入计算由项目自带的 sidecar 子进程在本地完成,使用 ONNX / Candle 加载如 sentence-transformers/all-MiniLM-L6-v2 等模型,无需调用外部 API;训练数据可直接导出为 Lance 格式,并经 lance.dataset(path).to_pytorch() 零拷贝、内存映射进入 PyTorch。
官方在 AWS c6id.4xlarge(Xeon Platinum 8375C,16 vCPU,32 GiB RAM,884 GB NVMe)上给出了发布版的实测数据:
ef_search=200 时 recall@10 达 0.990,均值延迟 459 µs,p99 延迟 616 µs;完整方法与 SIFT-1M 详细数据见 Zenodo 上的 GalaxDB 论文。
项目给出了一张覆盖 9 款产品的功能矩阵,GalaxDB 在 SQL 全量支持、本地嵌入、时间旅行、训练导出、近重复去重、嵌入式模式、PostgreSQL 线协议兼容、加密落盘(AE S-256-GCM)、MVCC、单二进制部署等 11 个维度上均勾选支持,而 PostgreSQL + pgvector、Pinecone、Qdrant、Weaviate、LanceDB、ChromaDB、Milvus、DuckDB 等均存在不同程度的缺项。需要注意该对比来自项目方自述,尚缺乏第三方独立复现。
galaxdb-server 进程负责 SQL 解析、查询规划与执行,底层由 ART 索引(点查)、HNSW 图(向量检索)、LSM 存储引擎(WAL + PAX 块)构成;嵌入侧由自动拉起的 galaxdb-sidecar 子进程承担,对外暴露 :9090 上的 /health、/metrics HTTP 端点。SEMANTIC_MATCH 过滤元数据,替代 Pinecone + OpenAI Embeddings)、ML 训练流水线(版本化导出 Lance 数据集)、混合检索(SQL 过滤与向量相似度在同一条查询内完成)、可审计 AI(AT VERSION 复现训练集,对接 EU AI Act 合规需求)。项目提供 Homebrew、curl 一键脚本与 Docker 三种安装方式(端口 5433/9090),代码托管在 GitHub 仓库 zentrix-innovative-labs/galaxdb,处于早期阶段。对于希望简化 AI 数据栈、避免在 PostgreSQL + pgvector + Pinecone + S3 + Airflow 之间手工拼装的团队,GalaxDB 提供了一个值得关注的集成路径,但其生态成熟度、生产案例与社区规模仍需时间检验。