GalaxDB：集成 SQL、向量检索与训练数据导出的开源 AI 原生数据库

GalaxDB 是一款在 Hacker News 上以「Show HN」形式亮相的开源 AI 原生数据库，主打「一个二进制替代关系库、向量库、嵌入 API、对象存储与数据流水线」的设计思路。其服务端兼容 PostgreSQL 线协议，体积仅约 7.9 MB，开发者可直接复用 psycopg2、SQLAlchemy、tokio-postgres、JDBC 等既有客户端代码，也可通过 Python 嵌入式模式像 SQLite 一样使用。

核心特性：AI 原生 SQL 扩展

GalaxDB 在标准 SQL 之上扩展了一组面向 AI 的语法原语，覆盖检索、去重、版本化与训练导出等常见场景：

SEMANTIC_MATCH(column, query, threshold)：在 SQL 条件中直接进行语义相似度检索；
AT VERSION 'tag'：时间旅行查询，复现指定版本下的数据快照，可用于审计与可复现训练；
NOT DUPLICATE：基于 MinHash LSH 的近重复去重，官方称可缩减训练集 15%–30%；
CREATE VERSION TAG ... FOR TRAINING WITH TRAINING PRECISION 'float32'：一键生成版本化训练快照；
BULK INSERT、标准 BACKUP / RESTORE：兼容常规批量写入与备份流程。

嵌入计算由项目自带的 sidecar 子进程在本地完成，使用 ONNX / Candle 加载如 sentence-transformers/all-MiniLM-L6-v2 等模型，无需调用外部 API；训练数据可直接导出为 Lance 格式，并经 lance.dataset(path).to_pytorch() 零拷贝、内存映射进入 PyTorch。

性能基准

官方在 AWS c6id.4xlarge（Xeon Platinum 8375C，16 vCPU，32 GiB RAM，884 GB NVMe）上给出了发布版的实测数据：

HNSW 向量检索（SIFT-1M）：ef_search=200 时 recall@10 达 0.990，均值延迟 459 µs，p99 延迟 616 µs；
存储引擎写吞吐：258,555 TPS，对照 PostgreSQL 16 约 3,200 TPS、RocksDB 约 80,000 TPS；
读延迟：p50 约 3 µs、p99 约 47 µs，扫描吞吐 4.49 GB/s；
项目测试套件：740 个 Rust 测试通过，7 个混沌场景在 10.9 秒内完成。

完整方法与 SIFT-1M 详细数据见 Zenodo 上的 GalaxDB 论文。

与主流向量/分析数据库的横向对比

项目给出了一张覆盖 9 款产品的功能矩阵，GalaxDB 在 SQL 全量支持、本地嵌入、时间旅行、训练导出、近重复去重、嵌入式模式、PostgreSQL 线协议兼容、加密落盘（AE S-256-GCM）、MVCC、单二进制部署等 11 个维度上均勾选支持，而 PostgreSQL + pgvector、Pinecone、Qdrant、Weaviate、LanceDB、ChromaDB、Milvus、DuckDB 等均存在不同程度的缺项。需要注意该对比来自项目方自述，尚缺乏第三方独立复现。

架构与典型用法

架构：单一 galaxdb-server 进程负责 SQL 解析、查询规划与执行，底层由 ART 索引（点查）、HNSW 图（向量检索）、LSM 存储引擎（WAL + PAX 块）构成；嵌入侧由自动拉起的 galaxdb-sidecar 子进程承担，对外暴露 :9090 上的 /health、/metrics HTTP 端点。
典型场景：RAG 应用（本地嵌入 + SEMANTIC_MATCH 过滤元数据，替代 Pinecone + OpenAI Embeddings）、ML 训练流水线（版本化导出 Lance 数据集）、混合检索（SQL 过滤与向量相似度在同一条查询内完成）、可审计 AI（AT VERSION 复现训练集，对接 EU AI Act 合规需求）。

项目提供 Homebrew、curl 一键脚本与 Docker 三种安装方式（端口 5433/9090），代码托管在 GitHub 仓库 zentrix-innovative-labs/galaxdb，处于早期阶段。对于希望简化 AI 数据栈、避免在 PostgreSQL + pgvector + Pinecone + S3 + Airflow 之间手工拼装的团队，GalaxDB 提供了一个值得关注的集成路径，但其生态成熟度、生产案例与社区规模仍需时间检验。

核心特性：AI 原生 SQL 扩展

GalaxDB 在标准 SQL 之上扩展了一组面向 AI 的语法原语，覆盖检索、去重、版本化与训练导出等常见场景：

SEMANTIC_MATCH(column, query, threshold)：在 SQL 条件中直接进行语义相似度检索；

AT VERSION 'tag'：时间旅行查询，复现指定版本下的数据快照，可用于审计与可复现训练；

NOT DUPLICATE：基于 MinHash LSH 的近重复去重，官方称可缩减训练集 15%–30%；

CREATE VERSION TAG ... FOR TRAINING WITH TRAINING PRECISION 'float32'：一键生成版本化训练快照；

BULK INSERT、标准 BACKUP / RESTORE：兼容常规批量写入与备份流程。

性能基准

官方在 AWS c6id.4xlarge（Xeon Platinum 8375C，16 vCPU，32 GiB RAM，884 GB NVMe）上给出了发布版的实测数据：

HNSW 向量检索（SIFT-1M）：ef_search=200 时 recall@10 达 0.990，均值延迟 459 µs，p99 延迟 616 µs；

存储引擎写吞吐：258,555 TPS，对照 PostgreSQL 16 约 3,200 TPS、RocksDB 约 80,000 TPS；

读延迟：p50 约 3 µs、p99 约 47 µs，扫描吞吐 4.49 GB/s；

项目测试套件：740 个 Rust 测试通过，7 个混沌场景在 10.9 秒内完成。

完整方法与 SIFT-1M 详细数据见 Zenodo 上的 GalaxDB 论文。

与主流向量/分析数据库的横向对比

架构与典型用法

架构：单一 galaxdb-server 进程负责 SQL 解析、查询规划与执行，底层由 ART 索引（点查）、HNSW 图（向量检索）、LSM 存储引擎（WAL + PAX 块）构成；嵌入侧由自动拉起的 galaxdb-sidecar 子进程承担，对外暴露 :9090 上的 /health、/metrics HTTP 端点。

典型场景：RAG 应用（本地嵌入 + SEMANTIC_MATCH 过滤元数据，替代 Pinecone + OpenAI Embeddings）、ML 训练流水线（版本化导出 Lance 数据集）、混合检索（SQL 过滤与向量相似度在同一条查询内完成）、可审计 AI（AT VERSION 复现训练集，对接 EU AI Act 合规需求）。