LOTUS 开源:面向智能体与 LLM 批量处理的语义算子框架
UC Berkeley 团队开源 LOTUS 框架,通过语义算子优化 LLM 批量处理,以更低成本获得更高准确率。
由 UC Berkeley 研究团队(包括 Matei Zaharia、Carlos Guestrin 等知名学者)开发的 LOTUS 近日正式开源,定位为面向智能体(agentic)和 LLM 批量处理的高性能框架。项目已在 VLDB 2025 发表论文,并配套发布了完整的 Python 库与文档,主打用更低的成本和更快的速度完成大规模数据集上的 LLM 处理任务。
核心概念:语义算子
LOTUS 的核心抽象是「语义算子」(semantic operators),即由自然语言指令驱动的、基于 LLM 的数据变换原语。框架内置了 sem_map、sem_filter、sem_agg、sem_join 等算子,用户只需用自然语言描述「要对语料做什么」,由 LOTUS 的优化器决定如何执行——包括批处理调用、模型级联(cascades)与代理模型(proxies)的选用,以及整条流水线的惰性规划。其目标是让声明式的高层表达与底层的高效执行同时成立。
典型使用场景
- 智能体代码处理:对代码库中的每个文件、文档或记录运行带沙箱 Python REPL 的工具型智能体,再归并为单一结论,可用于代码分析、安全扫描、迁移等场景。
- 深度研究与综合:在大规模语料上分发提取任务,再汇总成综合报告。
- 智能体轨迹失败分析:从大量智能体日志中挖掘失败模式。
- 文档抽取与非结构化分析:从文本中提取结构化字段与洞察。
- LLM 评判评测与 RAG:以声明式方式构建评测或检索增强流水线,由引擎自动优化。
快速上手
通过 pip install lotus-ai 即可安装;也可使用 uv add lotus-ai 或从 GitHub 源码安装。用户只需配置一个语言模型(如 gpt-4o-mini),再传入语料(文件、文档、DataFrame 行或大段文本),即可调用 corpus.agentic_map_reduce() 让 LOTUS 自动拆分语料、并行启动智能体并归并结果。框架通过 LiteLLM 兼容多种模型与检索器,并支持自定义 reranker。
性能与社区
LOTUS 团队表示,在多种任务上其优化流水线能在「匹配或超过」高质量基线准确率的同时,显著降低运行时间与成本,但官方页未给出具体 benchmark 数字。社区方面,项目已在 GitHub 开源(lotus-data/lotus),并设有 Discord 频道供开发者交流。已有多个学术与工业项目基于 LOTUS 构建,包括 UC Berkeley 与斯坦福等机构的 MAP 智能体评测研究、ICLR 2025 的 VibeCheck,以及对标 OpenAI Deep Research 的 DeepScholar 等。
学术背景
LOTUS 的理论基础来自团队 2024 年起的一系列论文:包括 arXiv:2407.11418 提出的语义算子声明式模型,以及发表于 VLDB 2025 的《Semantic Operators and Their Optimization》与 IEEE Data Engineering Bulletin 2026 的 AI-Native 数据系统综述,为这一框架提供了学术支撑。
