HASTE：分层技能积累让 ML 工程智能体少走弯路

arXiv 最新论文《Why Solve It Twice? Hierarchical Accumulation of Skills for Transfer-Efficient ML Engineering》提出了一种用于机器学习工程竞赛的分层多智能体系统 HASTE。该系统通过把跨竞赛知识组织为「全局、领域、竞赛专属」三层，并让智能体在不同层级间共享与抽象学习成果，避免每次竞赛都从零开始重复探索已知技术，从而显著降低计算与时间开销。

核心机制：三层技能与编排器

HASTE 的核心是一个由 LLM 驱动的编排器（orchestrator），负责协调多个领域专家智能体，并在三层之间促进知识迁移：

全局层（global）：跨领域可复用的通用技能。
领域层（domain）：某一类 Kaggle 任务（如时序、表格）共有的方法。
竞赛专属层（competition-specific）：当前具体竞赛积累的技巧。

这种分层让技能既能针对性加载，又能在相似任务间迁移，减少冗余试错。

关键实验：分层加载显著优于扁平加载

论文设计了一组受控消融实验：在固定 159 项技能库的前提下，对 8 场竞赛比较不同加载方式：

分层加载（tiered loading）：奖牌率 100%。
扁平加载（flat loading）：奖牌率 62.5%。
不加载任何技能：奖牌率 62.5%，但输出 token 消耗约为分层加载的 2 倍。

这说明「怎么组织知识」本身就能带来实质收益，而不仅仅是「有没有知识」。

MLE-Bench Lite 上的整体表现

在包含 22 场 Kaggle 竞赛的 MLE-Bench Lite 基准上，HASTE 使用 Claude Sonnet 4.6，每场竞赛限时 12 小时，最终取得 77.3% 的奖牌率。论文还比较了冷启动与热启动两种设置：

热启动会从已有竞赛中加载全局与领域级技能，跨竞赛迁移。
热启动比冷启动少用 52% 的 refinement 迭代。
随着可用技能增长，智能体保留其建议修改的比例从低库存下的 42% 提升到拥有 50+ 技能时的 85%。

启示与边界

作者认为，实验结果提示「更好的知识组织可以在一定程度上替代更强的模型或更大的算力预算」。不过该结论主要基于 MLE-Bench Lite 这一以 Kaggle 经典赛题为主的基准，任务范围以表格与结构化数据为主，尚未在更广泛的 ML 工程场景（如大模型微调、多模态建模）中验证。此外，分层机制的维护成本、技能过时与跨领域冲突等问题，也需要在更大规模的真实部署中进一步观察。