桃子桃子快讯
返回首页
研究论文

Auto-FL-Research:用智能体自动搜索联邦学习算法

研究者提出基于编码智能体的联邦学习算法搜索工作流,在医疗与标准数据集上验证有效,也暴露出种子敏感与单次运行伪提升等问题。

2026.07.03 · 周五3 分钟阅读

联邦学习(FL)研究长期面临一类「小而关键」的算法选择:优化器变体、服务端聚合规则、客户端更新调度、归一化、正则化以及模型架构。这些选择若靠人工逐一探索成本极高,且任何一处改动都可能同时改变训练或评估路径,使公平比较变得困难。arXiv 最新论文《Auto-FL-Research: Agentic Search for Federated Learning Algorithms》提出了一种用编码智能体自动搜索 FL 算法的方案 Auto-FL-Research(AFR),尝试把这一过程系统化。

方法:受限的编码智能体工作流

AFR 的核心设计是「任务画像 + 智能体探索」的分离思路:

  • 任务画像(task profile)负责固定变异面(mutation surface)、算力预算、通信契约以及最终模型评估方式,确保不同候选方案在统一条件下比较。
  • 智能体则在受限空间内提出并实现候选训练算法,覆盖服务端聚合规则、客户端更新调度、本地目标函数以及已注册的模型变体。
  • 每次搜索活动(campaign)会记录候选方案的得分、运行时间、编辑过的文件、产物以及失败状态,便于事后复现与审计。

这种设计把「可改什么」与「怎么改」分开,意在让智能体生成的改进具有可比性与可解释性。

实验:医疗与标准 FL 基准

作者在两组基准上对 AFR 进行了评估:

  • 五个医疗跨机构(cross-silo)FLamby 任务;
  • 五个固定 LEAF 数据集上的分组客户端画像,外加 LEAF 合成任务,合计 6 个 LEAF 画像。

每组实验使用 5 个随机种子重复评估。结果显示:

  • 在 5 个 FLamby 任务中的 4 个上取得了提升;
  • 在 6 个 LEAF 画像中的 5 个上取得了提升;
  • 同时也暴露出了种子敏感搜索挑选的失败案例。

这意味着智能体选出的「最优」并不总能跨种子复现。

控制实验:把伪提升筛出来

为区分真实算法贡献与偶然波动,作者引入了同等预算对照组(same-budget controls):

  • 部分提升确实来自 FL 层面的算法改动(repeating FL mechanisms);
  • 部分提升仅是固定变异面下的标量调参(fixed-surface tuning)即可复现,不属于真正的 FL 算法贡献;
  • 还有一部分提升在重复评估或留出评估中直接失效(selected single-run artifacts)。

论文明确将这些「混合结果」视为贡献的一部分,展示了如何将智能体生成的候选拆解为三类:可重复的 FL 机制、固定面调参效应以及单次运行的伪提升。这一拆解框架对后续用智能体做 AutoML / AutoFL 研究的可信度评估有借鉴意义。

局限与启示

AFR 并未宣称找到一个通用的「最强 FL 配方」,而是把研究重点放在搜索过程的可审计性结果归因上。对于关注联邦学习落地(尤其是医疗等跨机构场景)的研究者,这套工作流提供了一个相对低门槛的自动化起点;对于 Agent + ML 这一交叉方向,它也示范了如何诚实地报告「哪些提升是真的、哪些是噪声」。

信源