Auto-FL-Research：用智能体自动搜索联邦学习算法

联邦学习（FL）研究长期面临一类「小而关键」的算法选择：优化器变体、服务端聚合规则、客户端更新调度、归一化、正则化以及模型架构。这些选择若靠人工逐一探索成本极高，且任何一处改动都可能同时改变训练或评估路径，使公平比较变得困难。arXiv 最新论文《Auto-FL-Research: Agentic Search for Federated Learning Algorithms》提出了一种用编码智能体自动搜索 FL 算法的方案 Auto-FL-Research（AFR），尝试把这一过程系统化。

方法：受限的编码智能体工作流

AFR 的核心设计是「任务画像 + 智能体探索」的分离思路：

任务画像（task profile）负责固定变异面（mutation surface）、算力预算、通信契约以及最终模型评估方式，确保不同候选方案在统一条件下比较。
智能体则在受限空间内提出并实现候选训练算法，覆盖服务端聚合规则、客户端更新调度、本地目标函数以及已注册的模型变体。
每次搜索活动（campaign）会记录候选方案的得分、运行时间、编辑过的文件、产物以及失败状态，便于事后复现与审计。

这种设计把「可改什么」与「怎么改」分开，意在让智能体生成的改进具有可比性与可解释性。

实验：医疗与标准 FL 基准

作者在两组基准上对 AFR 进行了评估：

五个医疗跨机构（cross-silo）FLamby 任务；
五个固定 LEAF 数据集上的分组客户端画像，外加 LEAF 合成任务，合计 6 个 LEAF 画像。

每组实验使用 5 个随机种子重复评估。结果显示：

在 5 个 FLamby 任务中的 4 个上取得了提升；
在 6 个 LEAF 画像中的 5 个上取得了提升；
同时也暴露出了种子敏感与搜索挑选的失败案例。

这意味着智能体选出的「最优」并不总能跨种子复现。

控制实验：把伪提升筛出来

为区分真实算法贡献与偶然波动，作者引入了同等预算对照组（same-budget controls）：

部分提升确实来自 FL 层面的算法改动（repeating FL mechanisms）；
部分提升仅是固定变异面下的标量调参（fixed-surface tuning）即可复现，不属于真正的 FL 算法贡献；
还有一部分提升在重复评估或留出评估中直接失效（selected single-run artifacts）。

论文明确将这些「混合结果」视为贡献的一部分，展示了如何将智能体生成的候选拆解为三类：可重复的 FL 机制、固定面调参效应以及单次运行的伪提升。这一拆解框架对后续用智能体做 AutoML / AutoFL 研究的可信度评估有借鉴意义。

局限与启示

AFR 并未宣称找到一个通用的「最强 FL 配方」，而是把研究重点放在搜索过程的可审计性与结果归因上。对于关注联邦学习落地（尤其是医疗等跨机构场景）的研究者，这套工作流提供了一个相对低门槛的自动化起点；对于 Agent + ML 这一交叉方向，它也示范了如何诚实地报告「哪些提升是真的、哪些是噪声」。