arXiv 论文提出运行时齿轮机制，为单智能体与多智能体系统提供安全治理

论文概览

arXiv 上发表的一篇预印本论文提出了一种名为「Managed Autonomy at Runtime」的运行时自治管理框架，将自动驾驶与机器人领域的「齿轮式」离散控制思路引入 LLM 软件智能体与物理机器人的安全管理中。论文同时覆盖单智能体稳定性证明与多智能体协同治理，并通过 UR5 机器人装配单元的 10,000 次蒙特卡洛仿真给出了量化结果。

核心机制：五种执行齿轮

论文将智能体的执行权限抽象为五个离散齿轮：

\Gobs{}（观察）：仅观测环境，不执行可影响系统的动作；
\Gsug{}（建议）：生成候选动作或建议，等待更高权限确认；
\Gplan{}（规划）：在受限空间内制定短期计划；
\Gexec{}（执行）：正常执行动作；
\Gint{}（干预）：在异常或不确定情况下接管或中止动作。

系统采用「效用门控调度」（utility-gated dispatch）与「事件驱动回退」（event-driven fallback），依据效用估计与事件信号在齿轮之间切换。论文对单智能体情形证明了单调稳定性、执行安全性、最终稳定性、回退完备性，并证明整体行为等价于一个齿轮受限的马尔可夫决策过程。

多智能体治理与共识机制

在多智能体信息物理系统（CPS）场景下，论文将运行时证据映射到已有的「smart」管理自治生命周期的四个治理状态——Stable / Meta / Assisted / Regulated。齿轮作为微观权限层，叠加在宏观治理状态之上，将「动作控制」与「自治治理」解耦。具体技术手段包括：

共识门控（consensus gating）：多智能体在执行关键动作前需达成一致；
群体级 Lyapunov 分析：给出分布式稳定性条件；
每智能体齿轮权威：限制单个智能体的权限边界；
汇聚控制（rendezvous control）：保证多智能体协同下的安全交汇。

论文声称，在所述假设下，多智能体系统可实现零碰撞（zero collision）。

实验结果

论文在由三台 UR5 机械臂组成的装配单元上进行了仿真评估，故障幅值参考 NIST「机械臂位置精度退化测量」数据集标定，共运行 10,000 次蒙特卡洛 episode。主要指标：

异常检测率：本框架 99.6%，单智能体基线 2.1%；
检测延迟：相比基线降低约 3.5 倍；
安全性：附带形式化的物理工作空间安全证书。

局限与意义

需要注意的是，该论文为 arXiv 预印本，尚未经过同行评审；实验结果基于仿真而非真实部署；且框架对 LLM 智能体的端到端集成方式尚需进一步说明。不过，作为将控制论齿轮机制引入 LLM 与机器人智能体安全治理的一次系统性尝试，论文为「动作层权限」与「自治治理层」的解耦提供了一种可参考的形式化路径。