有界道德：定义道德计算空间

arXiv 上发表的一篇论文《有界道德：定义道德计算空间》（Bounded Morality: Defining the Space of Moral Computation）提出了一个新的形式化框架，用于分析资源受限智能体在道德情境中所面临的计算需求。该研究将赫伯特·西蒙的「有界理性」概念拓展至道德认知领域，尝试为 AI 系统的道德对齐提供一个更具操作性的理论基础。

研究动机

传统上，道德认知常被建模为对固定伦理理论的遵循——义务论、后果论、美德伦理——并以静态规则或价值函数的形式实现。然而，这类模型隐含地假设智能体拥有无限的计算资源，与现实中资源有限的智能体（包括人类与 AI 系统）之间存在显著差距。论文指出，需要一个更贴合实际的框架来刻画道德问题的计算特性，而非争论哪一种伦理理论更接近「道德真理」。

核心维度：道德广度与深度

论文沿两条正交的维度对道德情境进行形式化：

道德广度（moral breadth）：被视为具有道德相关性的实体的范围大小。
道德深度（moral depth）：评估这些实体之间相互作用所需的推理整合深度。

有限资源在两个维度之间构成不可避免的权衡，由此划定了一个「道德计算的可行空间」。在这一空间内，不同的伦理理论并非相互竞争的真理解释，而是适应不同需求场景的局部高效策略。

形式化概念与对 AI 对齐的启示

基于上述框架，论文进一步给出了两个形式化概念：

道德遗憾（moral regret）：用于量化在资源约束下未能达成最优道德决策的程度。
约束下的道德进步（moral progress under constraint）：刻画在给定资源条件下改善道德决策能力的方向。

论文最后强调，AI 系统的道德对齐不应依赖对人类判断的直接模仿，而取决于道德推理能力的规模扩展与资源配置。这一观点为 AI 安全与对齐研究提供了一个新的分析视角，强调以「能力分配」而非「行为复制」作为对齐设计的核心问题。