NormAct 基准：多模态大模型在具身规划中难以遵循隐性社会规范

多模态大语言模型（MLLM）正被越来越多地部署为具身智能体，在第一人称视角下完成日常任务。然而，一个被长期忽视的问题是：任务成功不仅意味着达成显式目标，还要求行为符合场景中隐含的社会规范。近日发表于 arXiv 的论文《NormAct: A Benchmark for Hidden Social Norm Compliance in Embodied Planning》提出专门基准，系统量化了主流 MLLM 在「隐性规范遵循」上的能力短板。

核心发现：目标达成与规范遵循严重失衡

研究团队在 GPT-5.4、Claude Opus 4.7、Gemini 3 Pro 等当前主流 MLLM 上进行测试，结果显示：

显式目标达成率：67.3%
隐性规范遵循率：26.4%

二者之间存在约 41 个百分点的巨大鸿沟。NormAct 的设计思路是，将社会规范「隐藏」在普通任务指令中，不直接告知智能体需要遵守什么规则，要求模型自行从场景中推断并将其纳入行动序列。这与传统评测仅考察「显式目标完成度」或「直接规范知识」的做法形成鲜明对比。

NormAct 基准的三维评估框架

NormAct 从三个维度对具身规划方案进行打分：

Goal Achievement（目标达成度）：是否完成用户明确指令的任务
Norm Compliance（规范遵循度）：是否在行动中体现隐性社会规范
Task Success（任务综合成功率）：同时满足上述两者的比例

该基准将「隐性规范」嵌入到日常具身任务中，例如在公共场所保持安静、尊重他人隐私空间等，要求模型在缺乏显式提示的情况下主动识别并执行。

失败原因：不是「不知道」，而是「没激活」

为进一步定位问题根源，研究者设计了 cue-condition（提示条件）实验。结果表明，这一能力差距并非源于模型缺乏社会知识储备，而是难以在具体视觉场景中激活和落地相关规范。换言之，模型「知道」什么是合适的行为，却无法把这种知识与当前画面证据对齐。

NormPerceptor：把规范先于规划显式激活

针对上述问题，论文提出 NormPerceptor——一个上下文条件化的「线索生成器」，在规划阶段之前先推断当前场景所涉及的社会规范，再将其作为约束传给规划模块。引入该模块后：

任务综合成功率从 24.2% 提升至 46.7%
相对提升接近一倍，但仍未突破 50%

这一结果说明，将「规范感知」从规划过程中显式剥离并前置，是缩小隐性规范遵循差距的有效路径；但要真正达到人类水平的具身行为合规性，仍需更深入的研究。

资源与意义

NormAct 基准已在 Hugging Face 公开（huggingface.co/datasets/Caleb196x/NormAct），供社区复现与扩展。该工作凸显了具身智能体需要具备三项关键能力：主动检测场景中的隐性规范、将规范与视觉证据对齐、以及将其整合为动作规划硬约束。随着 MLLM 越来越多地进入机器人、家居助理等真实场景，单纯追求「任务完成」已不足以衡量智能体的社会可用性。NormAct 为这一方向的标准化评测提供了首个系统性工具。