NormAct 基准:多模态大模型在具身规划中难以遵循隐性社会规范
研究团队发布 NormAct 基准与 NormPerceptor 方法,发现主流 MLLM 在具身任务中目标达成率 67…
- 重要性
- 55
- 新颖性
- 72
- 影响面
- 50
- 可信度
- 75
- 实质性
- 72
多模态大语言模型(MLLM)正被越来越多地部署为具身智能体,在第一人称视角下完成日常任务。然而,一个被长期忽视的问题是:任务成功不仅意味着达成显式目标,还要求行为符合场景中隐含的社会规范。近日发表于 arXiv 的论文《NormAct: A Benchmark for Hidden Social Norm Compliance in Embodied Planning》提出专门基准,系统量化了主流 MLLM 在「隐性规范遵循」上的能力短板。
核心发现:目标达成与规范遵循严重失衡
研究团队在 GPT-5.4、Claude Opus 4.7、Gemini 3 Pro 等当前主流 MLLM 上进行测试,结果显示:
- 显式目标达成率:67.3%
- 隐性规范遵循率:26.4%
二者之间存在约 41 个百分点的巨大鸿沟。NormAct 的设计思路是,将社会规范「隐藏」在普通任务指令中,不直接告知智能体需要遵守什么规则,要求模型自行从场景中推断并将其纳入行动序列。这与传统评测仅考察「显式目标完成度」或「直接规范知识」的做法形成鲜明对比。
NormAct 基准的三维评估框架
NormAct 从三个维度对具身规划方案进行打分:
- Goal Achievement(目标达成度):是否完成用户明确指令的任务
- Norm Compliance(规范遵循度):是否在行动中体现隐性社会规范
- Task Success(任务综合成功率):同时满足上述两者的比例
该基准将「隐性规范」嵌入到日常具身任务中,例如在公共场所保持安静、尊重他人隐私空间等,要求模型在缺乏显式提示的情况下主动识别并执行。
失败原因:不是「不知道」,而是「没激活」
为进一步定位问题根源,研究者设计了 cue-condition(提示条件)实验。结果表明,这一能力差距并非源于模型缺乏社会知识储备,而是难以在具体视觉场景中激活和落地相关规范。换言之,模型「知道」什么是合适的行为,却无法把这种知识与当前画面证据对齐。
NormPerceptor:把规范先于规划显式激活
针对上述问题,论文提出 NormPerceptor——一个上下文条件化的「线索生成器」,在规划阶段之前先推断当前场景所涉及的社会规范,再将其作为约束传给规划模块。引入该模块后:
- 任务综合成功率从 24.2% 提升至 46.7%
- 相对提升接近一倍,但仍未突破 50%
这一结果说明,将「规范感知」从规划过程中显式剥离并前置,是缩小隐性规范遵循差距的有效路径;但要真正达到人类水平的具身行为合规性,仍需更深入的研究。
资源与意义
NormAct 基准已在 Hugging Face 公开(huggingface.co/datasets/Caleb196x/NormAct),供社区复现与扩展。该工作凸显了具身智能体需要具备三项关键能力:主动检测场景中的隐性规范、将规范与视觉证据对齐、以及将其整合为动作规划硬约束。随着 MLLM 越来越多地进入机器人、家居助理等真实场景,单纯追求「任务完成」已不足以衡量智能体的社会可用性。NormAct 为这一方向的标准化评测提供了首个系统性工具。
