桃子桃子 AI 快讯
返回首页
研究论文

NormAct 基准:多模态大模型在具身规划中难以遵循隐性社会规范

研究团队发布 NormAct 基准与 NormPerceptor 方法,发现主流 MLLM 在具身任务中目标达成率 67…

2026.06.29 · 周一3 分钟阅读评分 62
评分细项加权总分 62
重要性
55
新颖性
72
影响面
50
可信度
75
实质性
72

多模态大语言模型(MLLM)正被越来越多地部署为具身智能体,在第一人称视角下完成日常任务。然而,一个被长期忽视的问题是:任务成功不仅意味着达成显式目标,还要求行为符合场景中隐含的社会规范。近日发表于 arXiv 的论文《NormAct: A Benchmark for Hidden Social Norm Compliance in Embodied Planning》提出专门基准,系统量化了主流 MLLM 在「隐性规范遵循」上的能力短板。

核心发现:目标达成与规范遵循严重失衡

研究团队在 GPT-5.4、Claude Opus 4.7、Gemini 3 Pro 等当前主流 MLLM 上进行测试,结果显示:

  • 显式目标达成率:67.3%
  • 隐性规范遵循率:26.4%

二者之间存在约 41 个百分点的巨大鸿沟。NormAct 的设计思路是,将社会规范「隐藏」在普通任务指令中,不直接告知智能体需要遵守什么规则,要求模型自行从场景中推断并将其纳入行动序列。这与传统评测仅考察「显式目标完成度」或「直接规范知识」的做法形成鲜明对比。

NormAct 基准的三维评估框架

NormAct 从三个维度对具身规划方案进行打分:

  • Goal Achievement(目标达成度):是否完成用户明确指令的任务
  • Norm Compliance(规范遵循度):是否在行动中体现隐性社会规范
  • Task Success(任务综合成功率):同时满足上述两者的比例

该基准将「隐性规范」嵌入到日常具身任务中,例如在公共场所保持安静、尊重他人隐私空间等,要求模型在缺乏显式提示的情况下主动识别并执行。

失败原因:不是「不知道」,而是「没激活」

为进一步定位问题根源,研究者设计了 cue-condition(提示条件)实验。结果表明,这一能力差距并非源于模型缺乏社会知识储备,而是难以在具体视觉场景中激活和落地相关规范。换言之,模型「知道」什么是合适的行为,却无法把这种知识与当前画面证据对齐。

NormPerceptor:把规范先于规划显式激活

针对上述问题,论文提出 NormPerceptor——一个上下文条件化的「线索生成器」,在规划阶段之前先推断当前场景所涉及的社会规范,再将其作为约束传给规划模块。引入该模块后:

  • 任务综合成功率从 24.2% 提升至 46.7%
  • 相对提升接近一倍,但仍未突破 50%

这一结果说明,将「规范感知」从规划过程中显式剥离并前置,是缩小隐性规范遵循差距的有效路径;但要真正达到人类水平的具身行为合规性,仍需更深入的研究。

资源与意义

NormAct 基准已在 Hugging Face 公开(huggingface.co/datasets/Caleb196x/NormAct),供社区复现与扩展。该工作凸显了具身智能体需要具备三项关键能力:主动检测场景中的隐性规范、将规范与视觉证据对齐、以及将其整合为动作规划硬约束。随着 MLLM 越来越多地进入机器人、家居助理等真实场景,单纯追求「任务完成」已不足以衡量智能体的社会可用性。NormAct 为这一方向的标准化评测提供了首个系统性工具。

信源