多智能体 LLM 团队的人格组合：任务结构决定效果

围绕多智能体 LLM 系统的设计，一个常被提及但缺乏系统验证的问题是：给不同智能体分配不同「人格」（如高/低宜人性）究竟会不会改变任务结果。arXiv 上一篇题为《When Does Personality Composition Matter for Multi-Agent LLM Teams?》的论文对此进行了实证研究，结论是——人格效应高度依赖任务结构，不能一概而论。

研究问题与背景

此前已有研究表明，对 LLM 进行人格提示（personality prompting）能改变其沟通风格：低宜人性的智能体会产生对抗性语言，高宜人性的智能体则倾向于合作。但沟通风格的改变是否真正影响客观任务表现，在多个领域内仍缺乏系统性检验。该论文正是要回答「多智能体团队中的人格组合是否有意义」这一基础问题。

实验设计

研究者在多款前沿 LLM 上操纵不同人格特征，并在三类具有代表性的任务域上展开对比：

结构化编码任务：目标明确、节点可量化，便于判断「人格是否影响里程碑完成」。
开放式研究协作：输出质量与协作过程更主观，考验团队互动。
竞争性议价：零和博弈情境，对沟通策略敏感。

通过在同一组模型上系统切换宜人性等维度，论文得以将「沟通风格变化」与「任务表现变化」拆开分析。

主要发现

论文的核心结论可概括为一句话：人格效应不是普适的，而是任务结构的函数。

在结构化编码任务中，施加低宜人性提示会带来显著的沟通风格偏移，但对里程碑完成率几乎没有影响。
在开放式研究协作中，同样的低宜人性操纵会明显拉低产出质量。
在竞争性议价中，低宜人性同样导致表现显著退化。

这意味着：任务越依赖持续协作与互动，人格操纵的代价越大；任务越可被「机械完成」，人格对最终结果的扰动越小。

对多智能体系统设计的启示

论文在讨论部分指出，设计多智能体 LLM 系统时，不能简单地把「人格多样化」当作普适增益手段。

在编码、解析等结构化任务中，可以更自由地注入多样化人格而无需担心掉点。
在协作、谈判、客服等强交互场景中，需要谨慎控制宜人性等与沟通直接相关的维度，避免因对抗性偏移而损失任务表现。
未来工作可进一步探索在多轮、长程任务中人格漂移的累积效应，以及与角色分工、提示链等机制的耦合关系。

局限与延伸阅读

作为一项 arXiv 预印本（编号 2606.27443v1），该研究尚未经历同行评审，其结论的边界仍需复现验证。此外，论文聚焦「宜人性」这一维度，其他大五人格特质（外倾性、尽责性等）以及更复杂的人格组合策略对多智能体表现的影响，仍是有待拓展的方向。