KAIST 提出 BehaVERT：把动物行为当作语言来读

韩国科学技术院（KAIST）脑与认知科学系 Kim Dae-soo 教授团队开发出一款名为 BehaVERT 的人工智能模型，将动物肢体动作视为与词汇相同的「token」，输入基于 BERT 的 transformer 网络进行自监督训练。该模型无需预先标注，即可在自闭症小鼠模型中自主定位到核心社交缺陷。相关论文于 2026 年 3 月 24 日发表在计算机视觉顶刊《International Journal of Computer Vision》（IJCV），并于 7 月 1 日由 KAIST 正式对外公布。

核心方法：把动作变成语言

BehaVERT 的关键思路是将小鼠骨架运动——鼻、耳、脊柱、四肢与尾巴的轨迹——离散化为 token，与语言模型中的「词」等价。这些 token 被送入 BERT 架构的 transformer 进行训练，模型不预先知道任何动作的含义，而是学习动作含义如何随上下文（时间序列中的前后动作）动态变化，这与词义随句意流动的特性高度相似。

实验结果：刷新五项基准并定位自闭症核心行为

BehaVERT 在涵盖社交互动、多动物行为、三维运动分析与自闭症相关行为的 5 项国际基准上全面超越此前最优系统。团队将其应用于携带 SHANK3 基因突变的小鼠与正常小鼠的对比实验：

SHANK3 突变会扰乱神经元间突触锚定蛋白，与人类约 0.5%–2% 的自闭症及智力障碍病例相关。
既有研究显示 Shank3B 小鼠「接近行为正常，但实际交流环节崩塌」。
BehaVERT 在未被告知「自闭症行为」是什么的情况下，自主标记出「双鼠口部接触质量下降」作为区分两组最显著的标志，与前述结论精确吻合。

可解释性与跨物种迁移

与多数黑箱模型不同，BehaVERT 可以展示其推理过程，研究者得以追溯模型为何做出某一判断。团队还在大鼠运动数据上训练了一版模型，并成功迁移至小鼠分析，提示同一架构有望在不同物种间泛化，成为跨物种通用的「行为基础模型」。

研究背景与团队

BehaVERT 是 Kim Dae-soo 团队此前 AVATAR 三维动作重建系统的延伸，相关技术已衍生出专注痴呆、帕金森药物研究的行为分析公司 Actnova。论文全部作者最初都来自生命科学而非计算机或工程背景，团队将其视为「生物学家人手构建专用 AI」可行性的证据。Kim 教授表示，BehaVERT 不止于分类，而是理解行为的含义，预计将成为药物开发、精神疾病研究与行为遗传学的全新基础工具。