缩放规律不止于语言：可穿戴传感器数据同样遵循幂律

大语言模型之所以能在过去几年中实现能力跃迁，关键前提之一是「缩放规律」的存在：验证损失随模型规模、数据量与算力的增长而可预测地下降。这一规律直到 2020 年才被正式发表，却已成为前沿实验室投入九位数资金训练模型的依据，也解释了 AI 涌现能力的来源。那么，同样的规律是否适用于语言以外的基础模型？答案是肯定的，但形式并不完全相同。

Google 首次为可穿戴传感器数据建立缩放规律

Google 的论文 Scaling Wearable Foundation Models 是已知最早为可穿戴生理传感器数据建立缩放规律的研究。其验证损失随算力的变化遵循：

L = a·C^b + c

其中 C 为算力，b 为幂律指数，c 为不可约下限。论文测试了 2M、7M、110M、328M 四档参数量的模型，数据量从数千小时一路扩展到 4000 万小时。更大的模型与更多的数据在所有生成任务上都带来收益，包括随机填补、时间插值、传感器填补与预测。下游微调任务中，LSM 在插值与预测上较基线提升 16–23%，在活动识别任务上提升 29%。

与 LLM 缩放规律的异同

LLM 缩放规律最早由 Kaplan 等人于 2020 年提出，并在 2022 年的 Chinchilla 论文中得到修正：在固定算力预算下，参数与 token 数量应同步扩展，最优配比约为「每个参数对应 20 个 token」。Chinchilla 以 70B 参数、1.4T token 训练而成，击败了规模更大但数据不足的同类模型。其损失函数形式为：

L(N, P) = L∞ + a·N^(-b) + c·P^(-d)

两套规律的最大区别在于饱和点。LSM 的收益在大约 1000 万小时数据、1 亿参数附近趋于平缓；而 LLM 在消费级规模下尚未出现天花板——Chinchilla 用了 1.4T token，前沿模型已远超此规模，损失仍在下降。两者都包含不可约误差项 c，因此差异体现在经验结果而非函数形式本身。这一差异为初创公司打开了空间：作者所在四人团队以类似 Google 与 Apple 的数据量，训练出 JEPA 架构的可穿戴基础模型 JETS，说明非语言领域的入场门槛远低于 LLM。

两类缩放规律的关键维度对比

数据单位：LLM 使用离散词表 token；传感器使用连续多通道小时级信号。
预训练目标：LLM 为下一 token 预测；传感器为 80% patch 掩码重建，损失为 MSE。
损失函数：LLM 使用交叉熵 / 困惑度；传感器使用掩码 patch 上的均方误差。
饱和点：LLM 在万亿 token 级别尚未饱和；传感器在约 10^7 小时与 10^8 参数附近趋于平缓。
算力最优配方：LLM 约 20 token/参数（Chinchilla）；传感器需数据与模型同步扩展，总小时数主导。
数据供给：LLM 数据池有限，公共文本接近耗尽；传感器数据可再生，全球数十亿设备每年被动产生约 8760 小时信号。
经济结构：LLM 领域已是十亿美元入场费级别的寡头格局；传感器模型或为资本较轻的赛道。

三个值得追问的方向

第一，数据墙。Ilya Sutskever 在「预训练终结论」演讲中曾指出，公共互联网是我们仅有的「一个互联网」；而生理数据的瓶颈反而在于标注结果稀缺、算力受限与现实数据噪声。若能找到让 c 趋于 0 的架构，这类规律的潜在上限其实非常高。

第二，市场结构。T. Rowe Price 曾评价，AI 资本开支的最终经济基础正是缩放规律——边际算力必须带来边际性能，前沿实验室因此演变为十亿美元入场费级别的寡头。如果缩放规律不同，竞争格局是否也会不同？

第三，是否存在统一潜空间。视觉模型对齐到 LLM 潜空间（如 CLIP）已带来有趣启发。那么未来是否会出现一个适用于所有模型的统一潜空间，还是生理等模态会保留语言无法表达的细微区分？这仍是开放问题。