缩放规律不止于语言:可穿戴传感器数据同样遵循幂律
研究显示,LLM 式缩放规律同样适用于可穿戴传感器数据,但在饱和点、数据供给与经济结构上与 LLM 存在显著差异。
大语言模型之所以能在过去几年中实现能力跃迁,关键前提之一是「缩放规律」的存在:验证损失随模型规模、数据量与算力的增长而可预测地下降。这一规律直到 2020 年才被正式发表,却已成为前沿实验室投入九位数资金训练模型的依据,也解释了 AI 涌现能力的来源。那么,同样的规律是否适用于语言以外的基础模型?答案是肯定的,但形式并不完全相同。
Google 首次为可穿戴传感器数据建立缩放规律
Google 的论文 Scaling Wearable Foundation Models 是已知最早为可穿戴生理传感器数据建立缩放规律的研究。其验证损失随算力的变化遵循:
L = a·C^b + c
其中 C 为算力,b 为幂律指数,c 为不可约下限。论文测试了 2M、7M、110M、328M 四档参数量的模型,数据量从数千小时一路扩展到 4000 万小时。更大的模型与更多的数据在所有生成任务上都带来收益,包括随机填补、时间插值、传感器填补与预测。下游微调任务中,LSM 在插值与预测上较基线提升 16–23%,在活动识别任务上提升 29%。
与 LLM 缩放规律的异同
LLM 缩放规律最早由 Kaplan 等人于 2020 年提出,并在 2022 年的 Chinchilla 论文中得到修正:在固定算力预算下,参数与 token 数量应同步扩展,最优配比约为「每个参数对应 20 个 token」。Chinchilla 以 70B 参数、1.4T token 训练而成,击败了规模更大但数据不足的同类模型。其损失函数形式为:
L(N, P) = L∞ + a·N^(-b) + c·P^(-d)
两套规律的最大区别在于饱和点。LSM 的收益在大约 1000 万小时数据、1 亿参数附近趋于平缓;而 LLM 在消费级规模下尚未出现天花板——Chinchilla 用了 1.4T token,前沿模型已远超此规模,损失仍在下降。两者都包含不可约误差项 c,因此差异体现在经验结果而非函数形式本身。这一差异为初创公司打开了空间:作者所在四人团队以类似 Google 与 Apple 的数据量,训练出 JEPA 架构的可穿戴基础模型 JETS,说明非语言领域的入场门槛远低于 LLM。
两类缩放规律的关键维度对比
- 数据单位:LLM 使用离散词表 token;传感器使用连续多通道小时级信号。
- 预训练目标:LLM 为下一 token 预测;传感器为 80% patch 掩码重建,损失为 MSE。
- 损失函数:LLM 使用交叉熵 / 困惑度;传感器使用掩码 patch 上的均方误差。
- 饱和点:LLM 在万亿 token 级别尚未饱和;传感器在约 10^7 小时与 10^8 参数附近趋于平缓。
- 算力最优配方:LLM 约 20 token/参数(Chinchilla);传感器需数据与模型同步扩展,总小时数主导。
- 数据供给:LLM 数据池有限,公共文本接近耗尽;传感器数据可再生,全球数十亿设备每年被动产生约 8760 小时信号。
- 经济结构:LLM 领域已是十亿美元入场费级别的寡头格局;传感器模型或为资本较轻的赛道。
三个值得追问的方向
第一,数据墙。Ilya Sutskever 在「预训练终结论」演讲中曾指出,公共互联网是我们仅有的「一个互联网」;而生理数据的瓶颈反而在于标注结果稀缺、算力受限与现实数据噪声。若能找到让 c 趋于 0 的架构,这类规律的潜在上限其实非常高。
第二,市场结构。T. Rowe Price 曾评价,AI 资本开支的最终经济基础正是缩放规律——边际算力必须带来边际性能,前沿实验室因此演变为十亿美元入场费级别的寡头。如果缩放规律不同,竞争格局是否也会不同?
第三,是否存在统一潜空间。视觉模型对齐到 LLM 潜空间(如 CLIP)已带来有趣启发。那么未来是否会出现一个适用于所有模型的统一潜空间,还是生理等模态会保留语言无法表达的细微区分?这仍是开放问题。
