AI 管基站：强化学习如何拯救演唱会现场的卡顿网络

演唱会现场、地铁闸机前、抢专家号的关键时刻，手机网络总是掉链子——问题不在手机老化，而是几百人同时挤进同一个无线小区，基站不堪重负。解法不只是多铺基站：基站数量增加后，电磁波互相干扰、信号交叉覆盖等问题也随之而来。如何让网络在拥塞场景下自己「想辙」，成为研究者关注的课题。

传统方法的局限

直觉上的解决办法是建更多基站，让人群分散到更多小区。但基站越密，电磁波之间的干扰越严重。运营商通常依靠人工调参、按历史经验或预设规则给空闲小区「加权」吸引用户迁移——但美食广场午市、周末商场、节假日地铁等场景的用户分布与规划往往严重错配，固定规则难以及时响应。

此外，无线小区在低负载时本可暂时关停以节能。已有研究表明，定时关停可省 7.91% 能耗，基于固定负载阈值关停可省 13.48%，但都难以兼顾用户体验。

从业者开始尝试用强化学习（RL）让基站自主决策。其流程与传统机器学习不同：

AI 在仿真环境里反复「试错」，通过观察奖励涨跌更新策略。成百上千轮训练后，它总结出经验式规则：例如本小区负载超 80% 且相邻小区低于 60% 时迁移用户；两边都忙则按兵不动。

慕尼黑工业大学团队在 4 个小区、15 名用户持续移动的仿真中做了对比：传统策略下单个小区平均接入超 11 人，强化学习方法则压在 6 人以内，相当于把抢网速的对手从 10 个减到 5 个，体验近乎翻倍。

在节能方面，2025 年 IEEE INFOCOM 的论文显示：

更关键的是，强化学习方法能在 97.40% 的时段内保证 95% 以上的用户获得不低于 5 Mbps 的下载速率，省得更多、弊端更小。

强化学习的应用不止于此。ChatGPT、DeepSeek 等大模型训练中使用的 RLHF（基于人类反馈的强化学习），原理同样遵循「动作—奖励—更新策略」的循环：模型生成回答，AI 或人类打分，模型依据分数调整。无论是指挥基站疏导人群，还是教会大模型「好好说话」，底层逻辑都是让系统在试错中自我进化。

目前相关成果主要来自仿真环境，迁移到真实网络仍面临挑战：训练数据若以工作日早晚高峰为模板，节假日用户分布骤变时，模型可能仍按旧经验调度，反而造成卡顿。研究者认为，更丰富的仿真数据与在线持续学习是下一步方向。

未来，规则系统负责常规场景，传统机器学习从历史数据中归纳规律，强化学习应对「规则写不到、规律找不到」的动态变化——三类方法各司其职，才能让无线网络真正自己学会变聪明。