桃子桃子 AI 快讯
返回首页
研究论文

AI 管基站:强化学习如何拯救演唱会现场的卡顿网络

科普文章解读强化学习如何帮助基站动态疏导拥挤用户、节能关停,引用两篇 IEEE 论文并对比传统方法效果。

2026.07.01 · 周三3 分钟阅读

演唱会现场、地铁闸机前、抢专家号的关键时刻,手机网络总是掉链子——问题不在手机老化,而是几百人同时挤进同一个无线小区,基站不堪重负。解法不只是多铺基站:基站数量增加后,电磁波互相干扰、信号交叉覆盖等问题也随之而来。如何让网络在拥塞场景下自己「想辙」,成为研究者关注的课题。

传统方法的局限

直觉上的解决办法是建更多基站,让人群分散到更多小区。但基站越密,电磁波之间的干扰越严重。运营商通常依靠人工调参、按历史经验或预设规则给空闲小区「加权」吸引用户迁移——但美食广场午市、周末商场、节假日地铁等场景的用户分布与规划往往严重错配,固定规则难以及时响应。

此外,无线小区在低负载时本可暂时关停以节能。已有研究表明,定时关停可省 7.91% 能耗,基于固定负载阈值关停可省 13.48%,但都难以兼顾用户体验。

强化学习如何接管基站

从业者开始尝试用强化学习(RL)让基站自主决策。其流程与传统机器学习不同:

  • 状态输入:各小区负载率、用户数、信号质量等实时数据。
  • 动作输出:调整天线功率、朝向及协议参数,引导终端迁移。
  • 奖励设计:把最挤的小区尽量卸压,负载越低奖励越高。

AI 在仿真环境里反复「试错」,通过观察奖励涨跌更新策略。成百上千轮训练后,它总结出经验式规则:例如本小区负载超 80% 且相邻小区低于 60% 时迁移用户;两边都忙则按兵不动。

论文数据:体验与节能双提升

慕尼黑工业大学团队在 4 个小区、15 名用户持续移动的仿真中做了对比:传统策略下单个小区平均接入超 11 人,强化学习方法则压在 6 人以内,相当于把抢网速的对手从 10 个减到 5 个,体验近乎翻倍。

在节能方面,2025 年 IEEE INFOCOM 的论文显示:

  • 定时关停:节能 7.91%;
  • 固定阈值关停:节能 13.48%;
  • 强化学习决定是否关停:节能 15.26%。

更关键的是,强化学习方法能在 97.40% 的时段内保证 95% 以上的用户获得不低于 5 Mbps 的下载速率,省得更多、弊端更小。

从管基站到管聊天 AI

强化学习的应用不止于此。ChatGPT、DeepSeek 等大模型训练中使用的 RLHF(基于人类反馈的强化学习),原理同样遵循「动作—奖励—更新策略」的循环:模型生成回答,AI 或人类打分,模型依据分数调整。无论是指挥基站疏导人群,还是教会大模型「好好说话」,底层逻辑都是让系统在试错中自我进化。

落地仍有不确定性

目前相关成果主要来自仿真环境,迁移到真实网络仍面临挑战:训练数据若以工作日早晚高峰为模板,节假日用户分布骤变时,模型可能仍按旧经验调度,反而造成卡顿。研究者认为,更丰富的仿真数据与在线持续学习是下一步方向。

未来,规则系统负责常规场景,传统机器学习从历史数据中归纳规律,强化学习应对「规则写不到、规律找不到」的动态变化——三类方法各司其职,才能让无线网络真正自己学会变聪明。

信源