星间激光链路动态调度优化:一种多智能体深度强化学习方法
清华大学电子工程系博士生王冠华(第一作者)、清华大学电子工程系副教授杨昉(通讯作者)、清华大学电子工程系教授宋健和休斯顿大学电气与计算机工程系教授Zhu Han共同完成的论文“Optimization for Dynamic Laser Inter-Satellite Link Scheduling With Routing: A Multi-Agent Deep Reinforcement Learning Approach”发表于IEEE Transactions on Communications(影响因子7.2)。本文通过星间激光链路动态调度,有效的降低了星间传输的平均跳数,并减少了激光卫星网络的整体能耗,此外,通过引入多智能体深度强化学习(MADRL),算法的高效性和可扩展性得以保障。该研究工作得到了国家重点研发计划项目的支持。
技术挑战
|CHALLENGES
近年来,以“星链”(Starlink)为代表的大规模低轨卫星通信网络引发了广泛关注。此类星座通过部署数百甚至数千颗低轨卫星,实现对地球表面广泛而持续的覆盖,极大地提升了偏远地区的通信可达性与系统的鲁棒性。然而,随着星座规模的迅速扩张,星间传输所需经过的中继跳数显著增加。这不仅带来了通信时延的上升,也对星间链路的稳定性提出了更为严苛的挑战。
此外,为应对高容量与低延迟的需求,新一代卫星系统开始引入星间激光链路(LISL)。与传统的射频链路相比,激光链路在带宽、速率与抗干扰性等方面具有显著优势,理论上可实现上万公里的高速点对点通信。然而,激光链路具有极窄的波束宽度,对链路的精准对准要求极高,需要持续的闭环控制系统支持。这一特性不仅增加了系统的复杂性,也使链路维持期间的能量消耗显著上升,尤其对于资源受限的小型卫星而言,影响尤为突出。
另一方面,全球通信需求在空间和时间维度上均呈现出高度不均的分布特性。例如,北美、欧洲和亚太地区的热点城市在大多数时间段承担了主要的流量压力,而海洋、沙漠或极地等区域的通信需求则相对较低。这种不均衡的通信分布模式使得传统固定星间链路架构在多数时间内存在明显的资源冗余,即大量激光终端处于空闲状态却仍持续消耗能量,造成系统能效的严重浪费

因此,针对当前低轨卫星网络所面临的通信延迟与能源消耗双重瓶颈,亟需设计一种能够动态调整网络拓扑结构的机制。通过根据通信负载的动态分布在时空维度上智能调度星间链路,不仅能够有效减少无效链路的能量开销,同时还能在关键区域构建更高效的通信路径,降低平均跳数与整体通信延迟。此外,随着卫星数量的持续增加,调度算法本身也面临计算复杂度迅速提升的问题,这对算法的可扩展性、稳定性和实时性提出了更高的要求,成为当前研究与工程实现中的关键挑战之一。
创新思路
|INNOVATION
为应对大规模低轨卫星网络中动态链路调度复杂、通信负载分布非均与能耗控制等多重挑战,本文引入了多智能体深度强化学习(MADRL)方法,使每颗卫星能够基于局部状态信息进行分布式、自主地链路调度决策。在整体系统中,通过个体智能体的协同学习与局部优化,达到提升全局通信性能与资源利用效率的目标。
具体而言,本文首先针对当前星座运行中通信需求呈现区域集中、时空异质的特征,提出了一种“3条固定链路 + 1条动态链路”的链路连接模式。在该模式中,每颗卫星通过2条轨道面内链路与1条轨道面间链路保持与邻近卫星的固定连接,从而确保网络的基础连通性和稳定性。同时,系统为每颗卫星还配置1条动态激光链路,该链路可从其周围7颗候选卫星中自主选择连接对象,或选择不建立连接,总计提供8种可能的连接状态。通过这一设计,动态链路可根据实时通信需求灵活配置,实现网络拓扑的动态调节与资源的按需激活。

在该链路结构基础上,本文进一步构建了联合考虑平均跳数最小化与能耗最优化的调度优化问题。该问题本质上涉及在动态时变网络下,寻找一组有效的链路调度策略,以在保障通信服务质量的同时显著降低冗余链路带来的能耗开销。由于调度行为具有时序相关性,本文将上述问题转化为一个多阶段的序贯决策过程,并建模为马尔可夫决策过程(MDP)。随后,本文通过状态、动作及奖励函数的细化设计与拆解,引入多智能体框架,在全星座尺度上实现链路调度问题的分布式求解,从而显著降低了集中式优化在大规模星座中面临的计算与通信瓶颈。
在算法设计方面,为加速多智能体学习过程中的收敛速度与稳定性,本文提出了一系列强化学习的优化策略。例如,设计了以局部状态为输入、局部决策为输出的深度Q网络,并采用网络参数共享与经验池共享机制,在卫星之间共享训练知识,以提升全体智能体的泛化能力与训练效率。为进一步应对强化学习中因高维状态而带来的计算压力,本文充分挖掘了卫星网络邻接矩阵的稀疏性特征,基于压缩感知方法对原始状态矩阵进行降维处理,并直接将压缩后的状态向量输入至神经网络,以此有效减少模型参数规模、加速训练收敛,并大幅降低网络通信与存储开销。
在广泛的仿真测试中,本文所提出的多智能体动态链路调度方法表现出优异的性能。在不同的路由策略下均能够快速收敛。此外,相较于固定链路配置,所提方法可平均降低两跳的通信延迟,且减少了15%的LISL维持数目,验证了该方法在复杂动态环境中的高效性、稳定性与可扩展性。


小结
|CONCLUSION
本文提出了一种结合特定路由策略的动态LISL调度算法,面向大规模低轨卫星通信星座的高效拓扑管理。研究并设计了一种“3条固定+1条动态”的星间激光链路结构,并将链路调度建模为马尔可夫决策过程,通过多智能体深度强化学习实现基于局部状态的分布式优化,有效提升了算法的收敛性与可扩展性。为降低系统开销,进一步引入压缩感知方法对状态信息降维,减少了通信与计算负担。仿真结果表明,本文方法可以有效的降低星间传输跳数与卫星网络能耗,为未来星间激光链路的智能调度与拓扑优化提供了新思路,具有重要的理论意义与应用价值。
论文信息
G. Wang, F. Yang, J. Song and Z. Han, “Optimization for Dynamic Laser Inter-Satellite Link Scheduling with Routing: A Multi-Agent Deep Reinforcement Learning Approach,” in IEEE Trans. Commun., vol. 72, no. 5, pp. 2762-2778, May 2024.
免责声明:本文旨在传递更多科研资讯及分享,所有其他媒、网来源均注明出处,如涉及版权问题,请作者第一时间联系我们,我们将协调进行处理,最终解释权归旭为光电所有。




