WO2023226183A1

WO2023226183A1 - 一种基于多智能体协作的多基站排队式前导码分配方法

Info

Publication number: WO2023226183A1
Application number: PCT/CN2022/107420
Authority: WO
Inventors: 孙君; 过萌竹; 陆音
Original assignee: 南京邮电大学
Priority date: 2022-05-24
Filing date: 2022-07-22
Publication date: 2023-11-30
Also published as: CN115066036A

Abstract

本发明公开了一种基于多智能体协作的多基站排队式前导码分配方法，针对海量智能体随机接入时发生的拥塞问题，在多基站多小区的场景下，提出了一种非竞争的前导码分配方法。基于深度强化学习将设备排队式地选择前导码，并采用联邦学习的训练方法，有效解决了竞争接入时会发生的拥塞问题。首先对新接入的智能体进行分组，根据延迟容忍时间来设定优先级；其次基于多智能的强化学习算法将智能体合理分配给空闲队列；最后采用联邦训练方法，通过神经网络梯度的平均优化来同步优化每个智能体的神经网络，完成各智能体的前导码分配。

Description

一种基于多智能体协作的多基站排队式前导码分配方法

技术领域

本发明属于无线通信技术领域，具体涉及物联网大规模机器类设备随机接入时的一种前导码分配方法。

背景技术

大规模机器类通信(mMTC)是第五代移动通信技术的三大应用场景之一。机器类型通信是第五代新无线电(5G NR)的一项关键技术，在远程医疗，自动驾驶，智能交通等重要且关键的应用场景发挥巨大的作用。机器类通信(MTC)也被称为M2M通信，与人与人(H2H)通信不同，M2M通信主要发生在上行链路，终端数量庞大，持续时间短且次数频繁。传统的接入方法下，MTC设备总是会选择最佳信号质量的演进型Node B进行接入，大量的MTC设备进行碰撞，造成网络的拥塞，严重影响设备的接入成功率。因此，如何为大规模MTCD的随机接入设计合理的方案成为5G移动通信系统的关键。最有前途的解决方案是使用强化学习来制定一套前导码分配方案，让设备做决策，选择合适的前导码，最大限度减少随机接入时发生的冲突。这些方案中，设备互相竞争前导码，在设备数量越来越大的情况下，冲突无法避免，并且接入成功率将越来越低。因此需要制定合理的前导码分配方案来为大规模MTCD随机接入减少甚至避免冲突。

发明内容

本发明目的：在于提供针一种基于多智能体协作的多基站排队式前导码分配方法，针对海量多智能体随机接入时发生的拥塞问题，在多基站多小区的场景下，提出了一种非竞争的前导码分配方法。

为实现以上功能，本发明设计一种基于多智能体协作的多基站排队式前导码分配方法，目标区域内包括由至少两个基站组成的网络，每个基站分别均包括前导码池，针对接入网络的各智能体，执行以下步骤S1-步骤S3，完成各智能体的前导码分配；

S1.根据各智能体的业务种类，对接入网络的各智能体进行分组，分别针对各组智能体，计算平均延迟容忍度，并按照升序排列各组智能体的平均延迟容忍度，获得优先级集；

S2.分别针对各组智能体，基于强化学习算法对各组中的各智能体进行前导码分配；

其中，每个前导码对应一个队列，以各队列的最大排队数构建状态空间S，以智能体选择前导码进行排队的动作构建动作空间A，以状态空间S为输入，基于深度神经网络，结合Q学习方法，智能体基于贪婪策略，以收益最大化为目标，选择动作空间A中的动作作为智能体的可执行动作，以智能体的可执行动作的Q值为输出，构建本地智能体前导码分配模型；

S3.基于各智能体对应的本地智能体前导码分配模型、以及联邦智能体，构建全局智能体前导码分配模型，基于联邦学习方法，对全局智能体前导码分配模型进行训练，获得训练好的全局智能体前导码分配模型，应用全局智能体前导码分配模型，完成接入网络的各智能体的前导码分配。

作为本发明的一种优选技术方案：步骤S1中根据业务种类，对接入网络的各智能体进行分组，分别针对各组智能体，计算平均延迟容忍度，并按照升序排列各组智能体的平均延迟容忍度，获得优先级集的具体步骤如下：

S11:根据各智能体的业务的时延要求，计算各智能体的业务的相似度如下式：

式中，c(i，j)为业务i与业务j的相似度，t _i为业务i的时延要求，t _j为业务j的时延要求，σ为相似度系数，0≤c(i，j)≤1；

根据各智能体的业务的相似度，将相似度差值小于预设值的智能体的业务作为同类业务，所对应的智能体分为同组智能体；

S12:分别针对各组智能体，计算平均延迟容忍度如下式：

式中，N _k表示第k组中智能体的数量，

表示第k组智能体的平均延迟容忍度；

S13:分别计算各组智能体的平均延迟容忍度，表示为

其中n为智能体的组数，将各组智能体的平均延迟容忍度按照升序排列，并依次赋予优先级，其中优先级次序为平均延迟容忍度最小的智能体组赋予最高优先级，平均延迟容忍度最大的智能体组赋予最低优先级，获得由各智能体组的优先级构成的优先级集。

作为本发明的一种优选技术方案：步骤S2的具体步骤如下：

S21:每个前导码对应一个队列，以t时刻各队列的最大排队数构建状态如下式：

s _t＝{p ¹，p ²，...，p ⁱ，...,p ^M}

式中，s _t为t时刻的状态，p ⁱ为第i个队列的最大排队数，i∈{1，2，...，M}，M为队列总数；

以初始时刻至t时刻的状态构建状态空间S如下式：

S＝{s ₀，s ₁，...，s _t}

其中，s ₀，s ₁，...，s _t表示初始时刻至t时刻的状态，s ₀为初始时刻的状态；

S22:智能体接入网络时，在M个前导码所对应的队列中选择一个进行排队，以智能体选择前导码进行排队的动作构建动作空间A如下式：

A＝{a ¹，a ²，...，a ⁱ，...，a ^M}

式中，a ⁱ表示智能体的动作策略，即选择第i个前导码进行排队的动作；

S23:针对智能体选择执行的动作策略a ¹，a ²，...，a ⁿ，分别对应奖励r ¹，r ²，...，r ⁿ，并构建奖励函数R如下式：

R＝r ⁱ(r ¹，r ²，...，r ⁿ)

引入智能体的优先级，以及各队列的方差，将奖励函数R转化为如下形式：

式中，f ⁱ(a ¹，a ²，...，a ⁿ)表示智能体i的优先级，g ⁱ(a ¹，a ²，...，a ⁿ)表示队列的方差；

S24:基于深度神经网络，结合Q学习方法，构建本地智能体前导码分配模型，以状态空间S为输入，以智能体的可执行动作的Q值为输出，智能体在s _t状态下的每个动作对应Q值Q(s _t，a _t),其中a _t具体如下式：

式中，a表示状态s _t下所有可执行的动作；

根据Q学习算法，通过下式更新下一时刻的Q值Q _k+1(s _t，a _t)：

式中，α _k和γ分别为学习率和折扣因子，s _t+1表示下一时刻状态，r _t+1表示在状态s _t+1下智能体的可执行动作所获得的奖励，a′表示状态s _t+1下智能体的可执行动作，A为动作空间，Q _k(s _t，a _t)表示状态s _t下的Q值，

表示状态s _t+1下动作空间A中的各可执行动作所对应的最大Q值；

S25:更新状态s _t+1及其所对应的奖励r _t+1，构建经验样本(s _t，a _t，s _t+1，r _t+1)，并存放到经验库中；

S26:各智能体的损失函数L _i(θ)如下式：

L _i(θ)＝E[(y ^DQN-Q _k(s _t，a _t；θ)) ²]

式中，θ表示在线网络的权重；

其中，y ^DQN的计算具体如下式：

式中，a′ _i表示在状态s′下使目标网络Q值最大的动作，θ ^-表示权重；

S27:随机抽取经验库中的各经验样本对本地智能体前导码分配模型进行训练。

作为本发明的一种优选技术方案：步骤S2中本地智能体前导码分配模型训练预设次数后再进行状态更新。

作为本发明的一种优选技术方案：步骤S2中各智能体使用ε贪婪策略选择动作a _i，以探索因子ε的概率选择动作空间A中的动作策略，以(1-ε)的概率选择动作空间A中的最佳动作策略。

作为本发明的一种优选技术方案：步骤S3中基于联邦学习方法，对全局智能体前导码分配模型进行训练的具体步骤如下：

S31:所有智能体根据当前状态，选择动作策略，并获得相应的奖励；

S32:各智能体将当前状态输入各自的本地智能体前导码分配模型中的深度神经网络中进行学习，获得各本地智能体前导码分配模型的参数，并发送至联邦智能体；

S33:联邦智能体采用聚合平均算法，对各本地智能体前导码分配模型的参数进行学习，获得全局智能体前导码分配模型，其中全局智能体前导码分配模型参数如下式：

式中，θ _g为全局智能体前导码分配模型权重，θ _l为本地智能体前导码分配模型权重，D为训练数据的数量，D _k表示第k个参与方所拥有的数据数量。

有益效果：相对于现有技术，本发明的优点包括：

(1)与传统竞争前导码方式不同，非竞争排队接入可以解决碰撞问题，在同一条件下可以使更多的智能体接入。

(2)本发明中智能体进行决策时，采用了基于多智能体强化学习算法来协作选择合适的前导码，采用该学习算法可以更好的适应环境变化作出最优决策。

(3)采用联邦学习来进行训练，可以提高强化学习的性能，训练出更健壮的模型。

附图说明

图1是根据本发明实施例提供的智能体分组示意图；

图2是根据本发明实施例提供的智能体接入网络的示意图；

图3是根据本发明实施例提供的智能体神经网络结构图；

图4是根据本发明实施例提供的联邦训练模型图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

本发明实施例提供的一种基于多智能体协作的多基站排队式前导码分配方法，目标区域内包括由至少两个基站组成的网络，每个基站分别均包括前导码池，针对接入网络的各智能体，执行以下步骤S1-步骤S3，完成各智能体的前导码分配；

S1.智能体为MTC设备，各智能体均有各自的业务种类，根据各智能体的业务种类，对接入网络的各智能体进行分组，分别针对各组智能体，计算平均延迟容忍度，并按照升序排列各组智能体的平均延迟容忍度，获得优先级集，智能体分组示意图参照图1；

步骤S1的具体步骤如下：

S11:网络中存在着不同的业务种类，根据各业务种类对时延的敏感程度不同分为时延容忍业务和时延敏感业务。除此之外，还需要考虑到各智能体的QoS要求，由于同时接入网络的智能体数量多，同一时刻接入的业务种类也是有所不同的。针对当前网络对MTC应用的要求，采用各业务种类的时延要求来度量业务种类的相关性，根据各智能体的业务的时延要求，计算各智能体的业务的相似度如下式：

式中，c(i，j)为业务i与业务j的相似度，t _i为业务i的时延要求，t _j为业务j的时延要求，σ为相似度系数，0≤c(i，j)≤1，c(i，j)越大，两业务越相似；

S12:分别针对各组智能体，计算平均延迟容忍度如下式：

式中，N _k表示第k组中智能体的数量，

表示第k组智能体的平均延迟容忍度；

S13:分别计算各组智能体的平均延迟容忍度，表示为

S2.分别针对各组智能体，基于强化学习算法对各组中的各智能体进行前导码分配，运用强化学习的思想，智能体不断与网络交互，基于网络来选择可以获得最大化收益的动作；

强化学习用于解决马尔可夫决策过程的问题。在强化学习中，智能体可以周期性的学习采取行动，观察最大收益并自动调整动作策略，以获得最优动作策略。由于对智能体进行了分组，多个智能体在与网络的交互中进行学习。多智能体在竞争博弈的情况下，可达到局部最优，但不能满足整体网络性能最大化。为了达到优化问题的目标，将多智能体问题转化为合作博弈，对所有智能体使用相同的奖励函数。

其中，每个前导码对应一个队列，以各队列的最大排队数构建状态空间S，以智能体选择前导码进行排队的动作构建动作空间A，以状态空间S为输入，基于深度神经网络，结合Q学习方法，智能体基于贪婪策略，以收益最大化为目标，选择动作空间A中的动作作为智能体的可执行动作，以智能体的可执行动作的Q值为输出，构建本地智能体前导码分配模型，智能体接入网络的示意图参照图2，图中R ₁，R ₂，...，R _M-1，R _M表示前导码；

步骤S2的具体步骤如下：

s _t＝{p ¹，p ²，...，p ⁱ，...，p ^M}

以初始时刻至t时刻的状态构建状态空间S如下式：

S＝{s ₀，s ₁，...，s _t}

A＝{a ¹，a ²，...，a ⁱ，...，a ^M}

R＝r ⁱ(r ¹，r ²，...，r ⁿ)

当每个队列中排队的智能体数量趋向于一致时，此时不存在空闲的队列，因此不存在前导码闲置的情况，此时接入效率更高。当智能体数量很多时，优先级高的智能体会更快进入队列，在延迟容忍时间内接入，保证智能体的接入成功率。

式中，f ⁱ(a ¹，a ²，...，a ⁿ)表示智能体i的优先级，优先级最高的智能体进入队列获得的奖励最大，g ⁱ(a ¹，a ²，...，a ⁿ)表示队列的方差；

S24:基于深度神经网络，结合Q学习方法，构建本地智能体前导码分配模型，以状态空间S为输入，以智能体的可执行动作的Q值为输出，智能体的神经网络结构图参照图3，智能体在s _t状态下的每个动作对应Q值Q(s _t，a _t),其中a _t具体如下式：

式中，a表示状态s _t下所有可执行的动作；

S26:各智能体的损失函数L _i(θ)如下式：

L _i(θ)＝E[(y ^DQN-Q _k(s _t，a _t；θ)) ²]

式中，θ表示在线网络的权重；

其中，y ^DQN的计算具体如下式：

在一个实施例中，步骤S2中本地智能体前导码分配模型训练预设次数后再进行状态更新。

在一个实施例中，步骤S2中各智能体使用ε贪婪策略选择动作a _i，以探索因子ε的概率选择动作空间A中的动作策略，以(1-ε)的概率选择动作空间A中的最佳动作策略。

S3.基于各智能体对应的本地智能体前导码分配模型、以及联邦智能体，构建全局智能体前导码分配模型，基于联邦学习方法，对全局智能体前导码分配模型进行训练，获得训练好的全局智能体前导码分配模型，应用全局智能体前导码分配模型，完成接入网络的各智能体的前导码分配，联邦训练模型图参照图4。

由于多智能体系统中的单个智能体面临不同的任务或情况，存储在经验库中的经验样本无法适应变化。因此采用一种联邦训练方法，通过神经网络梯度的平均优化来同步优化每个智能体的神经网络。在这种联邦训练方法中，每个智能体通过本地的经验和来自其他协作智能体的神经网络梯度来优化自身神经网络。设计一个联邦智能体，目的是收集所涉及智能体的各种局部梯度并进行平均优化。这个联邦智能体具有与其他智能体相同的神经网络结构，但不采取任何行动。

步骤S3中基于联邦学习方法，对全局智能体前导码分配模型进行训练的具体步骤如下：

上面结合附图对本发明的实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

一种基于多智能体协作的多基站排队式前导码分配方法，其特征在于，目标区域内包括由至少两个基站组成的网络，每个基站分别均包括前导码池，针对接入网络的各智能体，执行以下步骤S1-步骤S3，完成各智能体的前导码分配；

S1.根据各智能体的业务种类，对接入网络的各智能体进行分组，分别针对各组智能体，计算平均延迟容忍度，并按照升序排列各组智能体的平均延迟容忍度，获得优先级集；

S2.分别针对各组智能体，基于强化学习算法对各组中的各智能体进行前导码分配；

其中，每个前导码对应一个队列，以各队列的最大排队数构建状态空间S，以智能体选择前导码进行排队的动作构建动作空间A，以状态空间S为输入，基于深度神经网络，结合Q学习方法，智能体基于贪婪策略，以收益最大化为目标，选择动作空间A中的动作作为智能体的可执行动作，以智能体的可执行动作的Q值为输出，构建本地智能体前导码分配模型；

S3.基于各智能体对应的本地智能体前导码分配模型、以及联邦智能体，构建全局智能体前导码分配模型，基于联邦学习方法，对全局智能体前导码分配模型进行训练，获得训练好的全局智能体前导码分配模型，应用全局智能体前导码分配模型，完成接入网络的各智能体的前导码分配。
如权利要求1所述的一种基于多智能体协作的多基站排队式前导码分配方法，其特征在于，步骤S1中根据业务种类，对接入网络的各智能体进行分组，分别针对各组智能体，计算平均延迟容忍度，并按照升序排列各组智能体的平均延迟容忍度，获得优先级集的具体步骤如下：

S11:根据各智能体的业务的时延要求，计算各智能体的业务的相似度如下式：

式中，c(i，j)为业务i与业务j的相似度，t _i为业务i的时延要求，t _j为业务j的时延要求，σ为相似度系数，0≤c(i，j)≤1；

根据各智能体的业务的相似度，将相似度差值小于预设值的智能体的业务作为同类业务，所对应的智能体分为同组智能体；

S12:分别针对各组智能体，计算平均延迟容忍度如下式：

式中，N _k表示第k组中智能体的数量，
表示第k组智能体的平均延迟容忍度；

S13:分别计算各组智能体的平均延迟容忍度，表示为
其中n为智能体的组数，将各组智能体的平均延迟容忍度按照升序排列，并依次赋予优先级，其中优先级次序为平均延迟容忍度最小的智能体组赋予最高优先级，平均延迟容忍度最大的智能体组赋予最低优先级，获得由各智能体组的优先级构成的优先级集。
如权利要求2所述的一种基于多智能体协作的多基站排队式前导码分配方法，其特征在于，步骤S2的具体步骤如下：

S21:每个前导码对应一个队列，以t时刻各队列的最大排队数构建状态如下式：

s _t＝{p ¹，p ²，...，p ⁱ，...，p ^M}

式中，s _t为t时刻的状态，p ⁱ为第i个队列的最大排队数，i∈{1，2，...，M}，M为队列总数；

以初始时刻至t时刻的状态构建状态空间S如下式：

S＝{s ₀，s ₁，...，s _t}

其中，s ₀，s ₁，...，s _t表示初始时刻至t时刻的状态，s ₀为初始时刻的状态；

S22:智能体接入网络时，在M个前导码所对应的队列中选择一个进行排队，以智能体选择前导码进行排队的动作构建动作空间A如下式：

A＝{a ¹，a ²，...，a ⁱ，...，a ^M}

式中，a ⁱ表示智能体的动作策略，即选择第i个前导码进行排队的动作；

S23:针对智能体选择执行的动作策略a ¹，a ²，...，a ⁿ，分别对应奖励r ¹，r ²，...，r ⁿ，并构建奖励函数R如下式：

R＝r ⁱ(r ¹，r ²，...，r ⁿ)

引入智能体的优先级，以及各队列的方差，将奖励函数R转化为如下形式：

式中，f ⁱ(a ¹，a ²，...，a ⁿ)表示智能体i的优先级，g ⁱ(a ¹，a ²，...，a ⁿ)表示队列的方差；

S24:基于深度神经网络，结合Q学习方法，构建本地智能体前导码分配模型，以状态空间S为输入，以智能体的可执行动作的Q值为输出，智能体在s _t状态下的每个动作对应Q值Q(s _t，a _t),其中a _t具体如下式：

式中，a表示状态s _t下所有可执行的动作；

根据Q学习算法，通过下式更新下一时刻的Q值Q _k+1(s _t，a _t)：

式中，α _k和γ分别为学习率和折扣因子，s _t+1表示下一时刻状态，r _t+1表示在状态s _t+1下智能体的可执行动作所获得的奖励，a′表示状态s _t+1下智能体的可执行动作，A为动作空间，Q _k(s _t，a _t)表示状态s _t下的Q值，
表示状态s _t+1下动作空间A中的各可执行动作所对应的最大Q值；

S25:更新状态s _t+1及其所对应的奖励r _t+1，构建经验样本(s _t，a _t，s _t+1，r _t+1)，并存放到经验库中；

S26:各智能体的损失函数L _i(θ)如下式：

L _i(θ)＝E[(y ^DQN-Q _k(s _t，a _t；θ)) ²]

式中，θ表示在线网络的权重；

其中，y ^DQN的计算具体如下式：

式中，a′ _i表示在状态s′下使目标网络Q值最大的动作，θ ^-表示权重；

S27:随机抽取经验库中的各经验样本对本地智能体前导码分配模型进行训练。
如权利要求3所述的一种基于多智能体协作的多基站排队式前导码分配方法，其特征在于，步骤S2中本地智能体前导码分配模型训练预设次数后再进行状态更新。
如权利要求3所述的一种基于多智能体协作的多基站排队式前导码分配方法，其特征在于，步骤S2中各智能体使用ε贪婪策略选择动作a _i，以探索因子ε的概率选择动作空间A中的动作策略，以(1-ε)的概率选择动作空间A中的最佳动作策略。
如权利要求3所述的一种基于多智能体协作的多基站排队式前导码分配方法，其特征在于，步骤S3中基于联邦学习方法，对全局智能体前导码分配模型进行训练的具体步骤如下：

S31:所有智能体根据当前状态，选择动作策略，并获得相应的奖励；

S32:各智能体将当前状态输入各自的本地智能体前导码分配模型中的深度神经网络中进行学习，获得各本地智能体前导码分配模型的参数，并发送至联邦智能体；

S33:联邦智能体采用聚合平均算法，对各本地智能体前导码分配模型的参数进行学习，获得全局智能体前导码分配模型，其中全局智能体前导码分配模型参数如下式：

式中，θ _g为全局智能体前导码分配模型权重，θ _l为本地智能体前导码分配模型权重，D为训练数据的数量，D _k表示第k个参与方所拥有的数据数量。