WO2021128805A1

WO2021128805A1 - 一种基于生成对抗强化学习的无线网络资源分配方法

Info

Publication number: WO2021128805A1
Application number: PCT/CN2020/100753
Authority: WO
Inventors: 李荣鹏; 华郁秀; 马琳; 张宏纲
Original assignee: 浙江大学
Priority date: 2019-12-24
Filing date: 2020-07-08
Publication date: 2021-07-01
Also published as: US20220232531A1; CN111182637A; CN111182637B; US11452077B2

Abstract

本发明公开一种基于生成对抗强化学习的无线网络资源分配方法，属于无线资源分配以及强化学习领域。该方法包括：生成器网络G和鉴别器网络D的初始化，执行资源分配，训练生成器网络G和鉴别器网络D的权重，最后实现无线网络资源分配。本发明得到的资源分配策略相较于基于DQN的资源分配方法以及平均分配资源的方法，能得到更高的系统回报值，即更高的频谱效率和更好的用户体验。

Description

一种基于生成对抗强化学习的无线网络资源分配方法

本申请要求于2019年12月24日提交中国专利局、申请号为201911347500.1、发明名称为“一种基于生成对抗强化学习的无线网络资源分配方法”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及无线网络资源分配以及强化学习技术领域，特别是涉及一种基于生成对抗强化学习的无线网络资源分配方法。

背景技术

5G网络将支持大量来自垂直行业的多样化业务场景，例如智能安防、高清视频、远程医疗、智能家居、自动驾驶和增强现实等，这些业务场景通常具有不同的通信需求，比如增强现实技术需要更低的时延，自动驾驶技术需要网络提供更高的可靠性。然而，传统移动网络主要被设计用来服务单一的移动宽带业务，无法适应未来5G多样化的业务场景。如果为每种业务场景都建设一个专有的物理网络必然会导致网络运维复杂、成本昂贵以及可扩展性差等问题。

为了解决上述问题，网络切片技术应运而生。具体地，在一个共同的物理网络上，网络和计算等资源可以被划分成多个切片以满足不同的需求。这使得网络租户可以根据特定的要求来编排和配置不同的网络切片实例，从而有效地降低成本，提高网络的灵活性。

为了提供性能更好，成本更低的服务，无线接入网(Radio Access Network，RAN)切片在实现对现有切片上的资源进行实时管理方面面临一些具有挑战性的技术问题：(a)对于RAN，频谱是一种稀缺资源，因此保证频谱效率(Spectrum Efficiency，SE)至关重要；(b)切片租户的服务水平协议(Service Level Agreement，SLA)通常对用户的体验质量(Quality of Experience，QoE)提出严格要求；(c)每个切片的实际资源需求很大程度上取决于用户的请求模式。

传统的专用资源分配无法同时解决这些问题。因此，有必要根据用户的服务请求动态地智能地将频谱资源分配给不同切片，以便在获得令人满意的QoE的同时保持较高的SE。

另一方面，强化学习是一种致力于寻求最优决策的机器学习方法，主体感知环境状中的状态信息，搜索可以产生最大累计回报(这种累计回报也被称为动作值)的动作，执行该动作从而引起状态的改变并得到一个即时回报值，更新对累计回报的估计(动作值函数)，完成一次学习过程，进入下一轮的学习训练，重复循环迭代，直到满足学习终止条件。

然而传统的基于动作值学习的方法(如深度Q网络)难以应付环境中存在的干扰和即时回报的不确定性，因此人们引入了分布强化学习，其主要变化在于直接对动作值分布进行估计，而不像传统方法那样估计动作值的期望。

生成对抗网络最先被用来生成能够以假乱真的图像，后来逐渐被很多领域用作数据生成的工具。生成对抗网络由两个神经网络组成，分别是生成网络和判别网络。以生成图像为例，生成网络负责将从高斯白噪声中采样得到的数据映射到真实图像的空间，得到生成出来的“假”的图像；然后“假”图像和真实图像会被打乱输入判别网络，判别网络输出所给图像是真实图像的概率。生成网络的目标是产生尽可能逼真的图像，以迷惑判别网络；判别网络的目标是尽可能准确地区分“假”图像和真实图像。两个神经网络交替训练，最终会达到纳什均衡，在这个平衡点上，生成网络产生的图像和真实图像已不能被判别网络区分。

发明内容

基于此，本发明的目的是提供一种基于生成对抗强化学习的无线网络资源分配方法，相较于传统的专用资源分配方法，本发明提出的方法更加的高效灵活；对比其他基于强化学习的方法，本发明提出的方法能够减少通信环境中的干扰因素和即时回报的不确定性带来的负面影响。因此，采用生成对抗强化学习算法进行无线网络资源分配，能够大幅提高无线网络性能。

为实现上述目的，本发明提供了一种基于生成对抗强化学习的无线网络资源分配方法，该方法包括以下步骤：

(1)生成器网络G和鉴别器网络D的初始化，具体包括以下子步骤：

(1.1)生成对抗强化学习算法中包括两个神经网络，分别为生成器网络G和鉴别器网络D，通过高斯分布分别将所述生成器网络G和所述鉴别器网络D的权重进行随机初始化；同时，设置

网络，其中，所述

网络的结构与所述生成器网络G的结构相同，并通过复制生成器网络G权重的方法完成

网络权重初始化；

(1.2)所述生成器网络G输入网络状态s，输出N _a×N维向量，将所述生成器网络G输出的N _a×N维向量顺序切分，得到N _a个N维向量；所述鉴别器网络D输入N维向量，所述鉴别器网络D输入的N维向量取自所述生成器网络G的输出或者通过所述

网络的输出与即时回报计算得到，所述生成器网络G输出一个表示输入真实性的标量，所述标量与0的差值的绝对值小于所述标量与1的差值的绝对值，则所述鉴别器网络D判断输入的向量取自所述生成器网络G的输出，所述标量与1的差值的绝对值小于所述标量与0的差值的绝对值，则所述鉴别器网络D判断输入的向量是由所述

网络的输出与所述即时回报计算得到；

其中，N表示对Z(s,a)采样的样本个数，N _a个N维向量中第p个向量表示第p个动作得到的总体回报的分布的采样值，Z(s,a)表示网络状态s下动作a得到的累计回报的分布，网络状态s为一个时间间隔内每种类型服务请求的数量，动作a代表为每种类型服务分配的带宽大小，N _a为有效动作的数量；

(2)执行资源分配，具体包括以下子步骤：

(2.1)无线资源管理器获取当前t时刻网络状态s的观测值s _t；无线资源管理器采用∈-greedy策略选择动作a _t；当执行了动作a _t，无线资源管理器接收到系统回报值J，并观察到t+1时刻的网络状态s的观测值s _t+1；

所述无线资源管理器采用∈-greedy策略选择动作a _t具体包括：无线资源管理器从(0,1)均匀分布中获取一个随机数，如果所述随机数小于∈，无线资源管理器随机选择一个有效的动作；如果所述随机数大于或等于∈，无线资源管理器将s _t输入所述生成器网络G，得到N _a个动作的累计回报分布的采样值，然后分别计算每个动作的累计回报分布的采样值的均值，选取最大均值对应的动作；

(2.2)无线资源管理器设置两个阈值c ₁和c ₂以及固定即时回报的绝对值ξ，其中c ₁＞c ₂，并设定当J＞c ₁时，t时刻的即时回报r _t＝ξ；当c ₂＜J＜c ₁时，t时刻的即时回报r _t＝0；当J＜c ₂时，t时刻的即时回报r _t＝-ξ；

(2.3)无线资源管理器将(s _t，a _t，r _t，s _t+1)四元组储存到一个大小为N _B的缓存区B里；如果B的空间满了，最先存到B中的四元组会被删除，然后存进去最新的四元组；

(3)每执行步骤2的资源分配K次，再利用B中储存的四元组训练生成器网络G和鉴别器网络D的权重；

(3.1)首先训练鉴别器网络D，具体过程为：

从B中随机选取m个四元组(s _t，a _t，r _t，s _t+1)作为训练数据；

将m个四元组中的t时刻网络状态的观测值s _t组合成m×N _s的矩阵[s ₁，s ₂，…s _m] ^T，s _m表示第m个t时刻网络状态的观测值s _t，将组合成的矩阵输入生成器网络G，得到m个t时刻网络状态的观测值s _t下每个动作的累计回报分布的采样值，然后保留a ₁，a ₂，…a _m对应的采样值，记作G(s ₁)，G(s ₂)，…G(s _m)；N _s为服务类型的数量，G(s _m)为在第m个t时刻网络状态的观测值s _t下采取动作a _m，得到的N个回报采样值，记G(s _m)为估计动作值分布的采样值；

将训练数据中的m个t+1时刻网络状态的观测值s _t+1组合成m×N _s的矩阵[s′ ₁，s′ ₂，…s′ _m] ^T，并将其输入

网络，得到m个t+1时刻网络状态的观测值s _t+1下每个动作的累计回报分布的采样值，然后保留每个t+1时刻网络状态的观测值s _t+1下产生的最大累计回报均值的采样值，记作

s _m’表示第m个t+1时刻网络状态的观测值s _t+1；

令

其中，y _i为目标动作值分布的采样值，r _i为即时回报，γ为折扣因子；

从(0,1)均匀分布中随机获取m个样本，记作ε ₁，ε ₂，…ε _m，

令

其中，

为目标动作值分步采样值和估计动作值分布采样值的加权和；

鉴别器网络D的损失函数L _D为：

其中，D(G(s _i))表示输入为G(s _i)时，鉴别器网络D的输出；D(y _i)表示输入为y _i时，鉴别器网络D的输出；

表示输入为

时，鉴别器网络D的输出；

表示

关于

求导得到的梯度值，λ为惩罚因子；然后用梯度下降算法训练鉴别器网络D的权重，完成一次鉴别器网络D的训练；

(3.2)训练鉴别器网络D n _d次后，获得鉴别器网络D的最新权重值，参与训练生成器网络G；

生成器网络G的损失函数L _G为

然后应用梯度下降算法训练生成器网络G的权重；

(3.3)每完成上述训练过程(3.1)和(3.2)C次，将生成器网络G的权重复制给

网络，实现

网络权重的更新；

(4)步骤(3)执行N _train次后，完成对鉴别器网络D和生成器网络G的训练。无线资源管理器将当前网络状态输入生成器网络G，生成器网络G输出每个资源分配策略对应的累计回报分布的采样，然后分别计算每个资源分配策略回报采样值的均值，取最大均值对应的动作作为无线资源管理器对应的资源分配策略。

可选的，折扣因子γ为0.75～0.9。

可选的，N的取值为30～55。

可选的，∈初始值为0.9，每执行100次资源分配的步骤(2)∈减少0.05，当∈减小到0.05时保持不变；ξ为0.8～1.5。

可选的，缓存区B的大小N _B为3000～10000。

可选的，n _d的取值为1～10；四元组个数m为32或64。

可选的，惩罚因子λ为10，20或30。

可选的，训练生成器网络G和鉴别器网络D所使用的梯度下降算法均为Adam，学习率均为0.001。

可选的，执行资源分配次数K为10～50。

可选的，N _train的取值为2000～3000。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

(1)本发明利用强化学习方法对动作值的分布进行估计。相较于传统估计动作值期望的方法，本发明提出的学习方法具有更好的稳定性和自适应性，能使无线资源管理器从存在噪声干扰和随机性的系统环境中学习到最优的资源分配策略。

(2)本发明采用生成器和鉴别器两个神经网络交替训练的方法，学习动作值的分布。相较于传统的学习随机变量分布的方法，本发明不需要任何对动作值分布的先验假设。

(3)本发明得到的资源分配策略相较于基于流量预测结果分配资源以及平均分配资源的方法，能得到更高的系统回报值，即更高的频谱效率和更好的用户体验。

说明书附图

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例生成对抗强化学习的无线网络资源分配方法流程图；

图2为本发明实施例当超可靠低时延服务的数据包大小从{6.4,12.8,19.2,25.6,32}Kbyte中均匀取值时，本发明方法与DQN的资源分配算法、平均分配的方法的系统回报值在无线资源分配过程中的变化图；

图3为本发明实施例当超可靠低时延服务的数据包大小从{0.3,0.4,0.5,0.6,0.7}Mbyte中均匀取值时，本发明方法与DQN的资源分配算法、平均分配的方法的系统回报值在无线资源分配过程中的变化图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是提供一种基于生成对抗强化学习的无线网络资源分配方法，相较于传统的专用资源分配方法，本发明提出的方法更加的高效灵活；对比其他基于强化学习的方法，本发明提出的方法能够减少通信环境中的干扰因素和即时回报的不确定性带来的负面影响。因此，采用生成对抗强化学习算法进行无线网络资源分配，能够大幅提高无线网络性能。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1，为本发明生成对抗强化学习的无线网络资源分配方法流程图，具体包括以下步骤：

(1.1)生成对抗强化学习算法中包含两个神经网络，记作生成器网络G和鉴别器网络D，通过高斯分布分别将所述生成器网络G和鉴别器网络D的权重进行随机初始化。为了增强算法的收敛性，设置

网络，其中，

网络的结构与所述生成器网络G的结构完全相同，并通过复制生成器网络G权重的方法完成自身权重初始化。

(1.2)所述生成器网络G输入强化学习中的网络状态s，输出N _a×N维向量，将生成器网络G输出的N _a×N维向量顺序切分，得到N _a个N维向量，N的取值为30～50，N过小的话不能充分刻画动作值分布，N过大会增加计算量。所述鉴别器网络D输入N维向量，该向量取自生成器网络G的输出或者通过

网络输出与即时回报r计算得到，通过全连接神经网络计算，输出一个标量。生成器网络G输出一个表示输入真实性的标量，该标量与0的差值的绝对值小于该标量与1的差值的绝对值，则鉴别器网络D判断输入的向量取自生成器网络G的输出，标量与1的差值的绝对值小于标量与0的差值的绝对值，则鉴别器网络D判断输入的向量是由所述

网络的输出与即时回报计算得到。

其中，N表示对Z(s,a)采样的样本个数，N _a个N维向量中第p个向量表示第p个动作得到的总体回报的分布的采样值，Z(s,a)表示网络状态s下动作a得到的总体回报的分布，网络状态s为一个时间间隔内每种类型服务请求的数量，动作a代表为每种类型服务分配的带宽大小，N _a为有效动作的数量。

(2)执行资源分配，具体包括以下子步骤：

(2.1)无线资源管理器获取当前t时刻网络状态s的观测值s _t。无线资源管理器采用∈-greedy策略选择动作a _t；当执行了动作a _t，无线资源管理器接收到系统回报值J，并观察到t+1时刻的网络状态s的观测值s _t+1。

无线资源管理器采用∈-greedy策略选择动作a _t具体包括：无线资源管理器从(0,1)均匀分布中获取一个随机数，如果该随机数小于∈，无线资源管理器随机选择一个有效的动作。如果该随机数大于或等于∈，无线资源管理器将s _t输入所述生成器网络G，得到N _a个动作的总体回报分布的采样值，然后分别计算每个动作的累计回报分布的采样值的均值，选取最大均值对应的动作，记这一步无线资源管理器采取的动作为a _t。当执行了动作a _t，无线资源管理器接收到系统回报值J，并观察到t+1时刻的网络状态的观测值s _t+1。这里，∈初始值为0.9，每运行100次资源分配步骤(2)，∈减少0.05，当减小到0.05时保持不变。

(2.2)无线资源管理器设置两个阈值c ₁和c ₂(c ₁＞c ₂)以及固定即时回报的绝对值ξ，并规定当J＞c ₁时，t时刻的即时回报r _t＝ξ；当c ₂＜J＜c ₁时，t时刻的即时回报r _t＝0；当J＜c ₂时，t时刻的即时回报r _t＝-ξ；ξ的取值为0.8～1.5，ξ过小会减慢收敛速度，ξ过大会破坏训练过程的稳定性。

(2.3)无线资源管理器将(s _t，a _t，r _t，s _t+1)四元组储存到一个大小为N _B的缓存区B里，N _B的大小为3000～10000，N _B过小会破坏训练过程的稳定性，N _B过大会增加计算量。如果B的空间满了，最先存到B中的四元组会被删除，然后存进去最新的四元组。

(3)每执行步骤2的资源分配K次，K的取值为10～50，K过小会增加计算量，K过大会减慢收敛速度；再利用B中储存的四元组训练生成器网络G和鉴别器网络D的权重。

(3.1)首先训练鉴别器网络D，具体过程为：

从B中随机选取m个四元组(s _t，a _t，r _t，s _t+1)作为训练数据，m的取值为32或64。

将训练数据中的m个t时刻网络状态的观测值s _t组合成m×N _s的矩阵[s ₁，s ₂，…s _m] ^T，s _m表示第m个t时刻网络状态的观测值s _t，并将其输入生成器网络G，得到m个t时刻网络状态的观测值s _t下每个动作产生的累计回报分布的采样，然后保留a ₁，a ₂，…a _m对应的采样值，记作G(s ₁)，G(s ₂)，…G(s _m)。N _s为服务类型的数量，G(s _m)为在第m个t时刻网络状态的观测值s _t下采取动作a _m，得到的N个回报采样值，记为估计动作值分布的采样值。

网络，得到m个t+1时刻网络状态的观测值s _t+1下每个动作的累计回报分布的采样值，然后保留个t+1时刻网络状态的观测值s _t+1下产生的最大总体回报均值的采样，记作

s _m’表示第m个t+1时刻网络状态的观测值s _t+1。

令

其中，y _i为目标动作值分布的采样值，r _i为即时回报，γ为折扣因子，取值为0.75～0.9，γ过小或过大都会导致无线资源管理器在任何网络状态下都无法采取最优动作。

令

其中，

为目标动作值分步采样值和估计动作值分布采样值的加权和，i表示m个样本里的第i个。

鉴别器网络D的损失函数L _D为：

表示输入为

时，鉴别器网络D的输出；

表示

关于

求导得到的梯度值，λ为惩罚因子，取值为10，20或30，λ过小会减弱惩罚项的作用，λ过大会使得鉴别器网络D过早收敛，不利于生成器网络G的训练。然后用梯度下降算法训练鉴别器网络D的权重，完成一次鉴别器网络D的训练。

(3.2)训练鉴别器网络D n _d次后，获得鉴别器网络D的最新权重值，参与训练生成器网络G，n _d的取值为1～10，n _d过大会使得鉴别器网络D过早收敛，不利于生成器网络G的训练。

生成器网络G的损失函数L _G为

然后应用梯度下降算法训练生成器网络G的权重。

训练生成器网络G和鉴别器网络D所使用的梯度下降算法均为Adam，学习率均为0.001，学习率过小会减慢收敛速度，学习率过大会导致训练过程不稳定。

网络，实现

网络权重的更新，C的取值为50～200，C过小会导致训练过程不稳定，C过大会减慢收敛速度。

(4)步骤(3)执行N _train次后，N _train的取值为2000～3000，完成对鉴别器网络D和生成器网络G的训练，N _train过小会导致无线资源管理器在任何网络状态下都无法采取最优动作，N _train过大会增加计算量。无线资源管理器将当前网络状态向量s _t输入生成器网络G，生成器网络G输出每个资源分配策略对应的累计回报分布的采样，然后分别计算每个资源分配策略回报采样值的均值，取最大均值对应的动作作为无线资源管理器对应的资源分配策略。

在配置如表1所示的主机上，采用Python语言编写了仿真环境，并以3种不同类型服务(通话、视频和超可靠低延时服务)为例进行测试。需要分配的资源为无线带宽，总带宽为10M，分配的颗粒度为1M，所以总共有36种分配策略，即有效动作的数量为36。设置折扣因子γ为0.9，对总体回报分布采样的样本个数N为50，∈初始值为0.9，每运行100次算法减少0.05，当减小到0.05时保持不变。缓存区B的大小N _B为10000。 G网络输入层有3个神经元，第一隐藏层有512个神经元，第二隐藏层有512个神经元，输出层有1800个神经元。D网络输入层有50个神经元，第一隐藏层有256个神经元，第二隐藏层有256个神经元，输出层有1个神经元。D网络损失函数中的惩罚因子λ为30。训练G网络和D网络所使用的梯度下降算法均为Adam，学习率均为0.001。其他参数为ξ＝1.5，K＝50，n _d＝5，m＝64，C＝200。

表1系统测试平台参数

处理器	Intel i7-6900K 3.2GHZ
内存	16G DDR
显卡	NVIDIA Titan X
软件平台	Pytorch 1.0

将本发明的方法与基于DQN的资源分配算法、平均分配的方法进行比较：图2显示了三种方法得到的系统回报值在无线资源分配过程中的变化，从图中可以看出，随着迭代次数的增加，本发明提出的方法具有更好的稳定性。需要注意的事，在这个仿真中，超可靠低时延服务的数据包大小是从{6.4,12.8,19.2,25.6,32}KByte中均匀取值的，由于数据包很小，超可靠低时延服务的性能要求很容易满足，所以本发明提出的方法和基于DQN的方法都能取得很高的系统回报值。图3显示的是当超可靠低时延服务的数据包大小是从{0.3,0.4,0.5,0.6,0.7}MByte中均匀取值的情况。从图中可以看出，由于超可靠低时延服务的数据包很大，三种方法得到的系统回报值都有降低，但是本发明提出的方法得到的系统回报值要比DQN更高。

随后，再次设置折扣因子γ为0.75，对总体回报分布采样的样本个数N为30，∈初始值为0.9，每运行100次算法减少0.05，当减小到0.05时保持不变。缓存区B的大小N _B为3000。G网络输入层有3个神经元，第一隐藏层有512个神经元，第二隐藏层有512个神经元，输出层有1080个神经元。D网络输入层有50个神经元，第一隐藏层有256个神经元，第二隐藏层有256个神经元，输出层有1个神经元。D网络损失函数中的惩罚因子λ为10。训练G网络和D网络所使用的梯度下降算法均为Adam，学习率均为0.001。其他参数为ξ＝0.8，K＝10，n _d＝1，m＝32，C＝50。通过上述参数设置，采用本发明的方法进行无线网络资源分配，该方法仍然具有较好的稳定性和较高的系统回报值。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

一种基于生成对抗强化学习的无线网络资源分配方法，其特征在于，所述方法包括：

(1)生成器网络G和鉴别器网络D的初始化，具体包括以下子步骤：

(1.1)生成对抗强化学习算法中包括两个神经网络，分别为生成器网络G和鉴别器网络D，通过高斯分布分别将所述生成器网络G和所述鉴别器网络D的权重进行随机初始化；同时，设置
网络，其中，所述
网络的结构与所述生成器网络G的结构相同，并通过复制生成器网络G权重的方法完成
网络权重初始化；

(1.2)所述生成器网络G输入网络状态s，输出N _a×N维向量，将所述生成器网络G输出的N _a×N维向量顺序切分，得到N _a个N维向量；所述鉴别器网络D输入N维向量，所述鉴别器网络D输入的N维向量取自所述生成器网络G的输出或者通过所述
网络的输出与即时回报计算得到，所述生成器网络G输出一个表示输入真实性的标量，所述标量与0的差值的绝对值小于所述标量与1的差值的绝对值，则所述鉴别器网络D判断输入的向量取自所述生成器网络G的输出，所述标量与1的差值的绝对值小于所述标量与0的差值的绝对值，则所述鉴别器网络D判断输入的向量是由所述
网络的输出与所述即时回报计算得到；

其中，N表示对Z(s,a)采样的样本个数，N _a个N维向量中第p个向量表示第p个动作得到的总体回报的分布的采样值，Z(s,a)表示网络状态s下动作a得到的累计回报的分布，网络状态s为一个时间间隔内每种类型服务请求的数量，动作a代表为每种类型服务分配的带宽大小，N _a为有效动作的数量；

(2)执行资源分配，具体包括以下子步骤：

(2.1)无线资源管理器获取当前t时刻网络状态s的观测值s _t；无线资源管理器采用∈-greedy策略选择动作a _t；当执行了动作a _t，无线资源管理器接收到系统回报值J，并观察到t+1时刻的网络状态s的观测值s _t+1；

所述无线资源管理器采用∈-greedy策略选择动作a _t具体包括：无线资源管理器从(0,1)均匀分布中获取一个随机数，如果所述随机数小于∈，无线资源管理器随机选择一个有效的动作；如果所述随机数大于或等于∈，无线资源管理器将s _t输入所述生成器网络G，得到N _a个动作的累计回报分布的采样值，然后分别计算每个动作的累计回报分布的采样值的均值，选取最大均值对应的动作；

(2.2)无线资源管理器设置两个阈值c ₁和c ₂以及固定即时回报的绝对值ξ，其中c ₁＞c ₂，并设定当J＞c ₁时，t时刻的即时回报r _t＝ξ；当c ₂＜J＜c ₁时，t时刻的即时回报r _t＝0；当J＜c ₂时，t时刻的即时回报r _t＝-ξ；

(2.3)无线资源管理器将(s _t，a _t，r _t，s _t+1)四元组储存到一个大小为N _B的缓存区
里；如果
的空间满了，最先存到
中的四元组会被删除，然后存进去最新的四元组；

(3)每执行步骤(2)的资源分配K次，再利用
中储存的四元组训练生成器网络G和鉴别器网络D的权重；

(3.1)首先训练鉴别器网络D，具体过程为：

从
中随机选取m个四元组(s _t，a _t，r _t，s _t+1)作为训练数据；

将m个四元组中的t时刻网络状态的观测值s _t组合成m×N _s的矩阵[s ₁，s ₂，…s _m] ^T，s _m表示第m个t时刻网络状态的观测值s _t，将组合成的矩阵输入生成器网络G，得到m个t时刻网络状态的观测值s _t下每个动作的累计回报分布的采样值，然后保留a ₁，a ₂，…a _m对应的采样值，记作G(s ₁)，G（s ₂)，…G(s _m)；N _s为服务类型的数量，G(s _m)为在第m个t时刻网络状态的观测值s _t下采取动作a _m，得到的N个回报采样值，记G(s _m)为估计动作值分布的采样值；

将训练数据中的m个t+1时刻网络状态的观测值s _t+1组合成m×N _s的矩阵[s′ ₁，s′ ₂，…s′ _m] ^T，并将其输入
网络，得到m个t+1时刻网络状态的观测值s _t+1下每个动作的累计回报分布的采样值，然后保留每个t+1时刻网络状态的观测值s _t+1下产生的最大累计回报均值的采样值，记作
s _m’表示第m个t+1时刻网络状态的观测值s _t+1；

令

其中，y _i为目标动作值分布的采样值，r _i为即时回报，γ为折扣因子；

从(0,1)均匀分布中随机获取m个样本，记作ε ₁，ε ₂，…ε _m，

令

其中，
为目标动作值分步采样值和估计动作值分布采样值的加权和；

鉴别器网络D的损失函数L _D为：

其中，D(G(s _i))表示输入为G(s _i)时，鉴别器网络D的输出；D(y _i)表示输入为y _i时，鉴别器网络D的输出；
表示输入为
时，鉴别器网络D的输出；
表示
关于
求导得到的梯度值，λ为惩罚因子；然后用梯度下降算法训练鉴别器网络D的权重，完成一次鉴别器网络D的训练；

(3.2)训练鉴别器网络D n _d次后，获得鉴别器网络D的最新权重值，参与训练生成器网络G；

生成器网络G的损失函数L _G为

然后应用梯度下降算法训练生成器网络G的权重；

(3.3)每完成上述训练过程(3.1)和(3.2)C次，将生成器网络G的权重复制给
网络，实现
网络权重的更新；

(4)步骤(3)执行N _train次后，完成对鉴别器网络D和生成器网络G的训练。无线资源管理器将当前网络状态输入生成器网络G，生成器网络G输出每个资源分配策略对应的累计回报分布的采样，然后分别计算每个资源分配策略回报采样值的均值，取最大均值对应的动作作为无线资源管理器对应的资源分配策略。
根据权利要求1所述的基于生成对抗强化学习的无线网络资源分配方法，其特征在于，折扣因子γ为0.75～0.9。
根据权利要求1所述的基于生成对抗强化学习的无线网络资源分配方法，其特征在于，N的取值为30～55。
根据权利要求1所述的基于生成对抗强化学习的无线网络资源分配方法，其特征在于，∈初始值为0.9，每执行100次资源分配的步骤(2)∈减少0.05，当∈减小到0.05时保持不变；ξ为0.8～1.5。
根据权利要求1所述的基于生成对抗强化学习的无线网络资源分配方法，其特征在于，缓存区
的大小N _B为3000～10000。
根据权利要求1所述的基于生成对抗强化学习的无线网络资源分配方法，其特征在于，n _d的取值为1～10；四元组个数m为32或64。
根据权利要求1所述的基于生成对抗强化学习的无线网络资源分配方法，其特征在于，惩罚因子λ为10，20或30。
根据权利要求1所述的基于生成对抗强化学习的无线网络资源分配方法，其特征在于，训练生成器网络G和鉴别器网络D所使用的梯度下降算法均为Adam，学习率均为0.001。
根据权利要求1所述的基于生成对抗强化学习的无线网络资源分配方法，其特征在于，执行资源分配次数K为10～50。
根据权利要求1所述的基于生成对抗强化学习的无线网络资源分配方法，其特征在于，N _train的取值为2000～3000。