WO2013104120A1

WO2013104120A1 - 动态频谱环境中基于多智能体强化学习的频率功率联合分配方法

Info

Publication number: WO2013104120A1
Application number: PCT/CN2012/070240
Authority: WO
Inventors: 王金龙; 吴启晖; 刘鑫; 郑学强
Original assignee: 中国人民解放军理工大学
Priority date: 2012-01-11
Filing date: 2012-01-11
Publication date: 2013-07-18

Abstract

一种动态频谱环境中基于多智能体强化学习的频率功率联合分配方法，实现动态频谱环境中频率功率联和分配的时隙结构包括三个时隙：感知决策时隙、传输时隙和确认时隙；感知决策时隙实现主用户状态的感知，并获取传输时隙的频率功率联和决策；传输时隙实现信息传输，并且在接收端估计链路增益，计算当前回报值和度量所受干扰大小；确认时隙用于接收ACK信号、链路增益、当前回报值和所受干扰大小的反馈信息，并且更新多智能体强化学习过程中所需要的行为回报函数，历史干扰表，以及对其他认知链路频率策略的估计值。本发明能够在动态的频谱环境中实现实时的，性能优越的频率功率联和分配。

Description

动态频谱环境中基于多智能体强化学习的频率功率联合分配方法技术领域

本发明涉及无线通信技术中的认知无线电领域，具体讲是基于多智能体强化学习实现在动态频谱环境中频率功率联合分配的新方法。背景技术

目前，随着无线通信业务种类的快速增长，对无线频谱资源的需求也呈指数增长，使得未来无线通信中的频谱资源 "匮乏" 问题日益突出。认知无线电技术在保证主用户服务质量的条件下以 "伺机接入" 的方式利用授权用户的空闲频段，大大提高了频谱的使用效率，是解决 "频谱匮乏" 问题的有效方法。认知网络中（cognitive radio networks 简称 CRN) 的频率功率联合分配技术通过合理的分配各认知用户或次级用户（secondary user, 简称 SU)所使用的频率和功率，尽可能的减少 SU之间的干扰，提升认知无线网络的吞吐量。因此，频率功率联合分配技术是保证认知无线网络传输效率的前提和基础。

频率功率联合分配是实现认知网络共享 CRN频谱资源的主要方法之一。通过合理配置 SU 的接入信道以及发射功率，实现在不干扰主用户（primary user, 简称 PU)的前提下，优化认知网络的吞吐量性能。然而与非认知系统的资源分配不同，由于 PU 占用状态的动态变化，认知用户的可用频谱资源同样是动态的，因此 SU必须根据 PU状态实时的调整策略。此时给联合分配方法的设计带来许多新的挑战。

强化学习（reinforcement learning, 简称 RL)采用对外界环境和自身决策不断探测的方式，获取在动态环境中，能最优化长远收益的决策。通过采用 RL学习方法，单个 SU 能够适应频谱资源的动态性，实现最大化长远收益的频率功率联合决策。然而在多个 SU 并存时，由于各 SU 的频率功率联和决策互相影响，互相制约，且处于动态变化之中，因此 RL学习方法的性能将大打折扣，甚至无法收敛。

多智能体强化学习方法 ( multi-agent reinforcement learning, 简称 MARL) 考虑了在多个学习者共存时，对环境的动态变化和其它学习者策略动态变化的学习问题。其主要思想是将 RL学习方法中的单个用户决策学习扩展至多个用户的联合决策学习，因此能有效地解决单个用户决策学习的低效性和不稳定性。近年来 MARL方法在无线资源分配领域得到了广泛应用。发明内容

本发明的目的是针对 PU占用信道状态动态变化时，多个 SU共存的 CRN网络中的频率功率联和分配问题，提出一种动态频谱环境中基于多智能体强化学习的频率功率联合分配方法。

本发明的技术方案是：

一种动态频谱环境中基于多智能体强化学习的频率功率联合分配方法，实现动态频谱环境中频率功率联和分配的时隙结构包括三个时隙：感知决策时隙、传输时隙和确认时隙；感知决策时隙实现主用户状态的感知，并获取传输时隙的频率功率联和决策；传输时隙实现信息传输，并且在接收端估计链路增益，计算当前回报值和度量所受干扰大小；确认时隙用于接收 ACK信号、链路增益、当前回报值和所受干扰大小的反馈信息，并且更新多智能体强化学习过程中所需要的行为回报函数，历史干扰表，以及对其他认知链路频率策略的估计值。

一种动态频谱环境中基于多智能体强化学习的频率功率联合分配方法，包括下列步骤: 步骤 1. 参数初始化，完成以下工作

1.1 网络中每个认知链路 , e{l,...,N}初始化其行为回报函数即 Q函数

其中 c表示状态变量，而 X表示所有状态集合，尸表示与认知链路以及与其存在干扰关系的所有认知链路的联合频率决策，而则表示联和频率选择尸所有可能组合的联合频率决策集合；

1.2 初始化认知链路的历史干扰大小即 I值表

/.₀ ,/^!') = N₀, xeX 'eF' 其中 N。表示表示噪声功率；

1.3 初始化其他认知链路频率策略的估计值

^,₀ /,) = I/| ,|, je{l,....,N},j≠i 其中 j表示认知链路 j的频率选择，表示认知链路 j可选的频率集合， |·|表示求解集合的势， I I表示用户可选频率集的大小；步骤 2. 感知决策时隙之频率决策：实现主用户状态的感知和认知链路的频率决策，通过执行以下分布式方法实现：

在 , = 0,1,2，...次迭代中，首先，每个认知链路 , e{l,...,N}通过执行 2.1求解出针对每一个状态和联合频率决策的平均 Q函数；然后基于 2.1获取的平均 Q函数，通过执行 2.2 求解认知链路的频率策略；根据链路的频率策略，执行 2.3 获取最终的频率决策；

2.1 计算平均 Q函数

其中 N''表示与认知链路构成干扰关系的认知链路集合，而 ,)=尸是联合频率选择的另一种表示方法；

2.2计算认知链路的频率策略

其中 r>0是温度因子，决定用户策略的随机程度，当 r = 0时，所得的频率策略就是完全随机策略。

2.3 基于频率策略获取频率决策 (根据说明书中图 2所给出的方法实现）步骤 3. 感知决策时隙之功率决策：实现主用户状态的感知和认知链路的功率决策，通过执行以下分布式方法实现

在 , = 1,2，...次迭代中，首先，每个认知链路 , e{l,...,N} 通过执行 3.1求解出功率调整因子，该值的大小表示认知链路对自身发射功率的抑制程度；然后基于功率调整因子，通过执行 3.2求解各链路的功率决策；

3.1 计算功率调整因子

其中 _c>o表示固定常数，由系统参数所决定，表示链路的链路增益，由接收端通过信道估计获取； 3.2计算功率决策 _Ρι

其中；^表示！！！！！！ !!!^^^；^ , 分别表示链路的最大发射功率和最小发射功率；步骤 4. 传输时隙：实现信息传输，并且在接收端估计链路增益，计算当前回报值和度量所受干扰大小，按照以下方式执行

4.1 度量当前决策下的干扰大小 /_;0¾₊₁,/ ;')

= N₀+∑_jeN,P_Lth_j 其中 /^表示在第次迭代时，认知链路以及与其存在干扰关系的所有认知链路的功率决策; // 为认知链路 i在当前状态 ^和当前频率功率联合决策下的所受的干扰大小；

4.2 计算当前回报值

0 ^^Λ.(¾)

"i , ft Pt) } - KtP t t ^e )

其中 .0¾₊₁)表示在状态^ ₁时，链路的可用频率集合（表示可选频率集合中，未被主用户占用的频率集合）；

步骤 5.确认时隙：用于接收 ACK信号、链路增益、当前回报值和所受干扰大小的反馈信息，并且更新多智能体强化学习过程中所需要的行为回报函数，历史干扰表，以及对其他认知链路频率策略的估计值：

5.1 Q函数更新

C₊i + 7 max Q_it (x_t+1 ¹)- Q_it (x_t , / ) 其中表示学习速率，表示学习方法的折扣因子 ₍ 5.2 I值表更新

5.3 其他链路策略估计更新 ^π]' ^]、 = 0，, -p|iT ， ·) = ⁰ 其中 >ο为一可调整的常数，为随机变量表示链路在状态 c时，所观察到链路选取频率策略 /这一事件，为 1则表示该事件出现，为 0则表示该事件未出现。本发明的有益效果：

1、本发明能够适应环境的动态变化。认知链路通过对环境和其它用户策略探测，可以实时的作出最优化长远回报的频率功率联和决策。

2、本发明的网络操作是无交互，全分布式的。在所提方案中，不需要任何的中心协调器（如基站，接入点，簇头等），无需任何信息交互，因此，所提方案具备网络可扩展性好以及信息交互量小等优点。

3、本发明的学习方法的实现复杂度低。在联合频率决策的学习过程中，各认知链路只需要考虑与其构成干扰关系的其他链路策略，减小了 MARL学习方法的联合行为空间，使得网络可以适应大规模的网络结构。

4、本发明将离散策略学习与连续策略学习相结合。在所提方案中，将离散的频率策略学习和连续的功率决策学习相融合，提升了联合分配的性能。附图说明

图 1为本发明中认知网络的时隙结构图。

图 2基于频率策略获取频率决策的方法流程图

图 3为本发明中所提方法的详细步骤示意图。

图 4为本发明中具体实例的仿真网络模型图。图 5为本发明中所提方案与传统方案的性能比较示意图。具体实施方式

下面结合附图和实施例对本发明作进一步的说明。

本发明提供的基于多智能体学习的频率功率联和分配方法，本发明采用如图 1 所示的认知网络时隙结构，每个完整的传输过程由 3个时隙组成。第一个时隙用于频率功率联和决策，第二个时隙用于信息的传输，第三时隙用于 ACK的接收。时隙 1，每一个认知链路根据感知出的主用户状态，和上一传输过程中的 Q函数， I值表以及其他链路的策略估计值，进行频率决策和功率的联合决策。时隙 2，认知链路进行信息传输，同时根据本次信息传输所获取的吞吐量求解当前的瞬时回报值，并且将 Q函数进行更新。时隙 3，接收 ACK确认信号，从 ACK中获取本链路的状态，所受干扰状况，并同时更新 I值表和其他链路策略的估计值。

(1) 参数初始化，完成以下工作

1.1 网络中每个认知链路 , e{l,...,N}初始化其行为回报函数（Q函数） 0 ,/') = 0, xeX,f^leF^l (1) 其中表示状态变量，而 X表示所有状态集合，尸表示与认知链路以及与其存在干扰关系的所有认知链路的联合频率选择，而则表示联和频率选择尸所有可能的联合频率选择璧 A

朱

1.2 初始化历史干扰大小（I值表）

L₀(x,f') = N₀, xeX 'eF' (2) 其中 N。表示表示噪声功率。

1.3 初始化其他认知链路频率策略的估计值

^,₀ /,) = I/| ,|, je{l,....,N},j≠i 其中 |·|表示求解集合的势，表示认知链路可选的频率集合，因此 | |表示用户可选频率集的大小。

(2) 频率策略学习，通过执行以下分布式算法实现

在 , = 0,1,2，...次迭代中，首先，每个认知链路 , e{l,...,N}通过执行 2.1 求解出针对每一个状态和频率决策的平均 Q函数；然后基于 2.1获取的平均 Q函数，通过执行 2.2求解各用户在的频率策略；根据链路的频率策略，执行 2.3 获取最终的频率决策。

2.1 计算平均 Q函数

·) =∑ 2 , /— ,· ) Π ·) ( ³ ) f jeN'

其中 N '表示与认知链路构成干扰关系的认知链路集合，而 ,)= /'是联合频率选择的另一种表示方法。

2.2计算认知链路的频率策略 τ ,

2.3 基于频率策略获取频率决策。

(3) 功率策略学习，通过执行以下分布式算法实现

在 , = 1,2，...次迭代中，首先，每个认知链路 , e{l,...,N} 通过执行 3.1求解出功率调整因子，表示对发射功率的抑制程度；然后基于功率调整因子，通过执行 3.2求解各链路的功率决策。

3.1 计算功率调整因子 _;，

其中 c>0表示固定常数，由系统参数所决定， ^表示链路的链路增益 ₍

3.2计算功率决策 _Ρι i Ά,Λ')

P (6)

2 i.,t , In 2 h i, i. 其中 [aj;表示 mi_n{b,m_ax(_a,_C)}，而分别表示链路的最大发射功率和最小发射功

(4) 获取当前回报值，按照以下方式执行

4.1 度量当前决策下的干扰大小 /_;0¾₊₁,/ ；')

(7)

4.2 计算当前回报值 ₊₁

0 Λ!0¾₊₁) ri. (8) l^o§2 J¹ + PiA,i ¹ [_ ， ft P } - KtPi,_t fi,_t ^{e Λ} _; ) 其中 0¾₊₁)表示在状态_¾₊₁时，链路的可用频率集合

(5) 更新学习参数，完成以下工作 5.1 Q函数更新

+ 7 max Q_it (x_t+1 ¹)- Q_it (x_t , / ) (9)

其中 a_t表示学习速率，表示学习算法的折扣因子。 5.2 I值表更新

5.3 其他链路策略估计更新

其中 >0为一可调整的常数，为随机变量表示链路在状态 c时，所观察到链路选取频率策略这一事件，为 1则表示该事件出现，为 0则表示该事件未出现。本发明实施例：

本发明的一个具体实例如下所示，参数设置不影响一般性。如图 3所示，在 2个主用户覆盖区域内，包含 3个待进行频率功率联和分配的认知链路。认知链路用户可以选择当主用户空闲时的任一主用户信道，认知链路发射机在 [0dBm~20dBm]之间选取即 p^mm=0dBm, p^m<H=20dBm, 噪声功率设置为 N。 = -86.5758dBm，接受功率与 Euclidian距离的平方成反比。认知网络的环境状态采用主用户占用信道的转移概率进行描述，为了便于表述，令两主用户占用信道的转移概率相同，并且设置为 Ρ_τ

其中 S表示主用户对信道的占用率，其值越小说明信道越空闲。如此设置的原因是为了仿真表述更加清晰，而并非所提算法的必要要求。学习算法中的参数设计如下：折扣因子设置为; = 0.5，学习速率设置为 ^ = ^{l0g + 1)}, 策略估计参数 = 0.01，功率调整常数

t + l

c = 0.002。本发明提出的基于多智能体学习得频率功率联和分配方法具体过程如下：

1、在执行联合分配算法前，首先对于所有认知链路，针对其任意状态，任意频率组合初始化。 ,/^!) = 0， /,₀ ,/^!) = -86.58dBm, ^.₀(^,/.) =1/2；

2、分布式的执行学习算法的循环迭代过程，在每一个决策时隙，首先感知当前的主用状态，计算该状态的平均 Q函数然后根据平均 Q函数计算出认知链路的频率策略 ^ C, /; ) , 最后基于频率策略得到传输时隙的频率决策 /；;

3、根据当前主用户状态，以及上步骤 2所获取的频率决策 /；，查询 I值表，得到历史干扰值 /_ί ( ₊₁, //)，计算功率调整计算功率调整因子 Λ ，最后根据历史干扰和功率调整因子得到传输时隙的功率决策 ρ_υ；

4、认知链路进行信息传输，接收端记录传输的信息量，所受的干扰状态，传输的链路增益，通过 ACK将这些信息反馈给发送端；

5、首先根据接收方反馈的 ACK信息，以及功率调整因子，计算当前回报值/^ 然后更新 Q函数，历史干扰 I值表，同时更新对对其他链路策略的估计值；

6、由于本发明所提算法为在线决策算法，因此不需要设置终止条件。

图 4给出了传统方法与本专利所提方法的吞吐量性能比较仿真图。从图 4可以看出，本发明所提方法的性能明显优于传统方法。这是由于传统方法不考虑最优感知信道集合的选择，即在每一个感知时隙内把所有授权信道都感知一遍，并且传统方法还假设各个授权信道的可用概率是不变的。

本发明未涉及部分均与现有技术相同或可采用现有技术加以实现。

Claims

权利要求书

1、一种动态频谱环境中基于多智能体强化学习的频率功率联合分配方法，其特征在于实现动态频谱环境中频率功率联和分配的时隙结构包括三个时隙：感知决策时隙、传输时隙和确认时隙；感知决策时隙实现主用户状态的感知，并获取传输时隙的频率功率联和决策；传输时隙实现信息传输，并且在接收端估计链路增益，计算当前回报值和度量所受干扰大小；确认时隙用于接收 ACK信号、链路增益、当前回报值和所受干扰大小的反馈信息，并且更新多智能体强化学习过程中所需要的行为回报函数，历史干扰表，以及对其他认知链路频率策略的估计值。

2、根据权利要求 1所述的动态频谱环境中基于多智能体强化学习的频率功率联合分配方法，其特征在于，包括下列步骤：

步骤 1. 参数初始化，完成以下工作

1.1 网络中每个认知链路， e{l,...,N}初始化其行为回报函数即 Q函数 0 ,/') = 0, xeX 'eF' 其中 c表示状态变量，而 X表示所有状态集合，表示与认知链路以及与其存在干扰关系的所有认知链路的联合频率决策，而则表示联和频率决策 /'所有可能组合的联合频率决策朱口；

1.2 初始化认知链路的历史干扰大小即 I值表

/.₀ /^!') = iV₀, xeX 'eF' 其中 N。表示表示噪声功率；

1.3 初始化其他认知链路频率策略的估计值

=1/| |, j^{l,....,N},j≠i 其中表示认知链路 j的频率选择，表示认知链路 j可选的频率集合， |·|表示求解集合的势， | |表示用户可选频率集的大小；步骤 2. 感知决策时隙之频率决策：实现主用户状态的感知和认知链路的频率决策，通过执行以下分布式方法实现：

在 , = 0,1,2,...次迭代中，首先，每个认知链路 , e{l,...,N}通过执行 2.1求解出针对每一个状态和联合频率决策的平均 Q函数；然后基于 2.1获取的平均 Q函数，通过执行 2.2求解认知链路的频率策略；根据链路的频率策略，执行 2.3 获取最终的频率决策；

2.1 计算平均 Q函数 (.Ϊ, ·)

(Λ', ,) =∑ σ (Λ', fi , /— _; ) π f_} ) 其中 ^表示与认知链路构成干扰关系的认知链路集合，而（/；，/— _;)=尸'是联合频率选择的另一种表示方法；

2.2 计算认知链路的频率策略 τ ,

其中 r>0，是温度因子-,

2.3 基于频率策略获取频率决策

步骤 3. 感知决策时隙之功率决策：实现主用户状态的感知和认知链路的功率决策，通过执行以下分布式方法实现

在， =1,2，...次迭代中，首先，每个认知链路 , e{l,...，N} 通过执行 3.1 求解出功率调整因子，该值的大小表示认知链路对自身发射功率的抑制程度；然后基于功率调整因子，通过执行 3.2求解各链路的功率决策；

3.1 计算功率调整因子，Λ'·)

A. _t = C

l h.. 其中 c>0表示固定常数，由系统参数所决定，表示链路的链路增益，由接收端通过信道估计获取：

3.2计算功率决策 _Pit

其中 [aj;表示 min{b,m_ax(_a，₍' ， ρΓ,ρΓ分别表示链路 ^的最大发射功率和最小发射功率; 步骤 4. 传输时隙：实现信息传输，并且在接收端估计链路增益，计算当前回报值和度 J 所受干扰大小，按照以下方式执行

4.1 度量当前决策下的干扰大小

^I _t^f_t ⁱp_t ⁱ = N₀+∑_j£Nlp_j,_th 其中 /^表示在第 t次迭代时，认知链路 i以及与其存在干扰关系的所有认知链路的功率决策; 为认知链路在当前状态 ^和当前频率功率联合决策下的所受的干扰大小；

4.2 计算当前回报值

0 „Λ!0¾₊₁)

， ftP } - KtPi,_t fi,_t ^{e Λ} _; ) 其中 0¾₊₁)表示在状态_¾₊₁时，链路的可用频率集合；步骤 5.确认时隙：用于接收 ACK信号、链路增益、当前回报值和所受干扰大小的反馈信息，并且更新多智能体强化学习过程中所需要的行为回报函数，历史干扰表，以及对其他认知链路频率策略的估计值：

5.1 Q函数更新 ri,_t+i + r max Q_it (x_t+1 ,/'·)- Q_it (x_t , /' ) 其中表示学习速率，表示学习方法的折扣因子。 5.2 I值表更新

其它

C¾₊i，//，p)) ^{x = x} _t+i ^{i =} f!

5.3 其他链路策略估计更新

Ο Λ·)- ， ·) = ο 其中 >o为一可调整的常数，为随机变量表示链路在状态 c时，所观察到链路取频率策略这一事件，为 1则表示该事件出现，为 0则表示该事件未出现。