WO2013104120A1 - 动态频谱环境中基于多智能体强化学习的频率功率联合分配方法 - Google Patents

动态频谱环境中基于多智能体强化学习的频率功率联合分配方法 Download PDF

Info

Publication number
WO2013104120A1
WO2013104120A1 PCT/CN2012/070240 CN2012070240W WO2013104120A1 WO 2013104120 A1 WO2013104120 A1 WO 2013104120A1 CN 2012070240 W CN2012070240 W CN 2012070240W WO 2013104120 A1 WO2013104120 A1 WO 2013104120A1
Authority
WO
WIPO (PCT)
Prior art keywords
frequency
link
decision
cognitive
time slot
Prior art date
Application number
PCT/CN2012/070240
Other languages
English (en)
French (fr)
Inventor
王金龙
吴启晖
刘鑫
郑学强
Original Assignee
中国人民解放军理工大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 中国人民解放军理工大学 filed Critical 中国人民解放军理工大学
Priority to PCT/CN2012/070240 priority Critical patent/WO2013104120A1/zh
Publication of WO2013104120A1 publication Critical patent/WO2013104120A1/zh

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/18TPC being performed according to specific parameters
    • H04W52/24TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters
    • H04W52/243TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters taking into account interferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L1/00Arrangements for detecting or preventing errors in the information received
    • H04L1/20Arrangements for detecting or preventing errors in the information received using signal quality detector
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • H04W72/044Wireless resource allocation based on the type of the allocated resource
    • H04W72/0453Resources in frequency domain, e.g. a carrier in FDMA

Definitions

  • Frequency power joint allocation method based on multi-agent reinforcement learning in dynamic spectrum environment
  • the present invention relates to the field of cognitive radio in wireless communication technology, and in particular to a new method for achieving joint allocation of frequency power in a dynamic spectrum environment based on multi-agent reinforcement learning. Background technique
  • Cognitive radio technology utilizes the idle frequency band of authorized users in the "opportunistic access" mode under the condition of ensuring the quality of service of the primary users, which greatly improves the efficiency of spectrum utilization and is an effective method to solve the problem of "spectral shortage".
  • the frequency power joint allocation technology reduces the frequency and power used by each cognitive user or secondary user (SU) to reduce the SU as much as possible. Interference, improving the throughput of cognitive wireless networks. Therefore, the frequency power joint allocation technology is the premise and basis for ensuring the transmission efficiency of cognitive wireless networks.
  • Frequency power joint allocation is one of the main methods to realize cognitive network sharing CRN spectrum resources.
  • the throughput performance of the network can be optimized and recognized without disturbing the primary user (PU).
  • the available spectrum resources of the cognitive user are also dynamic due to the dynamic change of the PU occupancy state. Therefore, the SU must adjust the policy according to the PU state in real time. This brings many new challenges to the design of the joint distribution method.
  • Reinforcement learning adopts a method of continuously detecting the external environment and its own decisions to obtain decisions that optimize long-term benefits in a dynamic environment.
  • RL learning method By adopting the RL learning method, a single SU can adapt to the dynamics of the spectrum resources, and achieve frequency power joint decision making that maximizes long-term benefits.
  • the performance of the RL learning method will be greatly reduced or even unable to converge because the frequency power association decisions of the SUs interact with each other, are mutually constrained, and are in dynamic changes.
  • Multi-agent reinforcement learning considers the learning of dynamic changes in the environment and the dynamic changes of other learner strategies when multiple learners coexist.
  • the main idea is to extend the single user decision learning in the RL learning method to the joint decision learning of multiple users, so it can effectively solve the inefficiency and instability of individual user decision learning.
  • the MARL method has been obtained in the field of wireless resource allocation. widely used. Summary of the invention
  • the object of the present invention is to solve the problem of frequency power joint allocation in a CRN network in which multiple SUs coexist when the channel state of the PU is dynamically changed, and propose a frequency power joint allocation method based on multi-agent reinforcement learning in a dynamic spectrum environment.
  • a frequency power joint allocation method based on multi-agent reinforcement learning in a dynamic spectrum environment, and a slot structure for realizing frequency power joint allocation in a dynamic spectrum environment includes three time slots: a sensing decision time slot, a transmission time slot, and an acknowledgement time
  • the sensing decision slot realizes the perception of the primary user state, and obtains the frequency power association decision of the transmission slot;
  • the transmission slot implements information transmission, and estimates the link gain at the receiving end, and calculates the current reward value and the interference of the metric. Size;
  • the acknowledgement slot is used to receive feedback information on the ACK signal, link gain, current reward value, and the amount of interference received, and to update the behavioral reward function, historical interference table, and other An estimate of the cognitive link frequency strategy.
  • a frequency power joint allocation method based on multi-agent reinforcement learning in a dynamic spectrum environment comprising the following steps: Step 1. Parameter initialization, completing the following work
  • Each cognitive link in the network e ⁇ l,...,N ⁇ initializes its behavioral reward function, ie Q function
  • c represents the state variable
  • X represents the set of all states
  • the corpse represents the joint frequency decision with the cognitive link and all cognitive links with which there is an interference relationship, and represents the joint frequency of all possible combinations of the union and frequency selection corpses.
  • ⁇ , 0 /,) I/
  • j represents the frequency selection of the cognitive link j, indicating the optional frequency of the cognitive link j Collection
  • indicates solution set
  • the potential of II indicates the size of the user-selectable frequency set; Step 2.
  • r>0 is the temperature factor that determines the randomness of the user's strategy.
  • r 0, the resulting frequency strategy is a completely random strategy.
  • Step 3 Frequency decision based on frequency strategy (implemented according to the method given in Figure 2 of the specification) Step 3. Power decision for sensing decision time slot: Realize the perception of the primary user state and the power decision of the cognitive link by performing the following distribution Method implementation
  • each cognitive link e ⁇ l,...,N ⁇ solves the power adjustment factor by performing 3.1, and the magnitude of the value represents the cognitive chain.
  • Step 4 Transfer time slot: Implement information transmission, and estimate the link gain at the receiving end, calculate the current return value and measure Interference size, perform as follows
  • Step 5 Acknowledge time slot: feedback information for receiving the ACK signal, the link gain, the current return value, and the magnitude of the received interference, and updating the behavioral reward function, the historical interference table, and the historical interference table required for the multi-agent reinforcement learning process, and Estimates of other cognitive link frequency strategies:
  • the invention is capable of adapting to dynamic changes in the environment. By detecting the environment and other user policies, the cognitive link can make frequency power decisions and decisions that optimize long-term returns in real time.
  • the network operation of the present invention is non-interactive and fully distributed.
  • no central coordinator such as base station, access point, cluster head, etc.
  • no information interaction is required. Therefore, the proposed scheme has the advantages of good network scalability and small amount of information interaction.
  • the implementation method of the present invention has low implementation complexity.
  • each cognitive link only needs to consider other link strategies that form an interference relationship with it, which reduces the joint behavior space of the MARL learning method, so that the network can adapt to the large-scale network structure.
  • the present invention combines discrete strategy learning with continuous strategy learning.
  • the combination of discrete frequency strategy learning and continuous power decision learning improves the performance of joint allocation.
  • FIG. 1 is a time slot structure diagram of a cognitive network in the present invention.
  • Figure 2 Flow chart of the method for obtaining frequency decision based on frequency strategy
  • FIG. 3 is a schematic diagram showing the detailed steps of the method proposed in the present invention.
  • FIG. 4 is a diagram of a simulation network model of a specific example of the present invention.
  • FIG. 5 is a schematic diagram showing the performance comparison between the proposed scheme and the conventional scheme in the present invention. detailed description
  • the present invention provides a frequency network joint allocation method based on multi-agent learning.
  • the present invention adopts a cognitive network slot structure as shown in FIG. 1, and each complete transmission process is composed of three time slots.
  • the first time slot is used for frequency power association decision
  • the second time slot is used for information transmission
  • the third time slot is used for ACK reception.
  • Slot 1 each cognitive link is based on the perceived primary user status, and the Q function, I value table, and other link policy estimates in the previous transmission.
  • the cognitive link performs information transmission, and at the same time, the current instantaneous reward value is solved according to the throughput obtained by the information transmission, and the Q function is updated.
  • slot 3 an ACK acknowledgment signal is received, the state of the link is obtained from the ACK, the interference condition is received, and the estimated values of the I value table and other link policies are simultaneously updated.
  • each cognitive link e ⁇ l,...,N ⁇ solves the average Q for each state and frequency decision by performing 2.1.
  • the function is then based on the average Q function obtained in 2.1, by solving 2.2 the frequency strategy of each user; according to the frequency strategy of the link, performing 2.3 to obtain the final frequency decision.
  • N ' denotes a set of cognitive links that form an interference relationship with the cognitive link
  • r>0 is the temperature factor that determines the randomness of the user's strategy.
  • r 0, the resulting frequency strategy is a completely random strategy.
  • each cognitive link e ⁇ l,...,N ⁇ solves the power adjustment factor by performing 3.1, indicating the degree of suppression of the transmit power;
  • the power decision for each link is then solved by performing 3.2 based on the power adjustment factor.
  • >0 is an adjustable constant
  • the random variable indicates that the link is in the state c.
  • the frequency is selected. This event indicates that the event occurs, and a value of 0 indicates that the event does not occur.
  • a specific example of the present invention is as follows, and the parameter setting does not affect the generality.
  • Cognitive network environment state transition probability using a channel occupied by a primary user will be described, for ease of description, so that the same two primary user occupies the channel transition probability, and set ⁇ ⁇
  • S represents the occupancy rate of the primary user to the channel, and the smaller the value, the more idle the channel.
  • the reason for this setting is to make the simulation statement clearer and not necessary for the proposed algorithm.
  • step 3 According to the current primary user status and the frequency decision/; obtained in step 2 above, query the I value table to obtain the historical interference value / ⁇ ( +1 , //), calculate the power adjustment calculation power adjustment factor ⁇ , and finally according to The historical interference and power adjustment factor obtain the power decision ⁇ ⁇ of the transmission time slot;
  • the cognitive link performs information transmission, and the receiving end records the amount of information transmitted, the interference state received, and the link gain of the transmission, and feeds the information back to the transmitting end through ACK;
  • Figure 4 shows a simulation of the throughput performance comparison between the traditional method and the method proposed in this patent.
  • the performance of the proposed method is significantly better than the conventional method. This is because the conventional method does not consider the selection of the optimal perceptual channel set, that is, all the licensed channels are perceptually perceived in each perceptual time slot, and the conventional method also assumes that the available probabilities of the respective authorized channels are constant.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

一种动态频谱环境中基于多智能体强化学习的频率功率联合分配方法,实现动态频谱环境中频率功率联和分配的时隙结构包括三个时隙:感知决策时隙、传输时隙和确认时隙;感知决策时隙实现主用户状态的感知,并获取传输时隙的频率功率联和决策;传输时隙实现信息传输,并且在接收端估计链路增益,计算当前回报值和度量所受干扰大小;确认时隙用于接收ACK信号、链路增益、当前回报值和所受干扰大小的反馈信息,并且更新多智能体强化学习过程中所需要的行为回报函数,历史干扰表,以及对其他认知链路频率策略的估计值。本发明能够在动态的频谱环境中实现实时的,性能优越的频率功率联和分配。

Description

动态频谱环境中基于多智能体强化学习的频率功率联合分配方法 技术领域
本发明涉及无线通信技术中的认知无线电领域, 具体讲是基于多智能体强化学习实现 在动态频谱环境中频率功率联合分配的新方法。 背景技术
目前, 随着无线通信业务种类的快速增长, 对无线频谱资源的需求也呈指数增长, 使得 未来无线通信中的频谱资源 "匮乏" 问题日益突出。 认知无线电技术在保证主用户服务质量 的条件下以 "伺机接入" 的方式利用授权用户的空闲频段, 大大提高了频谱的使用效率, 是 解决 "频谱匮乏" 问题的有效方法。 认知网络中 (cognitive radio networks 简称 CRN) 的频 率功率联合分配技术通过合理的分配各认知用户或次级用户(secondary user, 简称 SU)所使 用的频率和功率, 尽可能的减少 SU之间的干扰, 提升认知无线网络的吞吐量。 因此, 频率功 率联合分配技术是保证认知无线网络传输效率的前提和基础。
频率功率联合分配是实现认知网络共享 CRN频谱资源的主要方法之一。通过合理配置 SU 的接入信道以及发射功率, 实现在不干扰主用户 (primary user, 简称 PU)的前提下, 优化认 知网络的吞吐量性能。 然而与非认知系统的资源分配不同, 由于 PU 占用状态的动态变化, 认知用户的可用频谱资源同样是动态的, 因此 SU必须根据 PU状态实时的调整策略。此时给 联合分配方法的设计带来许多新的挑战。
强化学习(reinforcement learning, 简称 RL)采用对外界环境和自身决策不断探测的方式, 获取在动态环境中, 能最优化长远收益的决策。通过采用 RL学习方法, 单个 SU 能够适应频 谱资源的动态性, 实现最大化长远收益的频率功率联合决策。 然而在多个 SU 并存时, 由于 各 SU 的频率功率联和决策互相影响, 互相制约, 且处于动态变化之中, 因此 RL学习方法的 性能将大打折扣, 甚至无法收敛。
多智能体强化学习方法 ( multi-agent reinforcement learning, 简称 MARL) 考虑了在多 个学习者共存时, 对环境的动态变化和其它学习者策略动态变化的学习问题。 其主要思想 是将 RL学习方法中的单个用户决策学习扩展至多个用户的联合决策学习,因此能有效地解 决单个用户决策学习的低效性和不稳定性。 近年来 MARL方法在无线资源分配领域得到了 广泛应用。 发明内容
本发明的目的是针对 PU占用信道状态动态变化时, 多个 SU共存的 CRN网络中的频 率功率联和分配问题, 提出一种动态频谱环境中基于多智能体强化学习的频率功率联合分 配方法。
本发明的技术方案是:
一种动态频谱环境中基于多智能体强化学习的频率功率联合分配方法, 实现动态频谱 环境中频率功率联和分配的时隙结构包括三个时隙: 感知决策时隙、 传输时隙和确认时隙; 感知决策时隙实现主用户状态的感知, 并获取传输时隙的频率功率联和决策; 传输时隙实 现信息传输, 并且在接收端估计链路增益, 计算当前回报值和度量所受干扰大小; 确认时 隙用于接收 ACK信号、 链路增益、 当前回报值和所受干扰大小的反馈信息, 并且更新多智 能体强化学习过程中所需要的行为回报函数, 历史干扰表, 以及对其他认知链路频率策略 的估计值。
一种动态频谱环境中基于多智能体强化学习的频率功率联合分配方法, 包括下列步骤: 步骤 1. 参数初始化, 完成以下工作
1.1 网络中每个认知链路 , e{l,...,N}初始化其行为回报函数即 Q函数
Figure imgf000004_0001
其中 c表示状态变量, 而 X表示所有状态集合, 尸表示与认知链路 以及与其存在干扰关 系的所有认知链路的联合频率决策, 而 则表示联和频率选择尸所有可能组合的联合频率 决策集合;
1.2 初始化认知链路的历史干扰大小即 I值表
/.0 ,/!') = N0, xeX 'eF' 其中 N。表示表示噪声功率;
1.3 初始化其他认知链路频率策略的估计值
^,0 /,) = I/| ,|, je{l,....,N},j≠i 其中 j表示认知链路 j的频率选择, 表示认知链路 j可选的频率集合, |·|表示求解集合 的势, I I表示用户 可选频率集的大小; 步骤 2. 感知决策时隙之频率决策: 实现主用户状态的感知和认知链路的频率决策, 通 过执行以下分布式方法实现:
在 , = 0,1,2,...次迭代中, 首先, 每个认知链路 , e{l,...,N}通过执行 2.1求解出针对 每一个状态和联合频率决策的平均 Q函数; 然后基于 2.1获取的平均 Q函数, 通过执行 2.2 求解认知链路的频率策略; 根据链路的频率策略, 执行 2.3 获取最终的频率决策;
2.1 计算平均 Q函数
Figure imgf000005_0001
其中 N''表示与认知链路 构成干扰关系的认知链路集合, 而 ,)=尸是联合频率选择的 另一种表示方法;
2.2计算认知链路的频率策略
Figure imgf000005_0002
其中 r>0是温度因子, 决定用户策略的随机程度, 当 r = 0时, 所得的频率策略就是完全随 机策略。
2.3 基于频率策略获取频率决策 (根据说明书中图 2所给出的方法实现) 步骤 3. 感知决策时隙之功率决策: 实现主用户状态的感知和认知链路的功率决策, 通 过执行以下分布式方法实现
在 , = 1,2,...次迭代中, 首先,每个认知链路 , e{l,...,N} 通过执行 3.1求解出功率调 整因子, 该值的大小表示认知链路对自身发射功率的抑制程度; 然后基于功率调整因子, 通过执行 3.2求解各链路的功率决策;
3.1 计算功率调整因子
Figure imgf000005_0003
其中 c>o表示固定常数, 由系统参数所决定, 表示链路 的链路增益, 由接收端通过信 道估计获取; 3.2计算功率决策 Ρι
Figure imgf000006_0001
其中 ;^表示!!!!!! !!!^^^;^ , 分别表示链路 的最大发射功率和最小发射功率; 步骤 4. 传输时隙: 实现信息传输, 并且在接收端估计链路增益, 计算当前回报值和度 量所受干扰大小, 按照以下方式执行
4.1 度量当前决策下的干扰大小 /;+1,/ ;')
Figure imgf000006_0002
= N0+∑jeN,PLthj 其中 /^表示在第 次迭代时,认知链路 以及与其存在干扰关系的所有认知链路的功率决策; // 为认知链路 i在当前状态 ^和当前频率功率联合决策 下的所受的干扰 大小;
4.2 计算当前回报值
0 ^Λ.(¾)
Figure imgf000006_0003
"i , ft Pt) } - KtP t t e )
其中 .0¾+1)表示在状态^ 1时, 链路 的可用频率集合 (表示可选频率集合中, 未被主用户 占用的频率集合);
步骤 5.确认时隙: 用于接收 ACK信号、 链路增益、 当前回报值和所受干扰大小的反馈 信息, 并且更新多智能体强化学习过程中所需要的行为回报函数, 历史干扰表, 以及对其 他认知链路频率策略的估计值:
5.1 Q函数更新
C+i + 7 max Qit (xt+1 1)- Qit (xt , / ) 其中 表示学习速率, 表示学习方法的折扣因子 ( 5.2 I值表更新
Figure imgf000006_0004
5.3 其他链路策略估计更新 π]' ]、 = 0,, -p|iT , ·) = 0 其中 >ο为一可调整的常数, 为随机变量表示链路 在状态 c时, 所观察到 链路 选取频率策略 /这一事件, 为 1则表示该事件出现, 为 0则表示该事件未出现。 本发明的有益效果:
1、 本发明能够适应环境的动态变化。 认知链路通过对环境和其它用户策略探测, 可以 实时的作出最优化长远回报的频率功率联和决策。
2、 本发明的网络操作是无交互, 全分布式的。 在所提方案中, 不需要任何的中心协调 器 (如基站, 接入点, 簇头等), 无需任何信息交互, 因此, 所提方案具备网络可扩展性好 以及信息交互量小等优点。
3、 本发明的学习方法的实现复杂度低。 在联合频率决策的学习过程中, 各认知链路只 需要考虑与其构成干扰关系的其他链路策略, 减小了 MARL学习方法的联合行为空间, 使 得网络可以适应大规模的网络结构。
4、 本发明将离散策略学习与连续策略学习相结合。 在所提方案中, 将离散的频率策略 学习和连续的功率决策学习相融合, 提升了联合分配的性能。 附图说明
图 1为本发明中认知网络的时隙结构图。
图 2基于频率策略获取频率决策的方法流程图
图 3为本发明中所提方法的详细步骤示意图。
图 4为本发明中具体实例的仿真网络模型图。 图 5为本发明中所提方案与传统方案的性能比较示意图。 具体实施方式
下面结合附图和实施例对本发明作进一步的说明。
本发明提供的基于多智能体学习的频率功率联和分配方法, 本发明采用如图 1 所示的 认知网络时隙结构, 每个完整的传输过程由 3个时隙组成。 第一个时隙用于频率功率联和 决策, 第二个时隙用于信息的传输, 第三时隙用于 ACK的接收。 时隙 1, 每一个认知链路 根据感知出的主用户状态,和上一传输过程中的 Q函数, I值表以及其他链路的策略估计值, 进行频率决策和功率的联合决策。 时隙 2, 认知链路进行信息传输, 同时根据本次信息传输 所获取的吞吐量求解当前的瞬时回报值, 并且将 Q函数进行更新。 时隙 3, 接收 ACK确认 信号, 从 ACK中获取本链路的状态, 所受干扰状况, 并同时更新 I值表和其他链路策略的 估计值。
(1) 参数初始化, 完成以下工作
1.1 网络中每个认知链路 , e{l,...,N}初始化其行为回报函数 (Q函数) 0 ,/') = 0, xeX,fleFl (1) 其中 表示状态变量, 而 X表示所有状态集合, 尸表示与认知链路 以及与其存在干扰关 系的所有认知链路的联合频率选择, 而 则表示联和频率选择尸所有可能的联合频率选择 璧 A
1.2 初始化历史干扰大小 (I值表)
L0(x,f') = N0, xeX 'eF' (2) 其中 N。表示表示噪声功率。
1.3 初始化其他认知链路频率策略的估计值
^,0 /,) = I/| ,|, je{l,....,N},j≠i 其中 |·|表示求解集合的势, 表示认知链路 可选的频率集合, 因此 | |表示用户 可选频 率集的大小。
(2) 频率策略学习, 通过执行以下分布式算法实现
在 , = 0,1,2,...次迭代中, 首先, 每个认知链路 , e{l,...,N}通过执行 2.1 求解出针对 每一个状态和频率决策的平均 Q函数; 然后基于 2.1获取的平均 Q函数, 通过执行 2.2求 解各用户在的频率策略; 根据链路的频率策略, 执行 2.3 获取最终的频率决策。
2.1 计算平均 Q函数
·) =∑ 2 , /— ,· ) Π ·) ( 3 ) f jeN'
其中 N '表示与认知链路 构成干扰关系的认知链路集合, 而 ,)= /'是联合频率选择的 另一种表示方法。
2.2计算认知链路的频率策略 τ ,
Figure imgf000009_0001
其中 r>0是温度因子, 决定用户策略的随机程度, 当 r = 0时, 所得的频率策略就是完全随 机策略。
2.3 基于频率策略获取频率决策 。
(3) 功率策略学习, 通过执行以下分布式算法实现
在 , = 1,2,...次迭代中, 首先,每个认知链路 , e{l,...,N} 通过执行 3.1求解出功率调 整因子, 表示对发射功率的抑制程度; 然后基于功率调整因子, 通过执行 3.2求解各链路的 功率决策。
3.1 计算功率调整因子 ;
Figure imgf000009_0002
其中 c>0表示固定常数, 由系统参数所决定, ^表示链路 的链路增益 (
3.2计算功率决策 Ρι i Ά,Λ')
P (6)
2 i.,t , In 2 h i, i. 其中 [aj;表示 min{b,max(a,C)}, 而 分别表示链路 的最大发射功率和最小发射功
(4) 获取当前回报值, 按照以下方式执行
4.1 度量当前决策下的干扰大小 /;+1,/ ;')
(7)
4.2 计算当前回报值 +1
0 Λ!0¾+1) ri. (8) lo§2 J1 + PiA,i 1 [_ , ft P } - KtPi,t fi,t e Λ ; ) 其中 0¾+1)表示在状态_¾+1时, 链路 的可用频率集合
(5) 更新学习参数, 完成以下工作 5.1 Q函数更新
+ 7 max Qit (xt+1 1)- Qit (xt , / ) (9)
Figure imgf000010_0001
其中 at表示学习速率, 表示学习算法的折扣因子。 5.2 I值表更新
Figure imgf000010_0002
5.3 其他链路策略估计更新
Figure imgf000010_0003
其中 >0为一可调整的常数, 为随机变量表示链路 在状态 c时,所观察到链路 选取频率策略 这一事件, 为 1则表示该事件出现, 为 0则表示该事件未出现。 本发明实施例:
本发明的一个具体实例如下所示, 参数设置不影响一般性。 如图 3所示, 在 2个主用 户覆盖区域内, 包含 3个待进行频率功率联和分配的认知链路。 认知链路用户可以选择当 主用户空闲时的任一主用户信道, 认知链路发射机在 [0dBm~20dBm]之间选取即 pmm=0dBm, pm<H=20dBm, 噪声功率设置为 N。 = -86.5758dBm, 接受功率与 Euclidian距离 的平方成反比。 认知网络的环境状态采用主用户占用信道的转移概率进行描述, 为了便于 表述, 令两主用户占用信道的转移概率相同, 并且设置为 Ρτ
Figure imgf000010_0004
其中 S表示主用户对信道的占用率,其值越小说明信道越空闲。如此设置的原因是为了仿真 表述更加清晰, 而并非所提算法的必要要求。 学习算法中的参数设计如下: 折扣因子设置 为; = 0.5, 学习速率设置为 ^ = l0g + 1), 策略估计参数 = 0.01, 功率调整常数
t + l
c = 0.002。 本发明提出的基于多智能体学习得频率功率联和分配方法具体过程如下:
1、 在执行联合分配算法前, 首先对于所有认知链路, 针对其任意状态, 任意频率组合 初始化 。 ,/!) = 0, /,0 ,/!) = -86.58dBm, ^.0(^,/.) =1/2;
2、 分布式的执行学习算法的循环迭代过程, 在每一个决策时隙, 首先感知当前的主用 状态, 计算该状态的平均 Q函数 然后根据平均 Q函数计算出认知链路的 频率策略 ^ C, /; ) , 最后基于频率策略得到传输时隙的频率决策 /;;
3、 根据当前主用户状态, 以及上步骤 2所获取的频率决策 /;, 查询 I值表, 得到历史 干扰值 /ί ( +1, //), 计算功率调整计算功率调整因子 Λ , 最后根据历史干扰和功率 调整因子得到传输时隙的功率决策 ρυ
4、 认知链路进行信息传输, 接收端记录传输的信息量, 所受的干扰状态, 传输的链路 增益, 通过 ACK将这些信息反馈给发送端;
5、 首先根据接收方反馈的 ACK信息, 以及功率调整因子, 计算当前回报值/^ 然后 更新 Q函数, 历史干扰 I值表, 同时更新对对其他链路策略的估计值;
6、 由于本发明所提算法为在线决策算法, 因此不需要设置终止条件。
图 4给出了传统方法与本专利所提方法的吞吐量性能比较仿真图。 从图 4可以看出, 本发明所提方法的性能明显优于传统方法。 这是由于传统方法不考虑最优感知信道集合的 选择, 即在每一个感知时隙内把所有授权信道都感知一遍, 并且传统方法还假设各个授权 信道的可用概率是不变的。
本发明未涉及部分均与现有技术相同或可采用现有技术加以实现。

Claims

权利要求书
1、一种动态频谱环境中基于多智能体强化学习的频率功率联合分配方法, 其特征在于实现动 态频谱环境中频率功率联和分配的时隙结构包括三个时隙: 感知决策时隙、 传输时隙和确认 时隙; 感知决策时隙实现主用户状态的感知, 并获取传输时隙的频率功率联和决策; 传输时 隙实现信息传输, 并且在接收端估计链路增益, 计算当前回报值和度量所受干扰大小; 确认 时隙用于接收 ACK信号、 链路增益、 当前回报值和所受干扰大小的反馈信息, 并且更新多智 能体强化学习过程中所需要的行为回报函数, 历史干扰表, 以及对其他认知链路频率策略的 估计值。
2、 根据权利要求 1所述的动态频谱环境中基于多智能体强化学习的频率功率联合分配方法, 其特征在于, 包括下列步骤:
步骤 1. 参数初始化, 完成以下工作
1.1 网络中每个认知链路, e{l,...,N}初始化其行为回报函数即 Q函数 0 ,/') = 0, xeX 'eF' 其中 c表示状态变量, 而 X表示所有状态集合, 表示与认知链路 以及与其存在干扰关系 的所有认知链路的联合频率决策,而 则表示联和频率决策 /'所有可能组合的联合频率决策 朱口;
1.2 初始化认知链路的历史干扰大小即 I值表
/.0 /!') = iV0, xeX 'eF' 其中 N。表示表示噪声功率;
1.3 初始化其他认知链路频率策略的估计值
=1/| |, j^{l,....,N},j≠i 其中 表示认知链路 j的频率选择, 表示认知链路 j可选的频率集合, |·|表示求解集合 的势, | |表示用户 可选频率集的大小; 步骤 2. 感知决策时隙之频率决策: 实现主用户状态的感知和认知链路的频率决策, 通过 执行以下分布式方法实现:
在 , = 0,1,2,...次迭代中, 首先, 每个认知链路 , e{l,...,N}通过执行 2.1求解出针对每 一个状态和联合频率决策的平均 Q函数; 然后基于 2.1获取的平均 Q函数, 通过执行 2.2求 解认知链路的频率策略; 根据链路的频率策略, 执行 2.3 获取最终的频率决策;
2.1 计算平均 Q函数 (.Ϊ, ·)
(Λ', ,) =∑ σ (Λ', fi , /— ; ) π f} ) 其中 ^表示与认知链路 构成干扰关系的认知链路集合,而(/;,/— ;)=尸'是联合频率选择的另 一种表示方法;
2.2 计算认知链路的频率策略 τ ,
Figure imgf000013_0001
其中 r>0, 是温度因子-,
2.3 基于频率策略获取频率决策
步骤 3. 感知决策时隙之功率决策: 实现主用户状态的感知和认知链路的功率决策, 通过 执行以下分布式方法实现
在 , =1,2,...次迭代中, 首先, 每个认知链路 , e{l,...,N} 通过执行 3.1 求解出功率调 整因子, 该值的大小表示认知链路对自身发射功率的抑制程度; 然后基于功率调整因子, 通 过执行 3.2求解各链路的功率决策;
3.1 计算功率调整因子 ,Λ'·)
A. t = C
l h.. 其中 c>0表示固定常数, 由系统参数所决定, 表示链路 的链路增益, 由接收端通过信道 估计获取:
3.2计算功率决策 Pit
Figure imgf000013_0002
其中 [aj;表示 min{b,max(a(' , ρΓ,ρΓ分别表示链路 ^的最大发射功率和最小发射功率; 步骤 4. 传输时隙: 实现信息传输, 并且在接收端估计链路增益, 计算当前回报值和度 J 所受干扰大小, 按照以下方式执行
4.1 度量当前决策下的干扰大小
Figure imgf000014_0001
I t^ft ipt i = N0+∑j£Nlpj,th 其中 /^表示在第 t次迭代时, 认知链路 i以及与其存在干扰关系的所有认知链路的功率决策; 为认知链路 在当前状态 ^和当前频率功率联合决策 下的所受的干扰大 小;
4.2 计算当前回报值
0 „Λ!0¾+1)
Figure imgf000014_0002
, ftP } - KtPi,t fi,t e Λ ; ) 其中 0¾+1)表示在状态_¾+1时, 链路 的可用频率集合; 步骤 5.确认时隙: 用于接收 ACK信号、 链路增益、 当前回报值和所受干扰大小的反馈信 息, 并且更新多智能体强化学习过程中所需要的行为回报函数, 历史干扰表, 以及对其他认 知链路频率策略的估计值:
5.1 Q函数更新 ri,t+i + r max Qit (xt+1 ,/'·)- Qit (xt , /' ) 其中 表示学习速率, 表示学习方法的折扣因子。 5.2 I值表更新
其它
+i,//,p)) x = x t+i i = f!
5.3 其他链路策略估计更新
Ο Λ·)- , ·) = ο 其中 >o为一可调整的常数, 为随机变量表示链路 在状态 c时,所观察到链路 取频率策略 这一事件, 为 1则表示该事件出现, 为 0则表示该事件未出现。
PCT/CN2012/070240 2012-01-11 2012-01-11 动态频谱环境中基于多智能体强化学习的频率功率联合分配方法 WO2013104120A1 (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/CN2012/070240 WO2013104120A1 (zh) 2012-01-11 2012-01-11 动态频谱环境中基于多智能体强化学习的频率功率联合分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2012/070240 WO2013104120A1 (zh) 2012-01-11 2012-01-11 动态频谱环境中基于多智能体强化学习的频率功率联合分配方法

Publications (1)

Publication Number Publication Date
WO2013104120A1 true WO2013104120A1 (zh) 2013-07-18

Family

ID=48781034

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2012/070240 WO2013104120A1 (zh) 2012-01-11 2012-01-11 动态频谱环境中基于多智能体强化学习的频率功率联合分配方法

Country Status (1)

Country Link
WO (1) WO2013104120A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104168569A (zh) * 2014-07-15 2014-11-26 哈尔滨工程大学 一种认知异构网络的动态频谱分配方法
CN111200285A (zh) * 2020-02-12 2020-05-26 燕山大学 一种基于强化学习和多智能体理论的微电网混合协调控制方法
CN111867104A (zh) * 2020-07-15 2020-10-30 中国科学院上海微系统与信息技术研究所 一种低轨卫星下行链路的功率分配方法及功率分配装置
CN112616158A (zh) * 2020-12-14 2021-04-06 中国人民解放军空军工程大学 一种认知通信干扰决策方法
WO2023051221A1 (zh) * 2021-09-28 2023-04-06 中国移动通信有限公司研究院 一种帧结构配置方法、装置、通信设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101459835A (zh) * 2007-12-12 2009-06-17 上海摩波彼克半导体有限公司 认知无线电网络中提高跨层多媒体传输质量的方法
CN101459962A (zh) * 2009-01-06 2009-06-17 中国人民解放军理工大学通信工程学院 CR OFDM系统中具有QoS要求的资源分配方法
CN102256262A (zh) * 2011-07-14 2011-11-23 南京邮电大学 基于分布式独立学习的多用户动态频谱接入方法
CN102448070A (zh) * 2012-01-11 2012-05-09 中国人民解放军理工大学 动态频谱环境中基于多智能体强化学习的频率功率联合分配方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101459835A (zh) * 2007-12-12 2009-06-17 上海摩波彼克半导体有限公司 认知无线电网络中提高跨层多媒体传输质量的方法
CN101459962A (zh) * 2009-01-06 2009-06-17 中国人民解放军理工大学通信工程学院 CR OFDM系统中具有QoS要求的资源分配方法
CN102256262A (zh) * 2011-07-14 2011-11-23 南京邮电大学 基于分布式独立学习的多用户动态频谱接入方法
CN102448070A (zh) * 2012-01-11 2012-05-09 中国人民解放军理工大学 动态频谱环境中基于多智能体强化学习的频率功率联合分配方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104168569A (zh) * 2014-07-15 2014-11-26 哈尔滨工程大学 一种认知异构网络的动态频谱分配方法
CN104168569B (zh) * 2014-07-15 2017-11-17 哈尔滨工程大学 一种认知异构网络的动态频谱分配方法
CN111200285A (zh) * 2020-02-12 2020-05-26 燕山大学 一种基于强化学习和多智能体理论的微电网混合协调控制方法
CN111200285B (zh) * 2020-02-12 2023-12-19 燕山大学 一种基于强化学习和多智能体理论的微电网混合协调控制方法
CN111867104A (zh) * 2020-07-15 2020-10-30 中国科学院上海微系统与信息技术研究所 一种低轨卫星下行链路的功率分配方法及功率分配装置
CN111867104B (zh) * 2020-07-15 2022-11-29 中国科学院上海微系统与信息技术研究所 一种低轨卫星下行链路的功率分配方法及功率分配装置
CN112616158A (zh) * 2020-12-14 2021-04-06 中国人民解放军空军工程大学 一种认知通信干扰决策方法
CN112616158B (zh) * 2020-12-14 2023-09-05 中国人民解放军空军工程大学 一种认知通信干扰决策方法
WO2023051221A1 (zh) * 2021-09-28 2023-04-06 中国移动通信有限公司研究院 一种帧结构配置方法、装置、通信设备和存储介质

Similar Documents

Publication Publication Date Title
CN109474980B (zh) 一种基于深度增强学习的无线网络资源分配方法
CN107947878B (zh) 一种基于能效和谱效联合优化的认知无线电功率分配方法
CN108112082B (zh) 一种基于无状态q学习的无线网络分布式自主资源分配方法
CN102869018B (zh) 认知无线电中保证通信连续性的信道和功率联合分配方法
JP2012510749A (ja) マルチキャリアシステムにおける電力割振りのための方法および装置
Bruno et al. Robust adaptive modulation and coding (AMC) selection in LTE systems using reinforcement learning
CN101626260A (zh) 一种认知无线电系统中基于效用函数的分布式功率控制方法
CN104703191A (zh) 保证时延QoS要求的安全认知无线电网络功率分配方法
WO2013104120A1 (zh) 动态频谱环境中基于多智能体强化学习的频率功率联合分配方法
CN103686966B (zh) 降低发射功率的方法和装置
CN102665219B (zh) 一种基于ofdma的家庭基站系统的动态频谱分配方法
CN103369542A (zh) 基于博弈论的同频异构网络功率分配方法
CN102364973A (zh) 基于共享频谱接入的载波和功率联合分配方法
CN102448070B (zh) 动态频谱环境中基于多智能体强化学习的频率功率联合分配方法
CN102833046A (zh) 分布式多天线系统中自适应调制方法
CN107708197A (zh) 一种高能效的异构网络用户接入和功率控制方法
CN108064077A (zh) 蜂窝网络中全双工d2d的功率分配方法
WO2022012609A1 (zh) 一种测量反馈方法及装置
CN102368854B (zh) 一种基于反馈控制信息的认知无线电网络频谱共享方法
CN101321388B (zh) 一种基于博弈论的认知无线电网络fdm信道选择方法
CN113225794A (zh) 一种基于深度强化学习的全双工认知通信功率控制方法
CN107040323A (zh) 一种认知无线电网络中多信道功率带宽联合分配方法
CN107948109B (zh) 认知无线电中能效与谱效折衷的子载波比特联合优化方法
CN111682915B (zh) 一种频谱资源自分配方法
CN111343721B (zh) 一种最大化系统广义能效的d2d分布式资源分配方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12865216

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 12865216

Country of ref document: EP

Kind code of ref document: A1