WO2023231165A1

WO2023231165A1 - 一种基于Stackelberg博弈的多频段群智频谱感知方法

Info

Publication number: WO2023231165A1
Application number: PCT/CN2022/107291
Authority: WO
Inventors: 朱琦; 郭晓敏
Original assignee: 南京邮电大学
Priority date: 2022-05-30
Filing date: 2022-07-22
Publication date: 2023-12-07
Also published as: CN115102648A; CN115102648B

Abstract

本发明公开了一种基于Stackelberg博弈的多频段群智频谱感知方法，将感知需求次用户向协作感知次用户支付报酬问题建模为博弈模型，其中前者是领导层，后者是从属层。感知需求次用户发布频段感知任务与初始报酬，各协作感知次用户通过优化感知时间使自身效用最优并将感知数据发送给感知需求次用户，感知需求次用户不断更新报酬使效用最优并得到最终判决结果。本发明在领导层博弈中综合考虑检测概率和报酬定义了感知需求次用户效用，通过博弈优化报酬获得最佳效用，从属层博弈中综合考虑检测概率和感知时间定义了协作感知次用户效用，根据感知需求次用户发布报酬优化感知时间以获得最佳效用，推导证明了感知时间的优化存在纳什均衡。

Description

一种基于Stackelberg博弈的多频段群智频谱感知方法

技术领域

本发明属于通信技术领域，具体涉及一种基于Stackelberg博弈的多频段群智频谱感知方法。

背景技术

随着智能终端设备的急剧增加，频谱资源日益紧缺，认知无线电技术(Cognitive Radio，CR)可以通过频谱共享大大提高频谱利用率，频谱感知是认知无线电技术的重要环节。频谱空洞是指授权用户(Authorized User，AU)合法使用但未被占用的空闲频段，认知无线电可以将次用户(Second User，SU)机会接入到频谱空洞，但要想实现空闲频谱资源的接入，通过频谱感知技术检测确认授权用户是否存在这一过程尤为重要。

次用户频谱感知通常采用能量检测法，不需要知道授权用户的先验知识，通过计算频段积累的能量是否超过门限值来判断授权用户是否存在。然而面对无线环境中阴影效应、多径衰落、噪声不确定等不利因素的影响，单个次用户对授权频段的感知结果往往是不可靠的，而多个次用户协作频谱感知性能优于单个次用户的感知性能，因此通常采用多个次用户协作频谱感知。关于多用户协作频谱感知的许多研究都是默认次用户无偿感知授权用户是否存在，这在生活中是不现实的，因为次用户在感知过程中会消耗时间、能量、内存等计算资源，所以多用户感知结果虽然更准确，但次用户可能不愿意无偿参与频谱感知过程。因此将激励机制引入频谱感知可以有效解决这一问题，激励机制通过支付报酬的方式补偿次用户的成本，鼓励他们积极参与协作频谱感知。

文献[10]提出了一种基于SU分类的协作频谱感知算法，引入激励机制来鼓励更多的SU积极参与检测，该算法根据信道条件将次用户分为普通次用户(OSU)和中继次用户(RSU)，首先每个SU通过计算效用函数决定是否参与，然后OSU将检测到的数据发送给附近的RSU，接着RSU将收到的数据与本地检测数据一同传送给融合中心。

上述研究只针对单个频段进行频谱感知，在实际系统中，往往需要占用多个频段，并且该研究没有考虑次用户感知成本优化问题，造成感知代价较大。本发明将群智感知技术引入到频谱感知中，考虑多频段的场景，提出了一种基于Stackelberg博弈的多频段群智频谱感知方法，通过优化感知时间减少协作感知次用户的感知成本。

[10]LI Peijun,HAN Bo,LI Heng,et al.The research of spectrum sensing based on SU classification in cognitive LTE-A network[C]//2019 IEEE 3rd Information Technology,Networking,Electronic and Automation Control Conference,Chengdu,China.IEEE,2019:1917-1921.

发明内容

本发明的目的在于克服现有技术感知单个频段的缺陷，提供一种基于Stackelberg博弈的多频段群智频谱感知方法，通过领导层感知需求次用户和从属层协作感知次用户各自博弈，为感知需求次用户招募到合适的协作感知次用户完成感知任务，提高协作感知积极性，在博弈过程中优化协作感知次用户感知时间节约感知成本，提高感知性能。

为解决上述技术问题，本发明采用以下技术方案。

一种基于Stackelberg博弈的多频段群智频谱感知方法，将感知需求次用户向协作感知次用户支付报酬的问题建模为Stackelberg博弈系统模型，其中感知需求次用户是博弈模型中的领导层，协作感知次用户是博弈模型中的从属层；所述系统的场景是一个圆形区域，随机分布有N个协作感知次用户和M个感知需求次用户，取M＝2，即存在两个感知需求次用户；所述的感知需求次用户的集合，表示为

所述的协作感知次用户的集合表示为

所述方法包括以下步骤：

Step1、构建从属层优化问题，并推导协作感知次用户博弈存在纳什均衡解：综合考虑检测概率、感知时间定义协作感知次用户的效用函数，使协作感知次用户的效用最大化；

Step2、构建领导层优化问题：综合考虑经表决融合后的检测概率和任务报酬定义了感知需求次用户的效用函数，使感知需求次用户的效用最大化；

Step3、将感知需求次用户向协作感知次用户支付报酬的问题构建成基于Stackelberg博弈的多频段群智频谱感知系统模型，在博弈模型中感知需求次用户是领导层，协作感知次用户是从属层，每个协作感知次用户可以感知所有频段，但同时只能感知一个频段；

Step4、感知需求次用户对于要感知的频段向协作感知次用户发布任务及初始报酬，初始化感知需求次用户的最大效用

为0；

Step5、所有协作感知次用户根据报酬及感知时间计算其在当前报酬下的效用，通过优化感知时间选择效用最大时对应的感知时间，协作感知次用户根据该感知时间计算对应的检测概率与成本，并将数据对(感知时间，检测概率，基于成本产生的报价)传送给感知需求次用户；

Step6、感知需求次用户根据其报酬向检测概率高的协作感知次用户发送招募意愿及支付报酬的价格；

Step7、若协作感知次用户被多个感知需求次用户同时招募时，通过比较多个感知需求次用户提供的价格选择能够获得报酬多的感知任务加入；

Step8、感知需求次用户计算在当前报酬下的效用，如果该效用值高于

则将该报酬记录下来，在最大报酬B _max的限制下以步长μ增加报酬值，发布新的报酬并重复Step5-Step8，直到相邻两次感知需求次用户的效用值误差小于δ；

Step9、将Step8中得到的感知需求次用户效用最优时对应的报酬作为最终的报酬，协作感知次用户根据该报酬确定最终的感知时间并将感知数据上传给感知需求次用户，得到最终的判决结果。

具体的，协作感知次用户

的报酬p _ij为：

其中

表示协作感知次用户i感知频段任务j的检测概率，B _j表示感知需求次用户j发布的报酬，T _j表示参与频段感知任务j的协作次用户集合。

具体的，协作感知次用户的成本c _ij为：

c _ij＝β×t _ij+γ×d _ij (2)

其中β和γ表示加权系数，t _ij表示协作感知次用户i感知频段任务j的感知时间，d _ij表示协作感知次用户i和感知需求次用户j之间的距离。

具体的，协作感知次用户

的效用为：

其中p _ij表示协作感知次用户i获得的报酬，c _ij表示协作感知次用户i完成频段感知任务j消耗的成本，

表示协作感知次用户i感知频段任务j的检测概率，B _j表示感知需求次用户j发布的报酬，β和γ表示加权系数，t _ij表示协作感知次用户i感知频段任务j的感知时间，d _ij表示协作感知次用户i和感知需求次用户j之间的距离。

具体的，协作感知次用户i感知频段j的检测概率公式为：

其中，p _f表示次用户i的虚警概率，γ _ij表示次用户i感知频段j的信噪比，t _ij表示次用户i感知频段j的感知时间，f _s表示采样频率，通常是一个定值，Q函数是一个互补的累积分布函数，表达式为：

具体的，感知需求次用户

通过招募协作感知次用户

完成相应频段感知任务得到的效用表示为：

其中α表示加权系数，

表示感知需求次用户经过表决融合之后得到频段j的检测概率，

表示协作感知次用户i感知频段任务j的检测概率，B _j表示感知需求次用户j发布的报酬。

具体的，所述感知需求次用户经过表决融合后感知任务j的检测概率表示为：

其中

表示次用户i感知频段j的虚警概率，

表示次用户i感知频段j的检测概率。

优选的，所述的协作感知次用户的采样频率取10kHz，虚警概率取0.1，加权系数α＝8，β＝1，γ＝0.3，无线信号传输考虑大尺度衰落，其衰落系数取4，表决融合准则的判决门限值取N/2。

与现有技术相比，本发明具有以下优点和有益效果：

1、本发明方法将感知需求次用户与协作感知次用户分别建模为Stackelberg博弈的领导层和从属层，通过博弈得到感知需求次用户和协作感知次用户各自的最优策略，在领导层博弈中优化报酬使感知需求次用户效用最优，在从属层博弈中优化感知时间使协作感知次用户效用最优。

2、本发明将频谱感知与群智感知结合，考虑工作在不同频段的多个感知需求次用户招募协作感知次用户完成任务来获得不同的频段的使用情况，在该场景中一个协作感知次用户同时只能感知一个频段，协作感知次用户将感知结果发送给感知需求次用户，感知需求次用户融合多个协作感知次用户的结果，得到更准确的感知结果。

3、本发明考虑工作在不同频段的多个感知需求次用户需要对不同的频段进行感知，有感知需求次用户发布频段感知任务，分别招募协作感知次用户获得频段的使用情况。每个感知需求次用户招募到的协作感知次用户不是事先确定好的，而是根据协作感知次用户的检测概率、感知时间以及报价，随着博弈的过程而变化。

4、本发明感知需求次用户的效用定义为综合考虑检测概率以及报酬，协作感知次用户的效用定义为报酬减去成本，报酬与检测概率有关，成本与感知时间以及协作感知次用户与感知需求次用户之间的距离有关。

5、本发明在协作感知次用户选择时考虑反向选择，当一个协作感知次用户仅被一个感知需求次用户发送招募意愿时，该协作感知次用户就完成该感知任务。当一个协作感知次用户被多个感知需求次用户同时发送招募意愿时，该次用户通过比较多个感知需求次用户给出的报酬价格选择可以使自己获得报酬最多的任务加入。

附图说明

图1为本发明的一个实施例的方法流程图。

图2为本发明的一个实施例的Stackelberg博弈系统模型示意图。

具体实施方式

本发明的一种基于Stackelberg博弈的多频段群智频谱感知方法，该方法将感知需求次用户向协作感知次用户支付报酬的问题建模为Stackelberg博弈系统模型，其中感知需求次用户是博弈模型中的领导层，协作感知次用户是博弈模型中的从属层。感知需求次用户发布频段感知任务与初始报酬，每个协作感知次用户通过优化感知时间使得自身的效用最优并将感知数据发送给感知需求次用户，感知需求次用户通过不断的更新报酬使其效用达到最优，并得到最终的判决结果。在领导层博弈中，该方法综合考虑检测概率和报酬定义了感知需求次用户的效用，通过博弈优化报酬以获得最佳效用，在从属层博弈中，该方法综合考虑检测概率和感知时间定义了协作感知次用户的效用，根据感知需求次用户发布的报酬优化感知时间以获得最佳效用，并且推导证明了感知时间的优化存在纳什均衡。

下面结合附图和实施例对本发明做进一步详细说明。

图2为本发明一个实施例的Stackelberg博弈系统模型示意图。如图2所示，系统的场景是一个圆形区域，随机分布着N个协作感知次用户和M个感知需求次用户，本发明取M＝2，即存在两个感知需求次用户。在本实施例中，协作感知次用户的采样频率取10kHz，虚警概率取0.1，加权系数α＝8，β＝1，γ＝0.3，无线信号传输考虑大尺度衰落，并且衰落系数取4，表决融合准则的判决门限值取N/2。为了激励协作感知次用户完成感知任务，感知需求次用户会向提供感知结果的次用户支付报酬。

本发明在系统模型中存在的次用户分为两部分，第一部分次用户分别工作在不同的频段上，想要在不影响授权用户情况下使用授权频段的次用户，首先需要发布感知任务，然后招募其他空闲次用户进行协作频谱感知获得频段的使用情况，这些有需求的次用户组成的集合称为感知需求次用户集合，表示为

另外一部分是空闲次用户，在接收到感知需求次用户发布的任务以后，他们通过自身携带的智能设备进行感知并上传感知结果，这些空闲次用户组成的集合称为协作感知次用户集合

如图1所示，本发明的一种基于Stackelberg博弈的多频段群智频谱感知方法，包括以下步骤：

Step1:构建从属层优化问题，并推导协作感知次用户博弈存在纳什均衡解：综合考虑检测概率、感知时间定义了协作感知次用户的效用函数，即从属层的优化问题就是使协作感知次用户的效用最大化。

协作感知次用户

完成频段感知任务可以从感知需求次用户

那里得到报酬，并且得到的报酬与其自身的检测概率有关，所以协作感知次用户

的报酬p _ij定义为：

其中

协作感知次用户

完成感知任务需要消耗成本，包括感知频段消耗的成本和上传感知数据消耗的成本，感知频段消耗的成本与感知时间t _ij有关，上传感知数据消耗的成本与协作感知次用户

和感知需求次用户

之间距离有关，因此协作感知次用户的成本c _ij的定义如下：

c _ij＝β×t _ij+γ×d _ij (2)

其中β和γ表示加权系数，t _ij表示协作感知次用户i感知频段任务j的感知时间，d _ij表示协作感知次用户i与感知需求次用户j之间的距离。

所以协作感知次用户

的效用定义为：

其中p _ij表示协作感知次用户

获得的报酬，c _ij表示协作感知次用户

完成频段感知任务消耗的成本，

表示协作感知次用户i感知频段任务j的检测概率，B _j表示感知需求次用户j发布的报酬，β和γ表示加权系数，t _ij表示协作感知次用户i感知频段任务j的感知时间，d _ij表示协作感知次用户i与感知需求次用户j之间的距离。

对于协作感知次用户

而言，为了获得更多的报酬，需要向感知需求次用户

提交最佳的检测概率，假设检测概率中只有感知时间是可以由协作感知次用户

自身决定的，为了使得协作感知次用户

效用最优，协作感知次用户

通过博弈可以确定自己最优的感知时间，从而获得最优的检测概率，因此，从属层协作感知次用户

的优化问题表示为：

在认知无线电频谱感知中，次用户通过能量检测法来感知授权用户的频谱是否在使用，协作感知次用户i感知频段j的检测概率公式表示为：

为了使次用户的检测概率具有参考意义，要求

即

令

则

关于t _ij的一阶偏导数表示为：

进而，U _ij关于t _ij的一阶偏导数表示为：

进而，U _ij关于t _ij的二阶偏导数表示为：

其中，

因为任务预算B _j、感知时间t _ij、采样频率f _s、检测概率

信噪比γ _ij都是正值，所以K'中第二部分

小于0，第三部分

小于0，又因为K<0，所以K'中第一部分

小于0，所以K'小于0，又因为U _ij关于t _ij二阶偏导的前一部分

大于0，从而可知U _ij关于t _ij的二阶偏导数

即

的效用函数U _ij是关于t _ij的严格凸函数，存在唯一的最优解。

由于U _ij关于t _ij的二阶偏导数恒为负值，意味着U _ij关于t _ij的一阶偏导数单调递减，又因为K<0，即

所以有

假设当K＝0时，可得

从而有

即U _ij关于t _ij的一阶偏导数存在正值。

假设当K→-∞时，可得t _ij→∞，从而有

由于β>0，所以当t _ij→∞时，

即U _ij关于t _ij的一阶偏导数存在负值。

因此若

的最大值大于0，则最优的感知时间

可以通过下列方程组得到：

若

的最大值小于0，则

效用最大时对应的感知时间为

因此，

的感知时间博弈存在唯一纳什均衡解，即

检测概率博弈存在唯一纳什均衡解。

Step2:构建领导层优化问题：综合考虑经表决融合后的检测概率和任务报酬定义了感知需求次用户的效用函数，即领导层的优化问题就是使感知需求次用户的效用最大化。

考虑

的效用与发布的报酬以及

感知相应频段的检测概率有关，通过向

发放报酬可以激励更多的协作感知次用户参与感知。感知需求次用户

通过招募

完成相应频段感知任务得到的效用定义为：

其中α表示加权系数，

表示协作感知次用户i感知频段任务j的检测概率，B _j表示感知需求次用户j发布的报酬。每个感知需求次用户采用表决融合准则对多个协作感知次用户提交的感知结果进行处理，经过表决融合后感知任务j的检测概率表示为：

其中

表示次用户i感知频段j的虚警概率，

表示次用户i感知频段j的检测概率。因此，领导层感知需求次用户

的优化问题表示为：

假设每个感知需求次用户支付给协作感知次用户的总报酬不超过B _max，那么在0<B _j≤B _max的范围内一定存在一个最优的报酬

使得感知需求次用户的效用函数值最大。

Step3:将感知需求次用户向协作感知次用户支付报酬的问题构建成基于Stackelberg博弈的多频段群智频谱感知系统模型，在博弈模型中感知需求次用户是领导层，协作感知次用户是从属层，每个协作感知次用户可以感知所有频段，但同时只能感知一个频段；

Step4:感知需求次用户对于要感知的频段向协作感知次用户发布任务及初始报酬，初始化感知需求次用户的最大效用

为0；

Step5:所有协作感知次用户根据报酬及感知时间计算其在当前报酬下的效用，通过优化感知时间选择效用最大时对应的感知时间，协作感知次用户根据该感知时间计算对应的检测概率与成本，并将数据对感知时间，检测概率，基于成本产生的报价)传送给感知需求次用户；

Step6:感知需求次用户根据其报酬向检测概率高的协作感知次用户发送招募意愿及支付报酬的价格；

Step7:若协作感知次用户被多个感知需求次用户同时招募时，通过比较多个感知需求次用户提供的价格选择能够获得报酬多的感知任务加入；

Step8:感知需求次用户计算在当前报酬下的效用，如果该效用值高于

Step9:将Step8中得到的感知需求次用户效用最优时对应的报酬作为最终的报酬，协作感知次用户根据该报酬确定最终的感知时间并将感知数据上传给感知需求次用户，得到最终的判决结果。

综上所述，本发明针对频谱感知场景，结合群智感知技术，提出了一种基于Stackelberg博弈的多频段群智频谱感知方法。该方法将感知需求次用户向协作感知次用户支付报酬的问题建模为Stackelberg博弈模型，其中感知需求次用户是博弈模型中的领导层，协作感知次用户是博弈模型中的从属层。在领导层博弈中，综合考虑检测概率和报酬定义了感知需求次用户的效用，通过博弈优化报酬以获得最佳效用；在从属层博弈中，综合考虑检测概率和感知时间定义了协作感知次用户的效用，根据感知需求次用户发布的报酬通过优化感知时间以获得最佳效用，并且推导证明了感知时间的优化存在纳什均衡。

Claims

一种基于Stackelberg博弈的多频段群智频谱感知方法，其特征在于，将感知需求次用户向协作感知次用户支付报酬的问题建模为Stackelberg博弈系统模型，其中感知需求次用户是博弈模型中的领导层，协作感知次用户是博弈模型中的从属层；所述系统的场景是一个圆形区域，随机分布有N个协作感知次用户和M个感知需求次用户，取M＝2，即存在两个感知需求次用户；所述的感知需求次用户的集合，表示为
所述的协作感知次用户的集合表示为

所述方法包括以下步骤：

Step1、构建从属层优化问题，并推导协作感知次用户博弈存在纳什均衡解：综合考虑检测概率、感知时间定义协作感知次用户的效用函数，使协作感知次用户的效用最大化；

Step2、构建领导层优化问题：综合考虑经表决融合后的检测概率和任务报酬定义了感知需求次用户的效用函数，使感知需求次用户的效用最大化；

Step3、将感知需求次用户向协作感知次用户支付报酬的问题构建成基于Stackelberg博弈的多频段群智频谱感知系统模型，在博弈模型中感知需求次用户是领导层，协作感知次用户是从属层，每个协作感知次用户可以感知所有频段，但同时只能感知一个频段；

Step4、感知需求次用户对于要感知的频段向协作感知次用户发布任务及初始报酬，初始化感知需求次用户的最大效用
为0；

Step5、所有协作感知次用户根据报酬及感知时间计算其在当前报酬下的效用，通过优化感知时间选择效用最大时对应的感知时间，协作感知次用户根据该感知时间计算对应的检测概率与成本，并将数据对(感知时间，检测概率，基于成本产生的报价)传送给感知需求次用户；

Step6、感知需求次用户根据其报酬向检测概率高的协作感知次用户发送招募意愿及支付报酬的价格；

Step7、若协作感知次用户被多个感知需求次用户同时招募时，通过比较多个感知需求次用户提供的价格选择能够获得报酬多的感知任务加入；

Step8、感知需求次用户计算在当前报酬下的效用，如果该效用值高于
则将该报酬记录下来，在最大报酬B _max的限制下以步长μ增加报酬值，发布新的报酬并重复Step5-Step8，直到相邻两次感知需求次用户的效用值误差小于δ；

Step9、将Step8中得到的感知需求次用户效用最优时对应的报酬作为最终的报酬，协作感知次用户根据该报酬确定最终的感知时间并将感知数据上传给感知需求次用户，得到最终的判决结果。
根据权利要求1所述的一种基于Stackelberg博弈的多频段群智频谱感知方法，其特征在于，协作感知次用户
的报酬p _ij为：

其中
表示协作感知次用户i感知频段任务j的检测概率，B _j表示感知需求次用户j发布的报酬，T _j表示参与频段感知任务j的协作次用户集合。
根据权利要求1所述的一种基于Stackelberg博弈的多频段群智频谱感知方法，其特征在于，协作感知次用户的成本c _ij为：

c _ij＝β×t _ij+γ×d _ij (2)

其中β和γ表示加权系数，t _ij表示协作感知次用户i感知频段任务j的感知时间，d _ij表示协作感知次用户i和感知需求次用户j之间的距离。
根据权利要求1所述的一种基于Stackelberg博弈的多频段群智频谱感知方法，其特征在于，协作感知次用户
的效用为：

其中p _ij表示协作感知次用户i获得的报酬，c _ij表示协作感知次用户i完成频段感知任务j消耗的成本，
表示协作感知次用户i感知频段任务j的检测概率，B _j表示感知需求次用户j发布的报酬，β和γ表示加权系数，t _ij表示协作感知次用户i感知频段任务j的感知时间，d _ij表示协作感知次用户i和感知需求次用户j之间的距离。
根据权利要求1所述的一种基于Stackelberg博弈的多频段群智频谱感知方法，其特征在于，协作感知次用户i感知频段j的检测概率公式为：

其中，p _f表示次用户i的虚警概率，γ _ij表示次用户i感知频段j的信噪比，t _ij表示次用户i感知频段j的感知时间，f _s表示采样频率，通常是一个定值，Q函数是一个互补的累积分布函数，表达式为：
根据权利要求1所述的一种基于Stackelberg博弈的多频段群智频谱感知方法，其特征在于，感知需求次用户
通过招募协作感知次用户
完成相应频段感知任务得到的效用表示为：

其中α表示加权系数，
表示感知需求次用户经过表决融合之后得到频段j的检测概率，
表示协作感知次用户i感知频段任务j的检测概率，B _j表示感知需求次用户j发布的报酬。
根据权利要求1所述的一种基于Stackelberg博弈的多频段群智频谱感知方法，其特征在于，所述感知需求次用户经过表决融合后感知任务j的检测概率表示为：

其中
表示次用户i感知频段j的虚警概率，
表示次用户i感知频段j的检测概率。
根据权利要求1至7任一项所述的一种基于Stackelberg博弈的多频段群智频谱感知方法，其特征在于，所述的协作感知次用户的采样频率取10kHz，虚警概率取0.1，加权系数α＝8，β＝1，γ＝0.3，无线信号传输考虑大尺度衰落，其衰落系数取4，表决融合准则的判决门限值取N/2。