WO2024046286A1

WO2024046286A1 - 一种信道聚合方法及装置

Info

Publication number: WO2024046286A1
Application number: PCT/CN2023/115350
Authority: WO
Inventors: 舒同欣; 刘鹏; 郭子阳; 罗嘉俊; 杨迅; 颜敏
Original assignee: 华为技术有限公司
Priority date: 2022-08-31
Filing date: 2023-08-28
Publication date: 2024-03-07
Also published as: CN117693035A

Abstract

本申请涉及通信技术领域，公开了一种信道聚合方法及装置，以期做出最优的信道聚合决策，解决信道聚合吞吐小、时延大的问题。该方法包括：第一终端设备接收负载报告，负载报告包括网络设备的M个信道中每个信道在第t个时间段的负载信息，M个信道包括第一终端设备对应的1个主信道和M-1个次信道；将第t个时间段的信道环境信息输入到信道聚合模型进行处理，得到第t信道聚合指示值，第t个时间段的信道环境信息包括主信道和M-1个次信道中每个次信道在第t个时间段的负载信息，第t信道聚合指示值用于指示M-1个次信道中的N个次信道与主信道聚合；在第t+1个时间段通过主信道和N个次信道聚合后的信道发送数据包。

Description

一种信道聚合方法及装置

相关申请的交叉引用

本申请要求在2022年08月31日提交中国专利局、申请号为202211066591.3、申请名称为“一种信道聚合方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及通信技术领域，尤其涉及一种信道聚合方法及装置。

背景技术

为了应对频谱资源的短缺和业务流量增加的问题，电气与电子工程师协会(institute of electrical and electronics engineers，IEEE)制定的通信标准中引入了信道聚合技术。具体的信道聚合技术可以基于主信道，将主信道和与主信道相邻的次信道聚合，以支持更大的信道带宽，从而提高数据传输速率。

目前，信道聚合方法主要分为静态(static)信道聚合和动态(dynamic)信道聚合两类信道聚合方法。静态信道聚合的主要思想为：在主信道空闲的前提条件下，需要等待所有次信道也空闲，才可以进行信道聚合。动态信道聚合的主要思想是：在主信道空闲时，如果正好也存在次信道空闲，即可将主信道和空闲的次信道聚合。

然而，采用上述信道聚合方法时，当存在多个终端设备竞争信道资源时，会存在各终端设备发送的数据包碰撞率高、终端设备多次进入倒退窗口等待发送数据包，导致信道聚合吞吐小、时延大的问题。

发明内容

本申请实施例提供一种信道聚合方法及装置，以期做出最优的信道聚合决策，解决信道聚合吞吐小、时延大的问题。

第一方面，本申请实施例提供一种信道聚合方法，该方法可以由第一终端设备执行，也可以由第一终端设备的部件(例如处理器、芯片、或芯片系统等)执行，还可以由能实现全部或部分第一终端设备功能的逻辑模块或软件实现。以下以第一终端设备执行该方法为例进行说明，该方法包括：第一终端设备接收来自网络设备的负载报告，负载报告包括网络设备的M个信道中每个信道在第t个时间段的负载信息，其中，M个信道包括第一终端设备对应的1个主信道和M-1个次信道，M为大于或等于2的整数，t为大于或等于2的整数；第一终端设备将第t个时间段的信道环境信息输入到信道聚合模型进行处理，得到第t信道聚合指示值，第t个时间段的信道环境信息包括主信道和M-1个次信道中每个次信道在第t个时间段的负载信息、以及第一终端设备在第t个时间段对主信道和M-1个次信道进行信道状态监测得到的信道状态监测信息，第t信道聚合指示值用于指示M-1个次信道中的N个次信道与主信道聚合，N为大于或等于0、且小于或等于M-1的整数；第一终端设备对主信道和N个次信道进行信道聚合，也即终端设备可以在第t+1个时间段通过主信道和N个次信道聚合后的信道发送数据包，第t+1个时间段为第t个时间段之后的时间段。

可选地，负载报告还可以包括第t时段的截止时间。

采用上述方法，第一终端设备可以从网络设备侧获取各信道准确的负载信息，并结合自身进行信道状态监测得到的信道状态监测信息(如第一终端设备在各信道发送数据包的信息等)，基于信道的实时负载和信道状态，利用人工智能(artificial intelligence，AI)，即信道聚合模型的预测能力，做出优选的信道聚合决策，有利于降低第一终端设备在聚合后的信道发送数据与其它终端设备发送的数据包的碰撞概率，提升聚合后信道的传输性能，解决信道聚合吞吐小、时延大的问题。

在一种可能的设计中，第一终端设备在第t个时间段对主信道和M-1个次信道进行信道状态监测得到的信道状态监测信息可以但不限于包括以下中的一项或多项：第一终端设备在第t个时间段内监测到的主信道和M-1个次信道中的每个次信道在每个时间单元的忙闲状态；第一终端设备在第t个时间段内监测到的第一终端设备在主信道和M-1个次信道中的每个次信道上每个时间单元的数据包发送状态；第一终端设备在第t个时间段内监测到的第一终端设备在主信道和M-1个次信道中的每个次信道上数据包发送状态与信道的忙闲状态同时保持不变连续的时间单元个数。

上述设计中，第一终端设备可以从各个信道的忙闲状态和自身在各个信道的发送数据包情况等角度出发，对各个信道进行信道状态监测，有利于基于信道的实时负载和信道状态，通过信道聚合模型做出最优的信道聚合决策，从而提升聚合后信道的传输性能。

在一种可能的设计中，该方法还包括：第一终端设备根据主信道和N’个次信道中每个次信道在第t-1个时间段的负载信息，确定基于信道聚合模型得到第t-1信道聚合指示值的奖励值，其中第t-1信道聚合指示值用于指示M-1个次信道中的N’个次信道与主信道聚合；第一终端设备根据第t-1个时间段的信道环境信息、第t-1信道聚合指示值和设定的状态动作值函数，确定基于第t-1个时间段的信道环境信息进行第t-1信道聚合指示值对应的信道聚合方式的第一状态动作值；第一终端设备根据第t-1个时间段的信道环境信息、主信道与M-1个次信道对应的2^M-1-1个候选信道聚合指示值和设定的状态动作值函数，确定第二状态动作值，其中2^M-1-1个候选信道聚合指示值对应于主信道与M-1个次信道的2^M-1-1个候选信道聚合方式，第二状态动作值为基于第t-1个时间段的信道环境信息分别进行2^M-1-1个候选信道聚合指示值对应的候选信道聚合方式的状态动作值中的最大状态动作值；以及第一终端设备根据第一状态动作值、第二状态动作值和第t-1信道聚合指示值的奖励值，确定信道聚合模型的损失；第一终端设备根据信道聚合模型的损失，对信道聚合模型进行训练更新；其中，N’与N相同或不同，第t-1个时间段为第t个时间段之前的时间段。

上述设计中，在信道聚合模型做出信道聚合决策(即输出信道聚合指示值)后，第一终端设备可以测试在聚合后的信道上发送数据包是否会与其它终端设备发送数据包发生碰撞，并根据该信道聚合决策以及在聚合后的信道上的发送数据包的情况，结合各信道的负载情况，对信道聚合模型做出的信道聚合决策给予不同的奖励，引导信道聚合模型根据各信道上的负载情况进行学习，以期通过信道聚合模型输出最优的信道聚合决策。

在一种可能的设计中，该方法还包括：第一终端设备根据主信道和N’个次信道中每个次信道在第t-1个时间段的负载信息，确定基于信道聚合模型得到第t-1信道聚合指示值的奖励值，其中第t-1信道聚合指示值用于指示M-1个次信道中的N’个次信道与主信道聚合，N’与N相同或不同，第t-1个时间段为第t个时间段之前的时间段；

第一终端设备将第t个时间段的信道环境信息输入到信道聚合模型进行处理，得到第t信道聚合指示值，包括：第一终端设备将第t个时间段的信道环境信息、第t-1信道聚合指示值的奖励值输入到信道聚合模型进行处理，得到第t信道聚合指示值。

采用上述方法，还可以设定奖励策略对信道聚合模型做出的信道聚合决策(即输出的信道聚合指示值)给予不同的奖励，并将给予的奖励值也作为信道聚合模型下次作出信道决策的影响因素，以期使信道聚合模型作出用户需求的信道聚合决策。

可选地，第一终端设备根据主信道和N’个次信道中每个次信道在第t-1个时间段的负载信息，确定基于信道聚合模型得到第t-1信道聚合指示值的奖励值，可以包括以下情况，各个情况可以结合使用，也可以独立使用，本申请不限制各个情况的组合情况：

当第一终端设备在主信道和N’个次信道聚合后的信道发送数据包未与其他终端设备发送数据包发生碰撞、且N’不为零时，第一终端设备根据确定基于信道聚合模型得到第t-1信道聚合指示值的奖励值；

当第一终端设备在主信道和N’个次信道聚合后的信道发送数据包未与其他终端设备发送数据包发生碰撞、且N’为零时，第一终端设备根据确定基于信道聚合模型得到第t-1信道聚合指示值的奖励值；

当第一终端设备在主信道和N’个次信道聚合后的信道发送数据包与其他终端设备发送数据包发生碰撞、且N’不为零时，第一终端设备根据确定基于信道聚合模型得到第t-1信道聚合指示值的奖励值；

当第一终端设备在主信道和N’个次信道聚合后的信道发送数据包与其他终端设备发送数据包发生碰撞、且N’为零时，第一终端设备根据确定基于信道聚合模型得到第t-1信道聚合指示值的奖励值；

上述各个情况中，R_t表示基于信道聚合模型得到第t-1信道聚合指示值的奖励值，K表示N’个次信道中的第K个次信道，K＝1、2、…、N’，表示第K个次信道在第t-1个时间段的负载信息，表示主信道在第t-1个时间段的负载信息。

上述设计中，在信道聚合模型做出信道聚合决策(即输出信道聚合指示值)后，第一终端设备可以测试在聚合后的信道上发送数据包是否会与其它终端设备发送数据包发生碰撞，并根据该信道聚合决策以及在聚合后的信道上的发送数据包的情况，结合各信道的负载情况，对信道聚合模型做出的信道聚合决策给予不同的奖励，以引导信道聚合模型根据各信道上的负载情况进行学习，以期通过信道聚合模型输出最优的信道聚合决策。

第二方面，本申请实施例提供一种通信装置，该装置具有实现上述第一方面中方法的功能，所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块，比如包括接口单元和处理单元。

在一个可能的设计中，该装置可以是芯片或者集成电路。

在一个可能的设计中，该装置包括存储器和处理器，存储器用于存储所述处理器执行的指令，当指令被处理器执行时，所述装置可以执行上述第一方面的方法。

在一个可能的设计中，该装置可以为第一终端设备。

第三方面，本申请实施例提供一种通信装置，该通信装置包括接口电路和处理器，处理器和接口电路之间相互耦合。处理器通过逻辑电路或执行指令用于实现上述第一方面的方法。接口电路用于接收来自该通信装置之外的其它通信装置的信号并传输至处理器或将来自处理器的信号发送给该通信装置之外的其它通信装置。可以理解的是，接口电路可以为收发器或收发机或收发信机或输入输出接口。

可选的，通信装置还可以包括存储器，用于存储处理器执行的指令或存储处理器运行指令所需要的输入数据或存储处理器运行指令后产生的数据。存储器可以是物理上独立的单元，也可以与处理器耦合，或者处理器包括该存储器。

第四方面，本申请实施例提供一种计算机可读存储介质，在存储介质中存储有计算机程序或指令，当计算机程序或指令被执行时，可以实现上述第一方面的方法。

第五方面，本申请实施例还提供一种计算机程序产品，包括计算机程序或指令，当计算机程序或指令被执行时，可以实现上述第一方面的方法。

第六方面，本申请实施例还提供一种芯片，该芯片与存储器耦合，用于读取并执行存储器中存储的程序或指令，实现上述第一方面的方法。

上述第二方面至第六方面所能达到的技术效果请参照上述第一方面所能达到的技术效果，这里不再重复赘述。

附图说明

图1为本申请实施例提供的一种通信系统架构示意图；

图2为本申请实施例提供的一种全连接神经网络示意图；

图3为本申请实施例提供的一种神经元根据输入计算输出的示意图；

图4为本申请实施例提供的一种相邻的多信道聚合的示意图；

图5为本申请实施例提供的一种前导码打孔传输的示意图；

图6为本申请实施例提供的一种信道聚合方法示意图；

图7为本申请实施例提供的信道的负载信息的指示信息示意图之一；

图8为本申请实施例提供的信道的负载信息的指示信息示意图之二；

图9A为本申请实施例提供的一种信道聚合模型的结构的示意图；

图9B为本申请实施例提供的一种强化学习流程示意图；

图10为本申请实施例提供的通信装置示意图之一；

图11为本申请实施例提供的通信装置示意图之二；

图12为本申请实施例提供的一种设备结构示意图。

具体实施方式

本申请实施例的技术方案可以应用于各种通信系统，例如：5G系统，LTE系统，长期演进高级(long term evolution-advanced，LTE-A)系统等通信系统中，也可以扩展到如无线保真(wireless fidelity，WiFi)、全球微波互联接入(worldwide interoperability for microwave access，wimax)、以及3GPP等相关的蜂窝系统中，及未来的通信系统，如6G系统等。具体的，本申请实施例所应用的通信系统架构可以如图1所示，包括网络设备和多个终端设备，图1中以三个终端设备为例。终端设备1-终端设备3可以分别或者同时向网络设备发送数据(或数据包)，需要说明的是，本申请实施例中不限定图1中所示通信系统中终端设备以及网络设备的个数。

上述终端设备也可以称为终端(terminal)、用户设备(user equipment，UE)、移动台(mobile station，MS)、移动终端等。终端设备可以广泛应用于各种场景，例如，设备到设备(device-to-device，D2D)通信、车到一切(vehicle to everything，V2X)通信、机器类通信(machine-type communication，MTC)、物联网(internet of things，IoT)、虚拟现实、增强现实、工业控制、自动驾驶、远程医疗、智能电网、智能家具、智能办公、智能穿戴、智能交通、智慧城市等。终端设备可以是手机、平板电脑、带无线收发功能的电脑、可穿戴设备、车辆、无人机、直升机、飞机、轮船、机器人、机械臂、智能家居设备、车载终端、IoT终端、可穿戴设备、WiFi系统中的站点(station，STA)等。本申请的实施例对终端设备所采用的具体技术和具体设备形态不做限定。

网络设备也可以称为接入网(access network，AN)设备，或无线接入网(radio access network，RAN)设备。可以是基站(base station)、演进型基站(evolved NodeB，eNodeB)、收发点(transmitter and receiver point，TRP)、集成接入和回传(integrated access and backhauling，IAB)节点、第五代(5th generation，5G)移动通信系统中的下一代基站(next generation NodeB，gNB)、第六代(6th generation，6G)移动通信系统中的基站、其他未来移动通信系统中的基站、家庭基站(例如，home evolved nodeB，或home node B，HNB)、WiFi系统中的接入点(access point，AP)、无线中继节点、无线回传节点等。

在介绍本申请实施例之前，首先对本申请中的部分用语进行解释说明，以便于本领域技术人员理解。

1)、神经网络(neural network，NN)是一种模拟人脑神经网络以期能够实现类人工智能的机器学习技术。神经网络至少包括3层，一个输入层、一个中间层(也称隐藏层)以及一个输出层。更深一些的神经网络可能在输入层和输出层之间包含更多的隐藏层。以最简单的神经网络为例，对其内部的结构和实现进行说明，参见图2所示的包含3个层的全连接神经网络示意图。如图2所示，该神经网络包括3个层，分别是输入层、隐藏层以及输出层，其中图2中每个圆代表一个神经元，输入层有3个神经元，隐藏层有4个神经元，输出层有2个神经元，并且每层神经元与下一层神经元全连接。神经元之间的每条连线对应一个权重，这些权重通过训练可以更新。隐藏层和输出层的每个神经元还可以对应一个偏置，这些偏置通过训练也可以更新。更新神经网络是指更新这些权重和偏置。知道了神经网络的结构，即神经网络每层包含的神经元个数以及神经元之间的连接关系，和神经网络的参数，即神经元之间的每条连线对应的权重、每个神经元对应的偏置，就知道了该神经网络的全部信息。

由图2可知，每个神经元可能有多条输入连线，每个神经元根据输入计算输出。参见图3，图3是一个神经元根据输入计算输出的示意图。如图3所示，一个神经元包含3个输入，1个输出，以及2个计算功能，输出的计算公式(1-1)可以表示为：
输出＝激活函数(输入1*权重1+输入2*权重2+输入3*权重3+偏置) (1-1)；

其中，“*”表示数学运算“乘”或“乘以”，其中激活函数可以采用S型函数(sigmoid函数)、双曲函数、整流函数(rectification function，ReLu)等。

每个神经元可能有多条输出连线，一个神经元的输出作为下一个神经元的输入。应理解，输入层只有输出连线，输入层的每个神经元是输入神经网络的值，每个神经元的输出值直接作为所有输出连线的输入。输出层只有输入连线，采用上述公式(1-1)的计算方式计算输出。可选的，输出层可以没有激活函数的计算，也就是说前述公式(1-1)可以变换成：输出＝输入1*权重1+输入2*权重2+输入3*权重3+偏置。

举例来说，k层神经网络可以表示为：
y＝fk(fk-1(…(f1(w1*x+b1))) (1-2)；

其中，x表示神经网络的输入，y表示神经网络的输出，wi表示第i层神经网络的权重，bi表示第i层神经网络的偏置，fi表示第i层神经网络的激活函数，i＝1，2，…，k。

2)、信道聚合，在IEEE 802.11ac标准中，信道聚合技术被首次引入，允许基于一个20兆赫(mega hertz，MHz)的主信道(primary channel)，将多个相邻的20MHz的次信道(secondary channel)聚合为带宽为40MHz、80MHz或者160MHz的信道用于传输，从而提高传输效率。图4为相邻的多信道聚合的示意图，参照图4所示可知，20MHz的主信道和20MHz的次信道可以聚合为带宽为40MHz的信道；40MHz的主信道和40MHz的次信道可以聚合为带宽为80MHz的信道；8MHz的主信道和80MHz的次信道可以聚合为带宽为160MHz的信道。

在802.11ac标准的下一代标准，即802.11ax标准中，基于前导码打孔(preamble puncturing)等技术，信道聚合被允许在非相邻的20MHz信道之间进行，为信道聚合提供了更多的灵活性，也为进一步提高传输吞吐率带来了更多可能。如图5所示，图5是前导码打孔传输的示意图。其中，TX表示发送(transport)，CH表示信道(channel)，每个信道(CH1、CH2、CH3、CH4)的带宽均为20MHz，帧1(frame 1)、帧2(frame 2)以及帧3(frame 3)的传输带宽均为80MHz，由于传输frame 1时，次20MHz信道(记为S20)繁忙(busy)，所以S20被打孔，故frame 1的实际带宽为60MHz。同理，frame 2的实际带宽为60MHz，frame 3的实际带宽为40MHz。

3)、信道聚合方法，目前信道聚合方法主要分为静态信道聚合和动态信道聚合两类信道聚合方法。静态信道聚合的主要思想为：在主信道空闲的前提条件下，需要等待所有次信道也空闲，才可以进行信道聚合。动态信道聚合的主要思想是：在主信道空闲时，如果正好也存在次信道空闲，即可将主信道和空闲的次信道聚合。

由上述信道聚合方法可知，目前信道聚合方法，主要思想是在主信道空闲的情况下，将主信道与空闲的次信道进行聚合。然而，当存在多个终端设备竞争信道资源时，会存在多个终端设备应用的聚合后的信道存在部分或全部重叠，存在各终端设备发送的数据包碰撞率高、终端设备多次进入倒退窗口等待发送数据包，导致信道聚合吞吐小、时延大的问题。

基于此，本申请提供一种信道聚合方法，旨在基于信道的实时状态和业务的传输需求，利用人工智能(artificial intelligence，AI)的预测能力，做出优选的信道聚合决策提升聚合后信道的传输性能，解决信道聚合吞吐小、时延大的问题。下面将结合附图，对本申请实施例进行详细描述，其中附图中的虚线表示可选步骤或组件。

另外，需要理解的是，本申请实施例提及“第一”、“第二”等序数词是用于对多个对象进行区分，不用于限定多个对象的大小、内容、顺序、时序、优先级或者重要程度等。例如，第t个时间段和第t+1个时间段，并不是表示这两个时间段对应的优先级或者重要程度等的不同。

本申请实施例中，对于名词的数目，除非特别说明，表示“单数名词或复数名词”，即"一个或多个”。“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。例如，A/B，表示：A或B。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a,b,或c中的至少一项(个)，表示：a,b,c,a和b,a和c,b和c,或a和b和c，其中a,b,c可以是单个，也可以是多个。

图6为本申请实施例提供的信道聚合方法，该方法包括：

S601：第一终端设备接收来自网络设备的负载报告，负载报告包括网络设备的M个信道中每个信道在第t个时间段的负载信息，M为大于或等于2的整数，t为大于或等于2的整数。

在本申请实施例中，网络设备可以按照设定的获取周期，通过载波监听(carrier sensing)等方式，获取网络设备的M个信道中每个信道在获取周期所对应的时间段(如第t个时间段)的负载信息。其中，信道在某一时间段(如第t个时间段)的负载信息，可以用于一个负载值来表示，该负载值表示该时间段内信道繁忙的时间(即有数据包传输的时间)占总时间比的比值。

作为一种示例：对于某一时间段(如第t个时间段)，网络设备可以通过载波监听获得该时间段内网络设备的M个信道中每个信道在每个时间单元是否有数据包的传输，并根据该时间段内每个信道在每个时间单元是否有数据包传输，来确定每个信道在该时间段的负载信息(如负载值)。其中时间单元可以为子帧、时隙(slot)、迷你时隙或符号等不同的时间粒度的资源，一个时间段内可以包括一个或多个时间单元。

例如：某一时间段(如第t个时间段)包括50个时域单元，网络设备通过载波监听获得信道A在该时间段中的30个时域单元中有数据包的传输，则可以确定信道A在该时间段的负载信息(如负载值)为30/50*100％＝60％。可选地，还可以将负载值量化(scale)到0-255，比如信道A在该时间段的负载值为60％，60％*255＝153，可以通过153来表示信道A在该时间段的负载值60％。

对于第t个时间段，网络设备获得M个信道中每个信道在第t个时间段的负载信息后，可以将包括M个信道中每个信道在第t个时间段的负载信息的负载报告(load report)通过广播、组播等方式发送终端设备，例如：通过广播的方式发送给位于网络设备服务范围内的一个或多个终端设备。

其中，负载报告中用于指示每个信道的负载信息的指示信息可以如图7所示，其中，信道编号(channel number)字段用于指示信道的编号(或索引)，占用一个8比特(octet)；信道负载(channel load)字段用于指示信道对应的负载值，占用一个octet。对于M个信道中每个信道在第t个时间段的负载信息，负载报告共产生M*16比特的开销。

在一种可能的实施中，用于指示每个信道的负载信息的指示信息还可以如图8所示，指示信息还可以包括监管类(regulatory class)字段和实际测量停止时间(actual measurement stop time)字段。其中，监管类字段可以指示一个类型集合，占用一个octet，该类型集合可以包含：工作频段、信道带宽、所在信道集合、传输功率上限、设定排放限值(emissions limits set)、行为限制集(behavior limits set)等信息中的一项或多项。例如：监管类字段的值为55对应的类型集合表示信道在5吉赫(GHz)频段下，信道带宽为20MHz，所属信道集合中包括的信道的信道编号(或索引)为149、153、157、161、165，传输功率为1000mW，emissions limits set为4，behavior limits set为10；监管类字段的值12对应的监管类集合表示信在2.407GHz频段下，信道带宽为25MHz，所属信道集合中包括的信道的信道编号(或索引)为1-11，传输功率为1000mW，emissions limits sets为4和behavior limits set为10。实际测量停止时间字段，占用8个octet，用于指示完成负载测量的时间，可以用于保证下发给各终端设备的负载报告的时间一致性，比如网络设备在第t个时间段通过载波监听对信道进行负载测量，则该完成负载测量的时间为第t个时间段的截止时间。

需要理解的是，监管类字段和实际测量停止时间字段是可选的，是否存在监管类字段和实际测量停止时间字段可以通过在指示信息的前2比特指示。例如：00表示没有这两个字段，01表示存在实际测量停止时间字段，10表示存在监管类字段，而11表示监管类字段和实际测量停止时间字段全部都存在。

另外，需要理解的是，M个信道包括第一终端设备对应的1个主信道和M-1个次信道，其中M个信道中，第一终端设备对应的1个主信道可以由网络设备通过无线资源控制(radio resource control，RRC)消息等指示给第一终端设备，也可以由第一终端设备根据M个信道的负载信息确定(如选择负载值最小的信道作为主信道)等，本申请对此不作限定。

S602：第一终端设备将第t个时间段的信道环境信息输入到信道聚合模型进行处理，得到第t信道聚合指示值。

其中，第t个时间段的信道环境信息包括主信道和M-1个次信道中每个次信道在第t个时间段的负载信息、以及第一终端设备在第t个时间段对主信道和M-1个次信道进行信道状态监测得到的信道状态监测信息，信道聚合指示值用于指示M-1个次信道中的N个次信道与主信道聚合，N为大于或等于0、且小于或等于M-1的整数。

在本申请实施例中，第一终端设备还可以在每个获取周期对应的时间段内，对主信道和M-1个次信道进行信道状态监测，得到信道状态监测信息。以第t个时间段为例，第一终端设备在第t个时间段对主信道和M-1个次信道进行信道状态监测得到的信道状态监测信息可以包括：第一终端设备在第t个时间段内监测到的主信道和M-1个次信道中的每个次信道在每个时间单元的忙闲状态；第一终端设备在第t个时间段内监测到的第一终端设备在主信道和M-1个次信道中的每个次信道上每个时间单元的数据包发送状态；第一终端设备在第t个时间段内监测到的第一终端设备在主信道和M-1个次信道中的每个次信道上数据包发送状态与信道的忙闲状态同时保持不变连续的时间单元个数中的一项或多项。

其中，对于第一终端设备在第t个时间段内监测到的主信道和M-1个次信道中的每个次信道在每个时间单元的忙闲状态，可以用表示，其中i＝1、2、3、…、M，表示主信道和M-1个次信道(共M个信道)中的第i个信道(以下简称信道i)，中包含的元素数量与第t个时间段内包括的时间单元的数量相等，元素的值为1代表信道i在该元素对应的时间单元的忙闲状态为忙(即有数据包的传输，可能是第一终端设备的数据传输，也可能是其它终端设备的数据包传输)、元素的值为0代表信道i在该元素对应的时间单元的忙闲状态为闲(即无数据包的传输)、元素的值为-1代表第一终端设备未监测信道 i在该元素对应的时间单元的忙闲状态(比如因第一终端设备在该元素对应的时间单元在信道i外的其它信道发送数据包，无法监测信道i在该元素对应的时间单元的忙闲状态)。比如表示信道i在第t个时间段的前9个时间单元的忙闲状态为闲，第10个时间单元的忙闲状态为忙。

对于第一终端设备在第t个时间段内监测到的第一终端设备在主信道和M-1个次信道中的每个次信道上每个时间单元的数据包发送状态可以用表示，其中i＝1、2、3、…、M，表示主信道和M-1个次信道(共M个信道)中的第i个信道(以下简称信道i)，中包含的元素数量与第t个时间段内包括的时间单元的数量相等，元素的值为1代表对于信道i第一终端设备在该元素对应的时间单元有数据包的发送、元素的值为0代表对于信道i第一终端设备在该元素对应的时间单元无数据包的发送。比如表示第一终端设备在第t个时间段的前3个时间单元和第10个时间单元在信道i有数据包的发送，在第4至第9个时间单元在信道i没有数据包的发送。

对于第一终端设备在第t个时间段内监测到的第一终端设备在主信道和M-1个次信道中的每个次信道上数据包发送状态与信道的忙闲状态同时保持不变连续的时间单元个数可以用表示。以和为例，在第t个时间段的第一个时间单元，第一终端设备可以将的值设置为初始值0；在第t个时间段的第二个时间单元，和中对应第二个时间单元的元素的值均与对应第一时间单元的元素的值相同，的值+1(为1)；在第t个时间段的第三个时间单元，和中对应第三个时间单元的元素的值均与对应第二时间单元的元素的值相同，的值+1(为2)；在第t个时间段的第四个时间单元，存在中对应第四个时间单元的元素的值与对应第三时间单元的元素的值不相同，的值重置为0；在第t个时间段的第五个时间单元，存在中对应第五个时间单元的元素的值与对应第四时间单元的元素的值不相同，的值重置为0；在第t个时间段的第六个时间单元，和中对应第六个时间单元的元素的值均与对应第五时间单元的元素的值相同，的值+1(为1)；…；在第t个时间段的第十个时间单元，和中对应第十个时间单元的元素的值均与对应第九个时间单元的元素的值相同，的值+1(为5)；最终得到为5。

在本申请实施例中，信道聚合模型的输入可以是某一时间段(如第t个时间段)的信道环境信息S，信道聚合模型输出为信道聚合指示值Y。以第t个时间段为例，第t个时间段的信道环境信息S_t包括主信道在第t个时间段的负载信息以及M-1个次信道在第t个时间段的负载信息其中j＝1、2、3、…、M-1，表示M-1个次信道中的第j个次信道。还可以包括第一终端设备在第t个时间段对主信道和M-1个次信道进行信道状态监测得到的信道状态监测信息，如第t个时间段对应的上述中的一项或多项。Y可以为0到2^M-1-1之间的一个数，每个数都映射为具体的一种包含主信道在内的信道聚合方式，如Y＝0代表不做信道聚合，Y＝1代表主信道与M-1个次信道中第一个次信道进行信道聚合，Y＝2代表主信道与M-1个次信道中第二个次信道聚合，…，Y＝M-1代表主信道与M-1个次信道中第M-1个次信道聚合，Y＝M代表主信道与M-1个次信道中第一个次信道和第二个次信道聚合等等。

对于信道聚合模型(也即信道聚合模型对应的神经网络)中各层神经元的参数，可以通过随机初始化的方式为信道聚合模型中的各层神经元配置参数。也可以采用样本库中已标注有信道聚合方式对应的目标信道聚合指示值的多个信道环境信息样本，由训练设备训练得到。在一种可能的实施中，样本库中的多个信道环境信息样本可以由第一终端设备获取多个时间段分别对应的信道环境信息，并由人工针对每个时间段对应的信道环境信息，根据该时间段下一时间段对应的信道环境信息，确定该时间段对应的信道环境信息所对应的一个优选信道聚合方式后，为该时间段对应的信道环境信息标注对应该优先信道聚合方式的目标信道聚合指示值。在对信道聚合模型进行训练时，训练设备(如第一终端设备或网络设备)可以将样本库中的信道环境信息样本输入到信道聚合模型，得到信道聚合模型输出的信道聚合指示值，根据信道聚合模型输出的信道聚合指示值与该信道环境信息样本对应的目标信道聚合指示值，通过损失函数(loss function)训练设备可以计算信道聚合模型的损失(loss)，loss越高表示通过信道聚合模型输出的信道聚合指示值与目标信道聚合指示值的差异越大，信道聚合模型根据loss调整信道聚合模型中神经元的参数，如采用随机梯度下降法更新信道聚合模型中神经元的参数，那么对信道聚合模型的训练过程就变成了尽可能缩小这个loss的过程。通过样本集中的信道环境信息样本不断对信道聚合模型进行训练，当这个loss缩小至预设范围，即可得到训练完成的信道聚合模型。

作为一种示例，本申请实施例的信道聚合模型的结构可以如图9A所示，其中图9A中每个方块代表一个全连接层，信道聚合模型可以由7个全连接层构成，其中7个全连接层从左到右依次为1个输入层、5个隐藏层和1个输出层，其中每层的激活函数可以采用整流函数(rectification function，ReLu)，输入层的输入(inputs)为某一时间段(如第一时间段)的信道环境信息S，输入层的输出h1为隐藏层1的输入，隐藏层1的输出h2为隐藏层2的输入，隐藏层2的输出h3为隐藏层3的输入，隐藏层3的输出h4与隐藏层1的输出h2的异或运算结果为隐藏层4的输入，隐藏层4的输出h5为隐藏层5的输入，隐藏层5的输出h6与隐藏层3的输出h4的异或运算结果为输出层的输入，输出层的输出为信道聚合指示值Y。对信道聚合模型进行训练的过程，就是不断调整信道聚合模型中各层神经元的参数的过程。

需要理解的是，上述训练设备可以为第一终端设备，也可以为网络设备，还可以为服务器、计算机等其它设备，当训练设备非第一终端设备时，可以由训练设备确定信道聚合模型中各层神经元的参数后发送给第一终端设备。

在一些实施中，如图9B所示，在信道聚合模型基于某一时间段(如第t-1个时间段)的信道环境信息(S_t-1)输出信道聚合指示值(如第t-1信道聚合指示值)后，第一终端设备还可以测试在聚合后的信道上发送数据包是否会与其它终端设备发送数据包发生碰撞，并根据该信道聚合指示值所指示的信道聚合方式以及在聚合后的信道上的发送数据包的情况，结合该时间段各信道的负载情况，基于信道聚合模型输出的该信道聚合指示值给予一个奖励值(如R_t)，并将该奖励值也作为下一个时间段(如第t个时间段)信道聚合模型的输入。以引导信道聚合模型根据各信道上的负载情况进行学习，以期通过信道聚合模型输出最优的信道聚合决策。可选地，还可以将信道聚合模型基于某一时间段(如第t-1个时间段)的信道环境信息输出信道聚合指示值(如第t-1)也作为下一个时间段(如第t个时间段)信道聚合模型的输入。

在一种可能的实现中，第一终端设备可以采用如下方式，确定基于信道聚合模型得到信道聚合指示值的奖励值，也即确定第一终端设备执行基于信道聚合模型得到的决策动作(即信道聚合指示值对应的信道聚合方式)的奖励值。下面以该时间段为第t个时间段，基于信道聚合模型得到信道聚合指示值的奖励值为R_t+1为例进行说明：

当第一终端设备在主信道和N个次信道聚合后的信道发送数据包未与其他终端设备发送数据包发生碰撞、且N不为零时，第一终端设备根据确定基于信道聚合模型得到第t信道聚合指示值的奖励值；

当第一终端设备在主信道和N个次信道聚合后的信道发送数据包未与其他终端设备发送数据包发生碰撞、且N为零时，第一终端设备根据确定基于信道聚合模型得到第t信道聚合指示值的奖励值；

当第一终端设备在主信道和N个次信道聚合后的信道发送数据包与其他终端设备发送数据包发生碰撞、且N不为零时，第一终端设备根据确定基于信道聚合模型得到第t信道聚合指示值的奖励值；

当第一终端设备在主信道和N个次信道聚合后的信道发送数据包与其他终端设备发送数据包发生碰撞、且N为零时，第一终端设备根据确定基于信道聚合模型得到第t信道聚合指示值的奖励值。

上述各个情况中，R_t+1表示基于信道聚合模型得到第t信道聚合指示值的奖励值，K表示N个次信道中的第K个次信道，K＝1、2、…、N，表示第K个次信道在第t个时间段的负载信息，表示主信道在第t个时间段的负载信息。

在另一些实现中，第一终端设备也根据主信道和N个次信道在第t个时间段负载信息(如负载值)的均值，确定基于信道聚合模型得到第t信道聚合指示值的奖励值R_t+1。例如：当第一终端设备在主信道和N个次信道聚合后的信道发送数据包与其他终端设备发送数据包发生碰撞时，将主信道和N个信道在第t+1个时间段负载信息(如负载值)的均值与-1的乘积，作为奖励值R_t+1；当第一终端设备在主信道和N个次信道聚合后的信道发送数据包未与其他终端设备发送数据包发生碰撞时，将主信道和N个信道在第t+1个时间段负载信息(如负载值)的均值，作为奖励值R_t+1。

上述是以时间段为第t个时间段，确定基于信道聚合模型得到第t信道聚合指示值的奖励值为R_t+1为例进行说明，可以理解的是对于其它时间段，如第t-1个时间段(第t-1个时间段为第t个时间段之前的时间段)，第一终端设备也可以根据主信道和N’个次信道中每个次信道在第t-1个时间段的负载信息，来确定基于信道聚合模型得到所述第t-1信道聚合指示值的奖励值R_t，第t-1信道聚合指示值用于指示 M-1个次信道中的N’个次信道与主信道聚合，N’与N相同或不同。

比如：当第一终端设备在主信道和N’个次信道聚合后的信道发送数据包未与其他终端设备发送数据包发生碰撞、且N’不为零时，第一终端设备根据确定基于信道聚合模型得到第t-1信道聚合指示值的奖励值。

当第一终端设备在主信道和N’个次信道聚合后的信道发送数据包未与其他终端设备发送数据包发生碰撞、且N’为零时，第一终端设备根据确定基于信道聚合模型得到第t-1信道聚合指示值的奖励值。

当第一终端设备在主信道和N’个次信道聚合后的信道发送数据包与其他终端设备发送数据包发生碰撞、且N’不为零时，第一终端设备根据确定基于信道聚合模型得到第t-1信道聚合指示值的奖励值。

当第一终端设备在主信道和N’个次信道聚合后的信道发送数据包与其他终端设备发送数据包发生碰撞、且N’为零时，第一终端设备根据确定基于信道聚合模型得到第t-1信道聚合指示值的奖励值。

S603：第一终端设备在第t+1个时间段通过主信道和N个次信道聚合后的信道发送数据包。所述第t+1个时间段为所述第t个时间段之后的时间段。

第一终端设备将第t个时间段的信道环境信息输入到信道聚合模型进行处理，得到第t信道聚合指示值后，即可根据第t信道聚合指示值所指示M-1个次信道中的N个次信道与主信道聚合，将M-1个次信道与主信道聚合，并在第t个时间段之后的第t+1个时间段通过聚合后的信道向网络设备发送数据包。

在一些实施中，为了使信道聚合模型做出的信道聚合决策(即信道聚合指示值)符合用户的预期，用户还可以预先配置用于评价基于各种信道环境信息S做出不同决策动作a(即不同信道聚合指示值Y所对应的信道聚合方式)的状态动作值函数Q，对于信道聚合模型基于某一时间段的信道环境信息S输出的决策动作a(也即输出的信道聚合指示值Y所对应的信道聚合方式)进行状态动作值评价，得到一个第一状态动作值；并可以通过状态动作值函数Q对该时间段的信道环境信息S对应的所有可能的决策动作(即所有可能的信道聚合指示值Y所对应的信道聚合方式)分别进行评价，得到多个状态动作值，并选取其中的最大值，作为第二状态动作值。并可以根据第二状态动作值和第一状态动作值，以及奖励值，确定信道聚合模型的损失，对信道聚合模型进行训练更新，如根据损失采用随机梯度下降法更新信道聚合模型中神经元的参数。

以第t个时间段为例，可以采用以下期望平方奖励值函数(也可以称为损失函数)，确定信道聚合模型的损失。
L(θ)＝E[R_t+1+γmax_a′Q(s_t′,a′,θ^*)-Q(s_t,a_t；θ)]²

其中，L()表示期望平方奖励值函数、L(θ)表示信道聚合模型的损失、Q()表示设定的状态动作值函数、γ表示折扣因子(取值可以为0.9等)、θ表示信道聚合模型当前的参数、R_t+1表示基于信道聚合模型得到的决策动作a_t(也即得到的第t信道聚合指示值对应的信道聚合方式)的奖励值；Q(s_t,a_t；θ)]表示基于第t个时间段的信道环境信息st进行决策动作a_t(也即输出的第t信道聚合指示值对应的信道聚合方式)的第一状态动作值；max_a′Q(s_t′,a′,θ^*)表示基于第t个时间段的信道环境信息s_t分别进行所有可选决策动作a(2^M-1-1个候选信道聚合指示值分别对应的候选信道聚合方式)的状态动作值中的最大状态动作值(即第二状态动作值)，a′表示对应该第二状态动作值的决策动作，θ^*表示目标信道聚合模型的参数，也即输出该第二状态动作值的决策动作a′(a′对应的信道聚合指示值)时信道聚合模型的参数。

上述是以时间段为第t个时间段，确定信道聚合模型的损失为例进行说明的，可以理解的是，对于其它时间段(如第t-1个时间段)，将对应第t个时间段的奖励值、第一状态动作值和第二状态动作值替换为对应于第t-1个时间段的奖励值、第一状态动作值和第二状态动作值，即可确定对应第t-1个时间段的信道聚合模型的损失，对t-1个时间段的信道聚合模型进行训练更新。

另外，需要理解的是，上述是由信道聚合模型在第一终端设备侧，由第一终端设备基于信道聚合模型，对输入的第t个时间段信道环境信息进行处理，得到信道聚合指示值，第一终端设备基于信道聚合指示值所指示的信道聚合方式，在第t+1个时间段进行信道聚合为例进行说明的。在一些实施中，信道聚合模型还可以部署在网络设备，由网络设备侧获取第一终端设备对应第t个时间段信道环境信息并输入信道聚合模型，对输入的第t个时间段信道环境信息进行处理，得到信道聚合指示值，并由网络设备将信道聚合指示值或信道聚合指示值所指示的信道聚合方式发送给第一终端设备，第一终端设备根据来自网络设备的信道聚合指示值或信道聚合指示值所指示的信道聚合方式，进行信道聚合。

可以理解的是，为了实现上述实施例中功能，第一终端设备包括了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本申请中所公开的实施例描述的各示例的单元及方法步骤，本申请能够以硬件或硬件和计算机软件相结合的形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用场景和设计约束条件。

图10和图11为本申请的实施例提供的可能的通信装置的结构示意图。这些通信装置可以用于实现上述方法实施例中第一终端设备的功能，因此也能实现上述方法实施例所具备的有益效果。在一种可能的实现中，该通信装置可以是第一终端设备，还可以是应用于第一终端设备的模块(如芯片)。

如图10所示，通信装置1000包括处理单元1010和接口单元1020，其中接口单元1020还可以为收发单元或输入输出接口。通信装置1000可用于实现上述图6中所示的方法实施例中第一终端设备的功能。

当通信装置1000用于实现图6所示的方法实施例中第一终端设备的功能时：

接口单元1020，用于接收来自网络设备的负载报告，负载报告包括网络设备的M个信道中每个信道在第t个时间段的负载信息，其中，M个信道包括第一终端设备对应的1个主信道和M-1个次信道，M为大于或等于2的整数，t为大于或等于2的整数；处理单元1010，用于将第t个时间段的信道环境信息输入到信道聚合模型进行处理，得到第t信道聚合指示值，第t个时间段的信道环境信息包括主信道和M-1个次信道中每个次信道在第t个时间段的负载信息、以及在第t个时间段对主信道和M-1个次信道进行信道状态监测得到的信道状态监测信息，第t信道聚合指示值用于指示M-1个次信道中的N个次信道与主信道聚合，N为大于或等于0、且小于或等于M-1的整数；以及对主信道和N个次信道进行信道聚合。可选地，负载报告还包括第t时段的截止时间。

在一种可能的设计中，处理单元1010在第t个时间段对主信道和M-1个次信道进行信道状态监测得到的信道状态监测信息包括以下中的一项或多项：处理单元1010在第t个时间段内监测到的主信道和M-1个次信道中的每个次信道在每个时间单元的忙闲状态；处理单元1010在第t个时间段内监测到的通信装置在主信道和M-1个次信道中的每个次信道上每个时间单元的数据包发送状态；处理单元1010在第t个时间段内监测到的通信装置在主信道和M-1个次信道中的每个次信道上数据包发送状态与信道的忙闲状态同时保持不变连续的时间单元个数。

在一种可能的设计中，处理单元1010还用于根据主信道和N’个次信道中每个次信道在第t-1个时间段的负载信息，确定基于信道聚合模型得到第t-1信道聚合指示值的奖励值，其中第t-1信道聚合指示值用于指示M-1个次信道中的N’个次信道与主信道聚合；根据第t-1个时间段的信道环境信息、第t-1信道聚合指示值和设定的状态动作值函数，确定基于第t-1个时间段的信道环境信息进行第t-1信道聚合指示值对应的信道聚合方式的第一状态动作值；根据第t-1个时间段的信道环境信息、主信道与M-1个次信道对应的2^M-1-1个候选信道聚合指示值和设定的状态动作值函数，确定第二状态动作值，其中2^M-1-1个候选信道聚合指示值对应于主信道与M-1个次信道的2^M-1-1个候选信道聚合方式，第二状态动作值为基于第t-1个时间段的信道环境信息分别进行2^M-1-1个候选信道聚合指示值对应的候选信道聚合方式的状态动作值中的最大状态动作值；以及根据第一状态动作值、第二状态动作值和第t-1信道聚合指示值的奖励值，确定信道聚合模型的损失；根据信道聚合模型的损失，对信道聚合模型进行训练更新；其中，N’与N相同或不同，第t-1个时间段为第t个时间段之前的时间段。

在一种可能的设计中，处理单元1010，还用于根据主信道和N’个次信道中每个次信道在第t-1个时间段的负载信息，确定基于信道聚合模型得到第t-1信道聚合指示值的奖励值，其中第t-1信道聚合指示值用于指示M-1个次信道中的N’个次信道与主信道聚合，N’与N相同或不同，第t-1个时间段为第t个时间段之前的时间段；处理单元1010将第t个时间段的信道环境信息输入到信道聚合模型进行处理，得到第t信道聚合指示值时，具体用于将第t个时间段的信道环境信息、第t-1信道聚合指示值的奖励值输入到信道聚合模型进行处理，得到第t信道聚合指示值。

一种可能的实现中，处理单元1010根据主信道和N’个次信道中每个次信道在第t-1个时间段的负载信息，确定基于信道聚合模型得到第t-1信道聚合指示值的奖励值时，具体用于：当接口单元1020在主信道和N’个次信道聚合后的信道发送数据包未与其他终端设备发送数据包发生碰撞、且N’不为零时，处理单元1010根据确定基于信道聚合模型得到第t-1信道聚合指示值的奖励值；其中，R_t表示基于信道聚合模型得到第t-1信道聚合指示值的奖励值，K表示N’个次信道中的第K个次信道，K＝1、2、…、N’，表示第K个次信道在第t-1个时间段的负载信息。

另一种可能的实现中，处理单元1010根据主信道和N’个次信道中每个次信道在第t-1个时间段的负载信息，确定基于信道聚合模型得到第t-1信道聚合指示值的奖励值时，具体用于：当接口单元1020在主信道和N’个次信道聚合后的信道发送数据包未与其他终端设备发送数据包发生碰撞、且N’为零时，处理单元1010根据确定基于信道聚合模型得到第t信道聚合指示值的奖励值；其中，R_t表示基于信道聚合模型得到第t-1信道聚合指示值的奖励值，表示主信道在第t-1个时间段的负载信息。

再一种可能的实现中，处理单元1010根据主信道和N’个次信道中每个次信道在第t-1个时间段的负载信息，确定基于信道聚合模型得到第t-1信道聚合指示值的奖励值时，具体用于：当接口单元1020在主信道和N’个次信道聚合后的信道发送数据包与其他终端设备发送数据包发生碰撞、且N’不为零时，处理单元1010根据确定基于信道聚合模型得到第t-1信道聚合指示值的奖励值；其中，R_t表示基于信道聚合模型得到第t-1信道聚合指示值的奖励值，K表示N’个次信道中的第K个次信道，K＝1、2、…、N’，表示第K个次信道在第t-1个时间段的负载信息，表示主信道在第t-1个时间段的负载信息。

又一种可能的实现中，处理单元1010根据主信道和N’个次信道中每个次信道在第t-1个时间段的负载信息，确定基于信道聚合模型得到第t-1信道聚合指示值的奖励值时，具体用于：当接口单元1020在主信道和N’个次信道聚合后的信道发送数据包与其他终端设备发送数据包发生碰撞、且N’为零时，处理单元1010根据确定基于信道聚合模型得到第t-1信道聚合指示值的奖励值；其中，R_t表示基于信道聚合模型得到第t-1信道聚合指示值的奖励值，表示主信道在第t-1个时间段的负载信息。

在一种可能的设计中，处理单元1010，还用于根据主信道和N个次信道中每个次信道在第t个时间段的负载信息，确定基于信道聚合模型得到第t信道聚合指示值的奖励值。

一种可能的实现中，处理单元1010根据主信道和N个次信道中每个次信道在第t个时间段的负载信息，确定基于信道聚合模型得到第t信道聚合指示值的奖励值时，具体用于：当接口单元1020在主信道和N个次信道聚合后的信道发送数据包未与其他终端设备发送数据包发生碰撞、且N不为零时，处理单元1010根据确定基于信道聚合模型得到第t信道聚合指示值的奖励值。

另一种可能的实现中，处理单元1010根据主信道和N个次信道中每个次信道在第t个时间段的负载信息，确定基于信道聚合模型得到第t信道聚合指示值的奖励值时，具体用于：当接口单元1020在主信道和N个次信道聚合后的信道发送数据包未与其他终端设备发送数据包发生碰撞、且N为零时，处理单元1010根据确定基于信道聚合模型得到第t信道聚合指示值的奖励值。

再一种可能的实现中，处理单元1010根据主信道和N个次信道中每个次信道在第t个时间段的负载信息，确定基于信道聚合模型得到第t信道聚合指示值的奖励值时，具体用于：当接口单元1020在主信道和N个次信道聚合后的信道发送数据包与其他终端设备发送数据包发生碰撞、且N不为零时，处理单元1010根据确定基于信道聚合模型得到第t信道聚合指示值的奖励值。

又一种可能的实现中，处理单元1010根据主信道和N个次信道中每个次信道在第t个时间段的负载信息，确定基于信道聚合模型得到第t信道聚合指示值的奖励值时，具体用于：当接口单元1020在主信道和N个次信道聚合后的信道发送数据包与其他终端设备发送数据包发生碰撞、且N为零时，处理单元1010根据确定基于信道聚合模型得到第t信道聚合指示值的奖励值；

上述几种设计中，R_t+1表示基于信道聚合模型得到第t信道聚合指示值的奖励值，K表示N个次信道中的第K个次信道，K＝1、2、…、N，表示第K个次信道在第t个时间段的负载信息，表示主信道在第t个时间段的负载信息。

在一种可能的设计中，处理单元1010，还用于根据第t个时间段的信道环境信息、第t信道聚合指示值和设定的状态动作值函数，确定基于第t个时间段的信道环境信息进行第t信道聚合指示值对应的信道聚合方式的第一状态动作值；根据第t个时间段的信道环境信息、主信道与M-1个次信道对应的2^M-1-1个候选信道聚合指示值和设定的状态动作值函数，确定第二状态动作值，其中2^M-1-1个候选信道聚合指示值对应于主信道与M-1个次信道的2^M-1-1个候选信道聚合方式，第二状态动作值为基于第t个时间段的信道环境信息分别进行2^M-1-1个候选信道聚合指示值对应的候选信道聚合方式的状态动作值中的最大状态动作值；以及根据第一状态动作值、第二状态动作值和基于信道聚合模型得到第t信道聚合指示值的奖励值，确定信道聚合模型的损失；根据信道聚合模型的损失，对信道聚合模型进行训练更新。

如图11所示，本申请还提供一种通信装置1100，包括处理器1110和接口电路1120。处理器1110和接口电路1120之间相互耦合。可以理解的是，接口电路1120可以为收发器、输入输出接口、输入接口、输出接口、通信接口等。可选的，通信装置1100还可以包括存储器1130，用于存储处理器1110执行的指令或存储处理器1110运行指令所需要的输入数据或存储处理器1110运行指令后产生的数据。可选的，存储器1130还可以和处理器1110集成在一起。

当通信装置1100用于实现图6所示的方法时，处理器1110可以用于实现上述处理单元1010的功能，接口电路1120可以用于实现上述接口单元1020的功能。

如图12所示，为本申请实施例提供的一种设备结构示意图，该设备可以是网络设备或第一终端设备，该设备中可以包括处理器、收发机和天线，其中处理器可以包括一个获多个处理单元，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。其中，处理器可以是设备的神经中枢和指挥中心。处理器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的操作。在本申请实施例中，处理器可以根据信道聚合方法对应的指令，执行相应信道聚合方法流程；收发器和天线可以接收来自其它设备的信号并传输至处理器或将来自处理器的信号发送给其它设备。

另外，在设备中还可以包括神经网络处理器(neural-network processing unit，NPU)，由NPU实现对信道聚合模型(即神经网络模型)训练更新，以及根据输入信道聚合模型的信息，进行运算输出信道聚合方式(或信道聚合方式对应的信道聚合指示值)。可以理解的是在NPU中可以包含推理模块和训练模块，其中训练模块可以用于实现对信道聚合模型(即神经网络模型)训练更新。推理模块可以实现根据输入信道聚合模型的信息，进行运算输出信道聚合方式。另外NPU可以耦合在中央处理器中，本申请对此不作限定。

可以理解的是，本申请的实施例中的处理器可以是中央处理单元(central processing unit，CPU)，还可以是其它通用处理器、数字信号处理器(digital signal processor，DSP)、专用集成电路(application specific integrated circuit，ASIC)、逻辑电路、现场可编程门阵列(field programmable gate array，FPGA) 或者其它可编程逻辑器件、晶体管逻辑器件，硬件部件或者其任意组合。通用处理器可以是微处理器，也可以是任何常规的处理器。

本申请的实施例中的方法步骤可以通过硬件的方式来实现，也可以由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成，软件模块可以被存放于随机存取存储器、闪存、只读存储器、可编程只读存储器、可擦除可编程只读存储器、电可擦除可编程只读存储器、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外，该ASIC可以位于网络设备或终端设备中。当然，处理器和存储介质也可以作为分立组件存在于网络设备或终端设备中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机程序或指令。在计算机上加载和执行所述计算机程序或指令时，全部或部分地执行本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、网络设备、用户设备或者其它可编程装置。所述计算机程序或指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机程序或指令可以从一个网络设备、终端、计算机、服务器或数据中心通过有线或无线方式向另一个网络设备、终端、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是集成一个或多个可用介质的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，例如，软盘、硬盘、磁带；也可以是光介质，例如，数字视频光盘；还可以是半导体介质，例如，固态硬盘。该计算机可读存储介质可以是易失性或非易失性存储介质，或可包括易失性和非易失性两种类型的存储介质。

在本申请的各个实施例中，如果没有特殊说明以及逻辑冲突，不同的实施例之间的术语和/或描述具有一致性、且可以相互引用，不同的实施例中的技术特征根据其内在的逻辑关系可以组合形成新的实施例。

另外，需要理解，在本申请实施例中，“示例的”一词用于表示作例子、例证或说明。本申请中被描述为“示例”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用示例的一词旨在以具体方式呈现概念。

可以理解的是，在本申请的实施例中涉及的各种数字编号仅为描述方便进行的区分，并不用来限制本申请的实施例的范围。上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定。

Claims

一种信道聚合方法，其特征在于，包括：

第一终端设备接收来自网络设备的负载报告，所述负载报告包括所述网络设备的M个信道中每个信道在第t个时间段的负载信息，其中，所述M个信道包括所述第一终端设备对应的1个主信道和M-1个次信道，所述M为大于或等于2的整数，所述t为大于或等于2的整数；

所述第一终端设备将所述第t个时间段的信道环境信息输入到所述信道聚合模型进行处理，得到第t信道聚合指示值，所述第t个时间段的信道环境信息包括所述主信道和所述M-1个次信道中每个次信道在所述第t个时间段的负载信息、以及所述第一终端设备在所述第t个时间段对所述主信道和所述M-1个次信道进行信道状态监测得到的信道状态监测信息，所述第t信道聚合指示值用于指示所述M-1个次信道中的N个次信道与所述主信道聚合，所述N为大于或等于0、且小于或等于所述M-1的整数；

所述第一终端设备在第t+1个时间段通过所述主信道和所述N个次信道聚合后的信道发送数据包，所述第t+1个时间段为所述第t个时间段之后的时间段。
如权利要求1所述的方法，其特征在于，所述第一终端设备在所述第t个时间段对所述主信道和所述M-1个次信道进行信道状态监测得到的信道状态监测信息包括以下中的一项或多项：

所述第一终端设备在所述第t个时间段内监测到的所述主信道和所述M-1个次信道中的每个次信道在每个时间单元的忙闲状态；

所述第一终端设备在所述第t个时间段内监测到的所述第一终端设备在所述主信道和所述M-1个次信道中的每个次信道上每个时间单元的数据包发送状态；

所述第一终端设备在所述第t个时间段内监测到的所述第一终端设备在所述主信道和所述M-1个次信道中的每个次信道上数据包发送状态与信道的忙闲状态同时保持不变连续的时间单元个数。
如权利要求1或2所述的方法，其特征在于，所述方法还包括：

所述第一终端设备根据所述主信道和N’个次信道中每个次信道在第t-1个时间段的负载信息，确定基于所述信道聚合模型得到所述第t-1信道聚合指示值的奖励值，其中所述第t-1信道聚合指示值用于指示所述M-1个次信道中的所述N’个次信道与所述主信道聚合；

所述第一终端设备根据所述第t-1个时间段的信道环境信息、所述第t-1信道聚合指示值和设定的状态动作值函数，确定基于所述第t-1个时间段的信道环境信息进行所述第t-1信道聚合指示值对应的信道聚合方式的第一状态动作值；

所述第一终端设备根据所述第t-1个时间段的信道环境信息、所述主信道与所述M-1个次信道对应的2^M-1-1个候选信道聚合指示值和所述设定的状态动作值函数，确定第二状态动作值，其中所述2^M-1-1个候选信道聚合指示值对应于所述主信道与所述M-1个次信道的2^M-1-1个候选信道聚合方式，所述第二状态动作值为基于所述第t-1个时间段的信道环境信息分别进行所述2^M-1-1个候选信道聚合指示值对应的候选信道聚合方式的状态动作值中的最大状态动作值；

所述第一终端设备根据所述第一状态动作值、所述第二状态动作值和所述第t-1信道聚合指示值的奖励值，确定所述信道聚合模型的损失；

所述第一终端设备根据所述信道聚合模型的损失，对所述信道聚合模型进行训练更新；

其中，所述N’与所述N相同或不同，所述第t-1个时间段为所述第t个时间段之前的时间段。
如权利要求1或2所述的方法，其特征在于，所述方法还包括：

所述第一终端设备根据所述主信道和N’个次信道中每个次信道在第t-1个时间段的负载信息，确定基于所述信道聚合模型得到所述第t-1信道聚合指示值的奖励值，其中所述第t-1信道聚合指示值用于指示所述M-1个次信道中的所述N’个次信道与所述主信道聚合，所述N’与所述N相同或不同，所述第t-1个时间段为所述第t个时间段之前的时间段；

所述第一终端设备将所述第t个时间段的信道环境信息输入到所述信道聚合模型进行处理，得到第t信道聚合指示值，包括：

所述第一终端设备将所述第t个时间段的信道环境信息、所述第t-1信道聚合指示值的奖励值输入到所述信道聚合模型进行处理，得到所述第t信道聚合指示值。
如权利要求3或4所述的方法，其特征在于，所述第一终端设备根据所述主信道和所述N’个次信道中每个次信道在所述第t-1个时间段的负载信息，确定基于所述信道聚合模型得到所述第t-1信道聚合指示值的奖励值，包括：

当所述第一终端设备在所述主信道和所述N’个次信道聚合后的信道发送数据包未与其他终端设备发送数据包发生碰撞、且所述N’不为零时，所述第一终端设备根据确定基于所述信道聚合模型得到所述第t-1信道聚合指示值的奖励值；

其中，所述R_t表示基于所述信道聚合模型得到所述第t-1信道聚合指示值的奖励值，所述K表示所述N’个次信道中的第K个次信道，所述K＝1、2、…、N’，所述表示所述第K个次信道在所述第t-1个时间段的负载信息。
如权利要求3或4所述的方法，其特征在于，所述第一终端设备根据所述主信道和所述N’个次信道中每个次信道在所述第t-1个时间段的负载信息，确定基于所述信道聚合模型得到所述第t-1信道聚合指示值的奖励值，包括：

当所述第一终端设备在所述主信道和所述N’个次信道聚合后的信道发送数据包未与其他终端设备发送数据包发生碰撞、且所述N’为零时，所述第一终端设备根据确定基于所述信道聚合模型得到所述第t-1信道聚合指示值的奖励值；

其中，所述R_t表示基于所述信道聚合模型得到所述第t-1信道聚合指示值的奖励值，所述表示所述主信道在所述第t-1个时间段的负载信息。
如权利要求3或4所述的方法，其特征在于，所述第一终端设备根据所述主信道和所述N’个次信道中每个次信道在所述第t-1个时间段的负载信息，确定基于所述信道聚合模型得到所述第t-1信道聚合指示值的奖励值，包括：

当所述第一终端设备在所述主信道和所述N’个次信道聚合后的信道发送数据包与其他终端设备发送数据包发生碰撞、且所述N’不为零时，所述第一终端设备根据确定基于所述信道聚合模型得到所述第t-1信道聚合指示值的奖励值；

其中，所述R_t表示基于所述信道聚合模型得到所述第t-1信道聚合指示值的奖励值，所述K表示所述N’个次信道中的第K个次信道，所述K＝1、2、…、N’，所述表示所述第K个次信道在所述第t-1个时间段的负载信息，所述表示所述主信道在所述第t-1个时间段的负载信息。
如权利要求3或4所述的方法，其特征在于，所述第一终端设备根据所述主信道和所述N’个次信道中每个次信道在所述第t-1个时间段的负载信息，确定基于所述信道聚合模型得到所述第t-1信道聚合指示值的奖励值，包括：

当所述第一终端设备在所述主信道和所述N’个次信道聚合后的信道发送数据包与其他终端设备发送数据包发生碰撞、且所述N’为零时，所述第一终端设备根据确定基于所述信道聚合模型得到所述第t-1信道聚合指示值的奖励值；

其中，所述R_t表示基于所述信道聚合模型得到所述第t-1信道聚合指示值的奖励值，所述表示所述主信道在所述第t-1个时间段的负载信息。
如权利要求1-8中任一项所述的方法，其特征在于，所述负载报告还包括所述第t时段的截止时间。
一种通信装置，其特征在于，包括接口单元和处理单元；

所述接口单元，用于接收来自网络设备的负载报告，所述负载报告包括所述网络设备的M个信道中每个信道在第t个时间段的负载信息，其中，所述M个信道包括所述第一终端设备对应的1个主信道和M-1个次信道，所述M为大于或等于2的整数，所述t为大于或等于2的整数；

所述处理单元，用于将所述第t个时间段的信道环境信息输入到所述信道聚合模型进行处理，得到第t信道聚合指示值，所述第t个时间段的信道环境信息包括所述主信道和所述M-1个次信道中每个次信道在所述第t个时间段的负载信息、以及在所述第t个时间段对所述主信道和所述M-1个次信道进行信道状态监测得到的信道状态监测信息，所述第t信道聚合指示值用于指示所述M-1个次信道中的N个次信道与所述主信道聚合，所述N为大于或等于0、且小于或等于所述M-1的整数；以及在第t+1个时间段通过所述主信道和所述N个次信道聚合后的信道发送数据包，所述第t+1个时间段为所述第t 个时间段之后的时间段。
如权利要求10所述的装置，其特征在于，所述处理单元在所述第t个时间段对所述主信道和所述M-1个次信道进行信道状态监测得到的信道状态监测信息包括以下中的一项或多项：

所述处理单元在所述第t个时间段内监测到的所述主信道和所述M-1个次信道中的每个次信道在每个时间单元的忙闲状态；

所述处理单元在所述第t个时间段内监测到的所述通信装置在所述主信道和所述M-1个次信道中的每个次信道上每个时间单元的数据包发送状态；

所述处理单元在所述第t个时间段内监测到的所述通信装置在所述主信道和所述M-1个次信道中的每个次信道上数据包发送状态与信道的忙闲状态同时保持不变连续的时间单元个数。
如权利要求10或11所述的装置，其特征在于，所述处理单元，还用于：

根据所述主信道和N’个次信道中每个次信道在第t-1个时间段的负载信息，确定基于所述信道聚合模型得到所述第t-1信道聚合指示值的奖励值，其中所述第t-1信道聚合指示值用于指示所述M-1个次信道中的所述N’个次信道与所述主信道聚合；

根据所述第t-1个时间段的信道环境信息、所述第t-1信道聚合指示值和设定的状态动作值函数，确定基于所述第t-1个时间段的信道环境信息进行所述第t-1信道聚合指示值对应的信道聚合方式的第一状态动作值；

根据所述第t-1个时间段的信道环境信息、所述主信道与所述M-1个次信道对应的2^M-1-1个候选信道聚合指示值和所述设定的状态动作值函数，确定第二状态动作值，其中所述2^M-1-1个候选信道聚合指示值对应于所述主信道与所述M-1个次信道的2^M-1-1个候选信道聚合方式，所述第二状态动作值为基于所述第t-1个时间段的信道环境信息分别进行所述2^M-1-1个候选信道聚合指示值对应的候选信道聚合方式的状态动作值中的最大状态动作值；

根据所述第一状态动作值、所述第二状态动作值和所述第t-1信道聚合指示值的奖励值，确定所述信道聚合模型的损失；根据所述信道聚合模型的损失，对所述信道聚合模型进行训练更新；

其中，所述N’与所述N相同或不同，所述第t-1个时间段为所述第t个时间段之前的时间段。
如权利要求10或11所述的装置，其特征在于，所述处理单元，还用于：

根据所述主信道和N’个次信道中每个次信道在第t-1个时间段的负载信息，确定基于所述信道聚合模型得到所述第t-1信道聚合指示值的奖励值，其中所述第t-1信道聚合指示值用于指示所述M-1个次信道中的所述N’个次信道与所述主信道聚合，所述N’与所述N相同或不同，所述第t-1个时间段为所述第t个时间段之前的时间段；

将所述第t个时间段的信道环境信息输入到所述信道聚合模型进行处理，得到第t信道聚合指示值时，具体用于将所述第t个时间段的信道环境信息、所述第t-1信道聚合指示值的奖励值输入到所述信道聚合模型进行处理，得到所述第t信道聚合指示值。
如权利要求12或13所述的装置，其特征在于，所述处理单元根据所述主信道和所述N’个次信道中每个次信道在所述第t-1个时间段的负载信息，确定基于所述信道聚合模型得到所述第t-1信道聚合指示值的奖励值时，具体用于：

当所述接口单元在所述主信道和所述N’个次信道聚合后的信道发送数据包未与其他终端设备发送数据包发生碰撞、且所述N’不为零时，所述处理单元根据确定基于所述信道聚合模型得到所述第t-1信道聚合指示值的奖励值；

其中，所述R_t表示基于所述信道聚合模型得到所述第t-1信道聚合指示值的奖励值，所述K表示所述N’个次信道中的第K个次信道，所述K＝1、2、…、N’，所述表示所述第K个次信道在所述第t-1个时间段的负载信息。
如权利要求12或13所述的装置，其特征在于，所述处理单元根据所述主信道和所述N’个次信道中每个次信道在所述第t-1个时间段的负载信息，确定基于所述信道聚合模型得到所述第t-1信道聚合指示值的奖励值时，具体用于：

当所述接口单元在所述主信道和所述N’个次信道聚合后的信道发送数据包未与其他终端设备发送数据包发生碰撞、且所述N’为零时，所述处理单元根据确定基于所述信道聚合模型得到所述第t信道聚合指示值的奖励值；

其中，所述R_t表示基于所述信道聚合模型得到所述第t-1信道聚合指示值的奖励值，所述表示所述主信道在所述第t-1个时间段的负载信息。
如权利要求12或13所述的装置，其特征在于，所述处理单元根据所述主信道和所述N’个次信道中每个次信道在所述第t-1个时间段的负载信息，确定基于所述信道聚合模型得到所述第t-1信道聚合指示值的奖励值时，具体用于：

当所述接口单元在所述主信道和所述N’个次信道聚合后的信道发送数据包与其他终端设备发送数据包发生碰撞、且所述N’不为零时，所述处理单元根据确定基于所述信道聚合模型得到所述第t-1信道聚合指示值的奖励值；

其中，所述R_t表示基于所述信道聚合模型得到所述第t-1信道聚合指示值的奖励值，所述K表示所述N’个次信道中的第K个次信道，所述K＝1、2、…、N’，所述表示所述第K个次信道在所述第t-1个时间段的负载信息，所述表示所述主信道在所述第t-1个时间段的负载信息。
如权利要求12或13所述的装置，其特征在于，所述处理单元根据所述主信道和所述N’个次信道中每个次信道在所述第t-1个时间段的负载信息，确定基于所述信道聚合模型得到所述第t-1信道聚合指示值的奖励值时，具体用于：

当所述接口单元在所述主信道和所述N’个次信道聚合后的信道发送数据包与其他终端设备发送数据包发生碰撞、且所述N’为零时，所述处理单元根据确定基于所述信道聚合模型得到所述第t-1信道聚合指示值的奖励值；

其中，所述R_t表示基于所述信道聚合模型得到所述第t-1信道聚合指示值的奖励值，所述表示所述主信道在所述第t-1个时间段的负载信息。
如权利要求10-17中任一项所述的装置，其特征在于，所述负载报告还包括所述第t时段的截止时间。
一种计算机程序产品，其特征在于，包含指令，当所述指令被执行，使得如权利要求1-9中任一项所述的方法被实现。
一种芯片，其特征在于，所述芯片用于实现如权利要求1-9中任一项所述的方法。
一种计算机可读存储介质，其特征在于，所述存储介质中存储有计算机程序或指令，当所述计算机程序或指令被执行时，使得如权利要求1-9中任一项所述的方法被实现。