WO2023280176A1

WO2023280176A1 - 模型训练方法及相关装置

Info

Publication number: WO2023280176A1
Application number: PCT/CN2022/103985
Authority: WO
Inventors: 胡斌; 王坚; 徐晨; 张公正; 李榕
Original assignee: 华为技术有限公司
Priority date: 2021-07-09
Filing date: 2022-07-05
Publication date: 2023-01-12
Also published as: US20240152766A1; CN115603859A; EP4358446A1; EP4358446A4

Abstract

本申请提供了一种模型训练方法及相关装置，有利于提高训练模型的收敛速度，提高端到端的通信质量。该方法包括：第一通信装置通过信道向第二通信装置发送第一数据，第一数据是第一机器学习模型的输出结果，第二通信装置通过信道接收第二数据，并将第二数据输入至第二机器学习模型，得到第三数据；根据第三数据和第一训练数据，确定第一损失函数；通过反馈信道向第一通信装置发送第一损失函数；第一通信装置通过反馈信道接收第二损失函数，并根据第二损失函数，基于卡尔曼滤波更新控制层的参数，得到更新后的控制层的参数，更新后的控制层的参数用于更新第一机器学习模型的参数。

Description

模型训练方法及相关装置

本申请要求于2021年07月09日提交中国国家知识产权局、申请号为202110780949.8、申请名称为“模型训练方法及相关装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及通信领域，尤其涉及一种模型训练方法及相关装置。

背景技术

传统端到端的通信系统，通信信号的处理过程一般都会被分为一系列的子模块，例如信源编码、信道编码、调制以及信道估计等。若使端到端的通信实现优化，需要单独优化每个子模块。但该方法会引入较多的干扰效应，如放大器失真和信道损伤等，并且每个模块均有控制因素和参数数量，使端到端优化的复杂性非常高。

随着深度学习技术的发展，在端到端的通信系统中，发送端和接收端均可以通过自编码器(auto encoder)等机器学习模型对通信信号进行处理。在该通信系统中，当自编码器的优化程度高时，可以提升端到端的通信质量。但发送端发送的信号需要经过信道才能到达接收端，信道会对通信信号产生干扰，增加自编码器训练的难度。

目前，通过信道的通信信号产生的干扰一般难以用模型进行表征，增加自编码器的训练难度，进而影响端到端的通信质量。

发明内容

本申请提供了一种模型训练方法及相关装置，在未对信道进行建模的情况下，有利于增加训练机器学习模型的可行性，提高训练的收敛速度，优化机器学习模型的鲁棒性，从而提高端到端的通信质量。

第一方面，本申请提供了一种模型训练方法，可以应用于包括第一通信装置和第二通信装置的通信系统，第一通信装置的个数为至少一个，第一通信装置部署有第一机器学习模型，该方法包括：第一通信装置通过信道向第二通信装置发送第一数据，第一数据是第一训练数据输入至第一机器学习模型的输出结果，第一机器学习模型包括控制层，控制层为第一机器学习模型的至少一层；第一通信装置通过反馈信道接收第二损失函数，反馈信道是根据观测误差确定的，第二损失函数是第二通信装置发送的第一损失函数经过反馈信道传输后得到的；第一通信装置根据第二损失函数，基于卡尔曼滤波更新控制层的参数，得到更新后的控制层的参数，更新后的控制层的参数用于更新第一机器学习模型的参数。

应理解，在一种可能的实现方式中，上述控制层为第一机器学习模型的最后一层。

还应理解，控制层是本申请实施例在第一机器学习模型中选择的至少一层网络，控制层仅仅为一个名称的示例，其他具有相同特点的名称，均可以包含在本申请实施例的保护范围中。

上述第二损失函数可以为交叉熵或最小均方差等。上述卡尔曼滤波的类型可以为容积卡尔曼滤波或者扩展卡尔曼滤波等，本申请实施例对卡尔曼滤波的类型不做限定。

本申请实施例提供的模型训练方法，在未对信道进行建模的情况下，第一通信装置可以根据通过功率控制的信道接收第二损失函数，以使第一通信装置可以基于卡尔曼滤波对第一机器学习模型的控制层的参数进行更新，在存在信道误差的情况下，仍可以的保证模型训练的准确性，减小信道误差对模型训练的影响，增加用于端到端通信的机器学习模型训练的可行性，提高训练机器学习模型的收敛速度，优化机器学习模型的鲁棒性，从而提高端到端的通信质量。

结合第一方面，在一种可能的实现方式中，上述基于卡尔曼滤波更新控制层的参数，得到更新后的控制层的参数，包括：第一通信装置根据控制层的先验参数、第二损失函数和第二损失函数的误差协方差，得到卡尔曼增益；第一通信装置根据卡尔曼增益，更新控制层的参数，得到更新后的控制层的参数。

该控制层的先验参数可以为该控制层的初始参数。当控制层的初始参数变化时，控制层的先验参数可以为变化后的控制层的参数。应理解，控制层的先验参数可以根据更新的控制层的参数而变化。

本申请实施例提供的模型训练方法，通过计算卡尔曼增益更新控制层的参数，可以减小信道误差对更新控制层的参数的影响，提高更新控制层的参数的准确性。

结合第一方面，在一种可能的实现方式中，上述方法还包括：第一通信装置根据更新后的控制层的参数和卡尔曼增益，基于反向梯度传播更新第一机器学习模型中第一网络层的参数，得到更新后的第一网络层的参数，第一网络层包括在控制层之前的网络层；第一通信装置根据更新后的控制层的参数和更新后的第一网络层的参数，得到更新后的第一机器学习模型。

应理解，第一通信装置可以通过更新控制层和第一网络层的参数，提取第一次训练数据的特征，更好的实现信源编码、信道编码以及调制的作用。

本申请实施例提供的模型训练方法，通过更新控制层和第一网络层的参数，有利于提取训练数据之间的关系，基于卡尔曼增益和控制层的参数更新第一机器学习模型的参数，可以较少参数更新的计算复杂度。

结合第一方面，在一种可能的实现方式中，在得到更新后的第一机器学习模型之后，上述方法还包括：第一通信装置通过信道向第二通信装置发送第四数据，第四数据是第二训练数据输入至第一机器学习模型的输出结果；第一通信装置接收来自第二通信装置的指示信息，指示信息用于指示第一通信装置停止第一机器学习模型的训练；第一通信装置根据指示信息，停止第一机器学习模型的训练。

可选地，上述第二通信装置确定第三损失函数后，也可以将该第三损失函数通过信道发送到第一通信装置，由第一通信装置判断该第三损失函数是否低于预设阈值，若低于预设阈值，第一通信装置停止第一机器学习模型的训练，并向第二通信装置发送指示信息，该指示信息用于指示第二通信装置停止第二机器学习模型的训练。

可选地，上述第二通信装置确定第三损失函数后，若该第三损失函数低于预设阈值，第二通信装置停止向第一通信装置发送第三损失函数，若在一段时间内，第二通信装置未收到第三损失函数，则停止第一机器学习模型的训练。

本申请实施例提供的模型训练方法，在反复更新第一机器学习模型的参数的过程中，当检测到第三损失函数满足预设阈值时，可以停止更新第一机器学习模型的参数，有利于减少不必要的训练，节省运算资源，降低第一通信装置的功耗。

结合第一方面，在一种可能的实现方式中，第一数据包括N组数据，其中，N为正整数，且N的值是根据卡尔曼滤波的类型和控制层的参数的维度确定的。

第一通信装置可以对控制层的参数进行采样，得到控制层的参数的采样点。其中，采样的个数可以根据卡尔曼滤波的类型和控制层的参数的维度确定。

结合第一方面，在一种可能的实现方式中，第一数据包括M组数据，其中，M为正整数，M的值是第一通信装置与其他第一通信装置根据预设规则确定的，M与其他第一通信装置所发送的数据的个数之和是根据卡尔曼滤波的类型和控制层的参数的维度确定的。

在端到端的通信系统中，第一通信装置的个数可以为多个，第二通信装置的个数可以为1个。在该通信系统中，上述第一通信装置可以与其他第一通信装置根据预设规则确定第一数据的数量M。该预设规则可以是在该通信系统中，每个第一通信装置中的机器学习模型的输出结果的个数均大于等于1，且所有的第一通信装置中的机器学习模型的输出结果的个数之和由卡尔曼滤波的类型和控制层的参数的维度确定。

在该通信系统中的所有的第一通信装置可以通过互相通信，确定自身的采样点。

应理解，第一通信装置通过信道向第二通信装置发送第一数据，该第一数据可以包括M组数据，若所有的第一通信装置中的机器学习模型的输出结果的个数之和为P个，则第一通信装置通过信道接收的第二损失函数的个数为P个。第一通信装置根据所述P个第二损失函数，更新控制层的参数，得到更新后的控制层的参数。第一通信装置可以将更新后的控制层的参数通过互相通信的方式传输给其他第一通信装置。

应理解，通信系统中的多个第一通信装置采用中心式的分布式训练方法，将控制层的采样分成多个子任务，由多个第一通信装置共同完成，上述第一通信装置可作为中心的通信装置，可以接收第二通信装置发送的第二损失函数，并训练得到控制层的参数，然后下发给其他第一通信装置。

本申请实施例提供的模型训练方法，将对控制层的采样分成多个子任务，由多个第一通信装置共同完成，可以降低第一通信装置的运算量，从而降低第一通信装置的运算负担，保证在线训练的部署实现。

结合第一方面，在一种可能的实现方式中，上述方法还包括：第一通信装置向其他第一通信装置发送更新后的控制层的参数。

可选地，第一通信装置更新第一机器学习模型的参数后，第一通信装置还可以将更新后的第一机器学习模型的参数通过互相通信的方式传输给其他第一通信装置。

可选地，若第一通信装置确定卡尔曼增益后，第一通信装置还可以将更新后的控制层的参数和该卡尔曼增益通过互相通信的方式传输给其他第一通信装置，其他第一通信装置可以基于接收到的更新后的控制层的参数和该卡尔曼增益，基于反向梯度传播更新第一机器学习模型中第一网络层的参数，进而更新第一机器学习模型的参数。

可选地，上述第一通信装置可以将控制层的先验参数、第二损失函数、第二损失函数的误差协方差以及更新后的控制层的参数通过互相通信的方式传输给其他第一通信装置，其他第一通信装置可以先根据接收到的控制层的先验参数、第二损失函数、第二损失函数的误差协方差确定卡尔曼增益，然后再根据更新后的控制层的参数和该卡尔曼增益，基于反向梯度传播更新第一机器学习模型中第一网络层的参数，进而更新第一机器学习模型的参数。

本申请实施例提供的模型训练方法，采用中心式的分布式训练方法，当中心的第一通信装置训练完成后，可以向其他第一通信装置发送更新后的模型参数，节省了其他第一通信装置的训练成本，减小了其他第一通信装置的计算量。

结合第一方面，在一种可能的实现方式中，在第一通信装置通过信道接收第二损失函数之后，上述方法还包括：第一通信装置根据第一时间段内接收到的多个损失函数的方差，判断信道在第一时间段内的非线性程度，多个损失函数包括第二损失函数；第一通信装置根据信道在第一时间段内的非线性程度，确定卡尔曼滤波的类型。

不同环境下信道不同，第一通信装置可以通过判断信道在第一时间段内的非线性程度，确定卡尔曼滤波的类型。

本申请实施例提供的模型训练方法，可以通过第一时间段的非线性程度判断环境对信道的影响，通过改变卡尔曼滤波的类型减小环境对信道的影响，使第一机器学习模型更新的复杂度和精度达到平衡。

结合第一方面，在一种可能的实现方式中，第二损失函数的方差大于或等于第一阈值，信道在第一时间段内的非线性程度为强非线性；或者，第二损失函数的方差小于第一阈值，信道在第一时间段内的非线性程度为弱非线性。

结合第一方面，在一种可能的实现方式中，信道在第一时间段内的非线性程度为强非线性，卡尔曼滤波的类型为容积卡尔曼滤波；或者，信道在第一时间段内的非线性程度为弱非线性，卡尔曼滤波的类型为扩展卡尔曼滤波。

第二方面，本申请提供了一种模型训练方法，可以应用于包括第一通信装置和第二通信装置的通信系统，第一通信装置的个数为至少一个，第一通信装置部署有第一机器学习模型，第二通信装置部署有第二机器学习模型，该方法包括：第二通信装置通过信道接收第二数据，第二数据是第一通信装置发送的第一数据经过信道传输后得到的，第一数据是第一训练数据输入至第一机器学习模型的输出结果，第一机器学习模型包括控制层，控制层为第一机器学习模型的至少一层；第二通信装置将第二数据输入至第二机器学习模型，得到第三数据；所述第二通信装置根据所述第三数据和所述第一训练数据，确定第一损失函数；第二通信装置通过反馈信道向第一通信装置发送第一损失函数，反馈信道是根据观测误差确定的，第一损失函数用于更新第一机器学习模型的控制层的参数。

本申请实施例提供的模型训练方法，在未对信道进行建模的情况下，第二通信装置可以根据一段时间内的预测值和真实值的误差确定观测误差，构建方差为观测误差的反馈信道，以使第一通信装置可以基于卡尔曼滤波对第一机器学习模型的参数进行更新，可以减小信道误差对模型训练的影响，增加模型训练的可行性，提高训练自编码器的收敛速度，优化自编码器的鲁棒性，从而提高端到端的通信质量。

结合第二方面，在一种可能的实现方式中，上述方法还包括：第二通信装置根据第一损失函数，基于反向梯度传播更新第二机器学习模型的参数，得到更新后的第二机器学习模型。

结合第二方面，在一种可能的实现方式中，上述方法还包括：第二通信装置通过信道接收第五数据，第五数据是第一通信装置发送的第四数据经过信道传输后得到的，第四数据是第二训练数据输入至第一机器学习模型的输出结果；第二通信装置将第五数据输入至第二机器学习模型，得到第六数据；第二通信装置根据第六数据和第二训练数据，确定第三损失函数；若第三损失函数低于预设阈值，第二通信装置向第一通信装置发送指示信息，指示信息用于指示第一通信装置停止第一机器学习模型的训练。

第三方面，本申请提供了一种模型训练的相关装置，该装置可以用于第一方面的第一通信装置，该装置可以是终端设备或网络设备，也可以是终端设备或网络设备中的装置(例如，芯片，或者芯片系统，或者电路)，或者是能够和终端设备或网络设备匹配使用的装置。

一种可能的实现中，该通信装置可以包括执行第一方面中所描述的方法/操作/步骤/动作所一一对应的模块或单元，该模块或单元可以是硬件电路，也可是软件，也可以是硬件电路结合软件实现。

一种可能的实现中，该装置包括收发单元和处理单元。该收发单元用于：通过信道向第二通信装置发送第一数据，第一数据是第一训练数据输入至第一机器学习模型的输出结果，第一机器学习模型包括控制层，控制层为第一机器学习模型的至少一层；通过信道接收第二损失函数，第二损失函数是第二通信装置发送的第一损失函数经过信道传输后得到的。该处理单元用于：根据第二损失函数，基于卡尔曼滤波更新控制层的参数，得到更新后的控制层的参数，更新后的控制层的参数用于更新第一机器学习模型的参数。

结合第三方面，在一种可能的实现方式中，上述处理单元还用于：根据控制层的先验参数、第二损失函数和第二损失函数的误差协方差，得到卡尔曼增益；根据卡尔曼增益，更新控制层的参数，得到更新后的控制层的参数。

结合第三方面，在一种可能的实现方式中，上述收发单元还用于：通过信道向第二通信装置发送第四数据，第四数据是第二训练数据输入至第一机器学习模型的输出结果；接收来自第二通信装置的指示信息，指示信息用于指示该装置停止第一机器学习模型的训练。上述处理单元还用于：根据指示信息，停止第一机器学习模型的训练。

结合第三方面，在一种可能的实现方式中，第一数据包括N组数据，其中，N为正整数，且N的值是根据卡尔曼滤波的类型和控制层的参数的维度确定的。

结合第三方面，在一种可能的实现方式中，第一数据包括M组数据，其中，M为正整数，M的值是该装置与其他第一通信装置根据预设规则确定的，M与其他第一通信装置所发送的数据的个数之和是根据卡尔曼滤波的类型和控制层的参数的维度确定的。

结合第三方面，在一种可能的实现方式中，上述收发单元还用于：第一通信装置向其他第一通信装置发送更新后的控制层的参数。

结合第三方面，在一种可能的实现方式中，上述处理单元还用于：根据第一时间段内接收到的多个损失函数的方差，判断信道在第一时间段内的非线性程度，多个损失函数包括第一损失函数；根据信道在第一时间段内的非线性程度，确定卡尔曼滤波的类型。

结合第三方面，在一种可能的实现方式中，第二损失函数的方差大于或等于第一阈值，信道在第一时间段内的非线性程度为强非线性；或者，第二损失函数的方差小于第一阈值，信道在第一时间段内的非线性程度为弱非线性。

结合第三方面，在一种可能的实现方式中，信道在第一时间段内的非线性程度为强非线性，卡尔曼滤波的类型为容积卡尔曼滤波；或者，信道在第一时间段内的非线性程度为弱非线性，卡尔曼滤波的类型为扩展卡尔曼滤波。

上述第三方面的各种可能的实现方式的有益效果参见第一方面，此处不再赘述。

第四方面，本申请提供了一种模型训练的相关装置，该装置可以用于第二方面的第二通信装置，该装置可以是终端设备或网络设备，也可以是终端设备或网络设备中的装置(例如，芯片，或者芯片系统，或者电路)，或者是能够和终端设备或网络设备匹配使用的装置。

一种可能的实现中，该通信装置可以包括执行第二方面中所描述的方法/操作/步骤/动作所一一对应的模块或单元，该模块或单元可以是硬件电路，也可是软件，也可以是硬件电路结合软件实现。

一种可能的实现中，该装置包括收发单元和处理单元。该收发单元用于：通过信道接收第二数据，第二数据是第一通信装置发送的第一数据经过信道传输后得到的，第一数据是第一训练数据输入至第一机器学习模型的输出结果，第一机器学习模型包括控制层，控制层为第一机器学习模型的至少一层。该处理单元用于：将第二数据输入至第二机器学习模型，得到第三数据；将第三数据根据预测值和第一训练数据，确定第一损失函数。该收发单元还用于：通过反馈信道向第一通信装置发送第一损失函数，反馈信道是根据观测误差确定的，第一损失函数用于更新第一机器学习模型的控制层的参数。

结合第四方面，在一种可能的实现方式中，上述处理单元还用于：根据第一损失函数，基于反向梯度传播更新第二机器学习模型的参数，得到更新后的第二机器学习模型。

结合第四方面，在一种可能的实现方式中，上述收发单元还用于：通过信道接收第五数据，第五数据是第一通信装置发送的第四数据经过信道传输后得到的，第四数据是第二训练数据输入至第一机器学习模型的输出结果；上述处理单元用于：将第五数据输入至第二机器学习模型，得到第六数据；根据第六数据和第二训练数据，确定第三损失函数；上述收发单元还用于：若第三损失函数低于预设阈值，向第一通信装置发送指示信息，指示信息用于指示第一通信装置停止第一机器学习模型的训练。

上述第三方面的各种可能的实现方式的有益效果参见第二方面，此处不再赘述。

第五方面，本申请提供了又一种模型训练的相关装置，包括处理器，该处理器与存储器耦合，可用于执行存储器中的指令，以实现上述各个方面中任一种可能实现方式中的方法。可选地，该装置还包括存储器。可选地，该装置还包括通信接口，处理器与通信接口耦合，用于与其他通信装置进行通信。

第六方面，本申请提供了一种处理装置，包括处理器和存储器。该处理器用于读取存储器中存储的指令，并可通过接收器接收信号，通过发射器发射信号，以执行上述各个方面中任一种可能实现方式中的方法。

可选地，处理器为一个或多个，存储器为一个或多个。

可选地，存储器可以与处理器集成在一起，或者存储器与处理器分离设置。

在具体实现过程中，存储器可以与处理器集成在同一块芯片上，也可以分别设置在不同的芯片上，本申请对存储器的类型以及存储器与处理器的设置方式不做限定。

相关的数据交互过程例如发送第一数据可以为从处理器输出第一数据的过程，接收第二数据可以为处理器接收输入第二书记的过程。具体地，处理输出的数据可以输出给发射器，处理器接收的输入数据可以来自接收器。其中，发射器和接收器可以统称为收发器。

上述第六方面中的处理装置可以是一个芯片，该处理器可以通过硬件来实现也可以通过软件来实现，当通过硬件实现时，该处理器可以是逻辑电路、集成电路等；当通过软件来实现时，该处理器可以是一个通用处理器，通过读取存储器中存储的软件代码来实现，该存储器可以集成在处理器中，可以位于该处理器之外独立存在。

第七方面，本申请提供了一种计算机程序产品，计算机程序产品包括：计算机程序(也可以称为代码，或指令)，当计算机程序被运行时，使得计算机执行上述各个方面中任一种可能实现方式中的方法。

第八方面，本申请提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序(也可以称为代码，或指令)当其在计算机上运行时，使得计算机执行上述各个方面中任一种可能实现方式中的方法。

第九方面，本申请提供了一种计算机程序，当其在计算机上运行时，使得上述各个方面中可能实现方式中的方法被执行。

第十方面，本申请提供了一种通信系统，包括上述第三方面及其各种可能实现的方式中的装置和上述第四方面及其各种可能实现的方式中的装置。

附图说明

图1是一种端到端的信号传输过程的示意图；

图2是一种基于自编码器的端到端的信号传输过程的示意图；

图3是本申请实施例提供的一种模型训练方法的示意性流程图；

图4是本申请实施例提供的一种端到端的信号传输过程的示意图；

图5是本申请实施例提供的另一种模型训练方法的示意性流程图；

图6是本申请实施例提供的更新第一网络层参数的示意图；

图7是基于本申请实施例提供的模型训练方法的交叉熵损失的示意图；

图8是基于本申请实施例提供的模型训练方法的误码率变化的示意图；

图9是本申请实施例提供的另一种模型训练方法的示意性流程图；

图10是本申请实施例提供的一种模型训练的相关装置的示意性框图；

图11是本申请实施例提供的另一种模型训练的相关装置的示意性框图。

具体实施方式

下面将结合附图，对本申请中的技术方案进行描述。

本申请实施例的技术方案可以应用于各种通信系统，例如：窄带物联网系统(narrow band-internet of things，NB-IoT)、长期演进(long term evolution，LTE)系统、LTE频分双工(frequency division duplex，FDD)系统、LTE时分双工(time division duplex，TDD)、新无线(new radio，NR)等第五代移动通信(5th generation，5G)系统或、或者其他演进的通信系统等。5G系统通常包括以下三大应用场景：增强移动宽带(enhanced mobile broadband，eMBB)，超高可靠与低时延通信(ultra-reliable and low latency communications，URLLC)和海量机器类通信(massive machine type of communication，mMTC)。

本申请实施例中的通信装置可以为网络设备或终端设备。应理解，终端设备可以替换为能够实现与终端设备类似的功能的装置或芯片，网络设备也可以替换为能够实现与网络设备类似的功能的装置或芯片，本申请实施例对其名称不作限定。

本申请实施例中的终端设备也可以称为：用户设备(user equipment，UE)、移动台(mobile station，MS)、移动终端(mobile terminal，MT)、接入终端、用户单元、用户站、移动站、移动台、远方站、远程终端、移动设备、用户终端、终端、无线通信设备、用户代理或用户装置等。

终端设备可以是一种向用户提供语音/数据连通性的设备，例如，具有无线连接功能的手持式设备、车载设备等。目前，一些终端设备的举例为：手机(mobile phone)、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(mobile internet device，MID)、可穿戴设备，虚拟现实(virtual reality，VR)设备、增强现实(augmented reality，AR)设备、工业控制(industrial control)中的无线终端、无人驾驶(self driving)中的无线终端、远程手术(remote medical surgery)中的无线终端、智能电网(smart grid)中的无线终端、运输安全(transportation safety)中的无线终端、智慧城市(smart city)中的无线终端、智慧家庭(smart home)中的无线终端、蜂窝电话、无绳电话、会话启动协议(session initiation protocol，SIP)电话、无线本地环路(wireless local loop，WLL)站、个人数字助理(personal digital assistant，PDA)、具有无线通信功能的手持设备、计算设备或连接到无线调制解调器的其它处理设备、车载设备、可穿戴设备，5G网络中的终端设备或者未来演进的公用陆地移动通信网络(public land mobile network，PLMN)中的终端设备等，本申请实施例对此并不限定。

此外，在本申请实施例中，终端设备还可以是物联网(internet of things，IoT)系统中的终端设备，IoT是未来信息技术发展的重要组成部分，其主要技术特点是将物品通过通信技术与网络连接，从而实现人机互连，物物互连的智能化网络。

另外，本申请实施例中的网络设备可以是为终端设备提供无线通信功能的设备，该网络设备也可以称为接入网设备或无线接入网设备，可以是传输接收点(transmission reception point，TRP)，还可以是LTE系统中的演进型基站(evolved NodeB，eNB或eNodeB)，还可以是家庭基站(例如，home evolved NodeB，或home Node B，HNB)、基带单元(base band unit，BBU)，还可以是云无线接入网络(cloud radio access network，CRAN)场景下的无线控制器，或者该网络设备可以为中继站、接入点、车载设备、可穿戴设备以及5G网络中的网络设备或者未来演进的PLMN网络中的网络设备等，可以是无线局域网(Wireless Local Area Network，WLAN)中的接入点(access point，AP),可以是新型无线(new radio，NR)系统中的gNB，可以是卫星通信系统中的卫星基站等，以及设备到设备(Device-to-Device，D2D)、车辆外联(vehicle-to-everything，V2X)、机器到机器(machine-to-machine，M2M)通信中承担基站功能的设备等，本申请实施例并不限定。

在一种网络结构中，网络设备可以包括集中单元(centralized unit，CU)节点、或分布单元(distributed unit，DU)节点、或包括CU节点和DU节点的无线接入网(radio access network，RAN)设备、或者控制面CU节点(CU-CP节点)和用户面CU节点(CU-UP节点)以及DU节点的RAN设备。

网络设备为小区内的终端设备提供服务，终端设备通过网络设备分配的传输资源(例如，频域资源，或者说，频谱资源)与小区对应的网络设备或者其他设备进行通信，该网络设备可以为宏基站(例如，宏eNB或宏gNB等)，也可以为小小区(small cell)对应的基站，这里的小小区可以包括：城市小区(metro cell)、微小区(micro cell)、微微小区(pico cell)、毫微微小区(femto cell)等，这些小小区具有覆盖范围小、发射功率低的特点，适用于提供高速率的数据传输服务。

本申请实施例并未对本申请实施例提供的方法的执行主体的具体结构特别限定，只要能够通过运行记录有本申请实施例的提供的方法的代码的程序，以根据本申请实施例提供的方法进行通信即可，例如，本申请实施例提供的方法的执行主体可以是终端设备或网络设备，或者，是终端设备或网络设备中能够调用程序并执行程序的功能模块。

另外，本申请的各个方面或特征可以实现成方法、装置或使用标准编程和/或工程技术的制品。本申请中使用的术语“制品”涵盖可从任何计算机可读器件、载体或介质访问的计算机程序。例如，计算机可读介质可以包括，但不限于：磁存储器件(例如，硬盘、软盘或磁带等)，光盘(例如，压缩盘(compact disc，CD)、数字通用盘(digital versatile disc，DVD)等)，智能卡和闪存器件(例如，可擦写可编程只读存储器(erasable programmable read-only memory，EPROM)、卡、棒或钥匙驱动器等)。另外，本文描述的各种存储介质可代表用于存储信息的一个或多个设备和/或其它机器可读介质。术语“机器可读介质”可包括但不限于能够存储、包含和/或承载指令和/或数据的各种其它介质。

传统端到端的通信系统，通信信号的处理过程一般都会被分为一系列的子模块，例如信源编码、信道编码、调制、信道估计等。若提升端到端的通信质量，需要单独优化每个子模块。其中，每个子模块都是基于特定的信号处理算法建模，通常是近似为一些简化的线性模型。然而，用这种单独优化每个子模块的方式并不能保证整个通信系统实现端到端优化，反而会引入更多的干扰效应，如放大器失真和信道损伤等，同时每个模块均有控制因素和参数数量，使该传统方法进行端到端优化的复杂性非常高。

应理解，在传统端到端的通信系统中，通信装置可以为终端设备或网络设备。若通信系统中的发送端为终端设备，则接收端可以是网络设备或者其他终端设备。或者，若通信系统中的发送端为网络设备，则接收端可以是终端设备或者其他网络设备，即本申请实施例可以应用于网络设备和网络设备之间、网络设备和终端设备之间、终端设备和终端设备之间等多种场景的端到端的通信系统。

示例性地，图1示出了一种传统的端到端的信号传输过程的示意图。如图1所示，通信信号的传输过程可以分成信源编码、信道编码、调制、信道、解调、信道译码以及信源译码等子模块。发送端可以发送通信信号u到接收端。具体地，发送端可以将通信信号u先经过信源编码、信道编码、调制等子模块转换成通信信号x，再将该通信信号x通过信道发送到接收端，通过信道的通信信号x会带有信道误差，故接收端通过信道接收到的通信信号为y，经解调、信道译码以及信源译码等子模块得到通信信号u*。

若使通信系统实现端到端的优化，即使接收端接收的通信信号u*和发送端发送的通信信号u之间的误差达到尽可能的小，需要优化每个子模块，会使端到端优化的复杂性非常高，且不能保证整个通信系统实现端到端的优化。

随着深度学习技术的发展，发送端和接收端均可以通过自编码器(auto encoder)对通信信号进行处理。具体地，发送端和接收端均可以用神经网络的方式进行建模，并通过大量训练样本学习数据的分布，然后用来预测结果。这样的端到端学习方式能够做到联合优化，传统的端到端的通信方法可以做到更优的效果。

示例性地，图2示出了一种基于自编码器的端到端的信号传输过程的示意图。如图2所示，通信信号的传输过程可以分成编码的自编码器和译码的自编码器，减少了子模块的个数。发送端可以发送通信信号u到接收端。具体地，发送端可以将通信信号u经过编码的自编码器转换成通信信号x，再将该通信信号x通过信道发送到接收端，通过信道的通信信号x会带有信道误差，故接收端通过信道接收到的通信信号为y，经译码的自编码器得到通信信号u*。

在该通信系统中，当自编码器的优化程度较高时，可以提升端到端的通信质量。但该通信系统中信道一般难以用模型进行表征，会影响译码的自编码器计算损失函数，进而影响自编码器的训练，增加了自编码器的训练难度，影响端到端的通信质量。

有鉴于此，本申请实施例提供了一种模型训练方法及相关装置，在未对信道进行建模的情况下，有利于增加训练机器学习模型的可行性，提高训练机器学习模型的收敛速度，优化机器学习模型的鲁棒性，从而提高端到端的通信质量。

在介绍本申请实施例提供的模型训练方法及相关装置之前，先做出以下几点说明。

第一，在下文示出的实施例中，各术语及英文缩略语，如控制层和网络层等，均为方便描述而给出的示例性举例，不应对本申请构成任何限定。本申请并不排除在已有或未来的协议中定义其它能够实现相同或相似功能的术语的可能。

第二，在下文示出的实施例中，第一、第二以及各种数字编号仅为描述方便进行的区分，并不用来限制本申请实施例的范围。例如，区分不同的通信装置、区分不同的机器学习模型等。

第三，在下文示出的实施例中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a、b和c中的至少一项(个)，可以表示：a，或b，或c，或a和b，或a和c，或b和c，或a、b和c，其中a，b，c可以是单个，也可以是多个。

下面，以第一通信装置和第二通信装置为例，详细介绍本申请的模型训练方法。第一通信装置可以为上述终端设备或网络设备，第二通信装置可以为上述终端设备或网络设备。应理解，该第一通信装置相当于上述发送端，第二通信装置相当于上述接收端。

图3为本申请实施例提供的一种模型训练方法300的示意图。该方法300可以由应用于包括第一通信装置和第二通信装置的通信系统，该第一通信装置的个数为至少一个，该第一通信装置可以部署有第一机器学习模型。如图3所示，该方法300可以包括下列步骤：

S301，第一通信装置可以通过信道向第二通信装置发送第一数据，第一数据是第一训练数据输入至第一机器学习模型的输出结果，第一机器学习模型包括控制层，控制层为第一机器学习模型的至少一层。

控制层可以为第一机器学习模型中最后的至少一层网络，也可以是第一机器学习模型中任意位置的至少一层网络，本申请实施例对控制层在第一机器学习模型中的位置不做限定。

示例性地，图4示出了本申请实施例提供的一种端到端的信号传输过程的示意图。如图4所示，控制层为第一机器学习模型中最后的一层网络。其中，图4中第一机器学习模型中网络层的个数仅仅为一个示例，本申请实施例对此不做限定。

应理解，控制层是本申请实施例在第一机器学习模型中选择的至少一层网络，控制层仅仅为一个名称的示例，其他具有相同特点的名称，均可以包含在本申请实施例的保护范围中。

示例性地，上述第一数据可以为图4中的x，第一训练数据可以为图4中的u，第一机器学习模型可以理解为上述图2中译码的自编码器或者神经网络模型。

S302，第二通信装置通过信道接收第二数据，第二数据是第一通信装置发送的第一数据经过信道传输后得到的。

应理解，通过信道的数据会产生干扰，故第一数据经过信道后为第二数据。该第二数据可以为图4中的y。

S303，第二通信装置将第二数据输入至第二机器学习模型，得到第三数据。

示例性地，该第二机器学习模型可以理解为上述图2中解码的自编码器或者神经网络模型。第三数据可以为图4中的u*。

S304，第二通信装置根据第三数据和第一训练数据，确定第一损失函数。

示例性地，第二通信装置可以将第三数据作为预测值、第一训练数据作为真实值，确定第一损失函数。该第一损失函数也可以称为目标函数，本申请实施例不做限定。

该第一训练数据是样本数据，可以是预设的，也可以是其他通信装置发送的。应理解，若第二通信装置接收来自其他通信装置发送的第一训练数据，该第一训练数据不经过未知误差或者未知噪声的信道。

示例性地，第一通信装置发送的是第一训练数据u，但第二通信装置最终得到的是第三数据u*，故第二通信装置可以将第三数据u*作为预测值、第一训练数据u作为真实值，确定第一损失函数，该第一损失函数为第三数据u*和第一训练数据u的误差函数。

应理解，第三数据和第一训练数据之间的误差是信道造成的。

该第一损失函数可以为交叉熵或最小均方差等。该第一损失函数可以作为卡尔曼滤波中的观测量。

S305，第二通信装置通过反馈信道向第一通信装置发送第一损失函数，反馈信道是根据观测误差确定的，第一损失函数用于更新第一机器学习模型的参数。

该反馈信道的方差可以是观测误差。示例性地，反馈信道可以是均值为0，方差为观测误差的加性高斯白噪声(additive white gaussian noise，AWGN)信道。第二通信装置在反馈第一损失函数时，可以通过控制反馈第一损失函数的信号的发射功率，改变发送信号的信噪比，构造方差为观测误差的AWGN信道。

观测误差可以是第二通信装置根据一段时间内的预测值和真实值的误差确定的。该一段时间可以为任意的一段时间，本申请实施例对该段时间的时长不做限定。

可选地，第一损失函数还可以用于更新第二机器学习模型的参数。具体地，第二通信装置可以根据第一损失函数，基于反向梯度传播更新第二机器学习模型的参数，得到更新后的第二机器学习模型。

S306，第一通信装置通过反馈信道接收第二损失函数，第二损失函数是第二通信装置发送的第一损失函数经过反馈信道传输后得到的。

示例性地，若反馈信道的信道误差为观测误差，则第二损失函数可以包括观测误差。

S307，第一通信装置根据第二损失函数，基于卡尔曼滤波更新控制层的参数，得到更新后的控制层的参数，更新后的控制层的参数用于更新第一机器学习模型的控制层的参数。

示例性地，第二损失函数可以包括观测误差。第二损失函数为卡尔曼滤波方法中的观测量，若该误差越大，可以表明后验的第二损失函数(观测量)置信度低，更倾向于用于估计更新的控制层的参数结果；若该误差越小，可以表明后验的第二损失函数(观测量)置信度高，更倾向于根据后验的第二损失函数更新的控制层的参数结果。

应理解，后验的控制层的参数为第一通信装置根据第二损失函数和卡尔曼滤波计算得到的，先验的控制层的参数为每次更新前的控制层的参数。

该卡尔曼滤波的类型可以为容积卡尔曼滤波或者扩展卡尔曼滤波等，本申请实施例对卡尔曼滤波的类型不做限定。

示例性地，若卡尔曼滤波的类型为容积卡尔曼滤波，该容积卡尔曼滤波可以通过下列公式表示：

d _k＝h(u _k；θ _k)+r _k

其中，k可以为训练的轮数或者训练时刻，u _k可以为上述第一训练数据，θ _k可以为上述控制层的参数，h(u _k；θ _k)可以为端到端的非线性函数，该函数h(u _k；θ _k)可以表示上述第一机器学习模型、信道以及第二机器学习模型的非线性关系，r _k为观测误差，d _k为观测量。

应理解，理论上d _k可以经上述第一机器学习模型、信道以及第二机器学习模型仍然与上述第一训练数据相同。

本申请实施例提供的模型训练方法，在未对信道进行建模的情况下，第二通信装置可以根据一段时间内的预测值和真实值的误差确定观测误差，构建方差为观测误差的反馈信道，以使第一通信装置基于卡尔曼滤波对第一机器学习模型的参数进行更新，可以减小信道误差对模型训练的影响，增加模型训练的可行性，提高训练机器学习模型的收敛速度，卡尔曼滤波方法中基于观测量的更新方式，可以优化机器学习模型的鲁棒性，从而提高端到端的通信质量。

可选地，上述S307，基于卡尔曼滤波更新控制层的参数，得到更新后的控制层的参数，包括：第一通信装置根据控制层的先验参数、第二损失函数和第二损失函数的误差协方差，得到卡尔曼增益；第一通信装置根据卡尔曼增益，更新控制层的参数，得到更新后的控制层的参数。

第一通信装置可以根据控制层的先验参数、第三数据和第一训练数据确定的第二损失函数以及第二损失函数的误差协方差，得到卡尔曼增益；并根据卡尔曼增益，更新控制层的参数，得到更新后的控制层的参数。

作为一个可选的实施例，上述方法300还包括：第一通信装置根据更新后的控制层的参数和卡尔曼增益，基于反向梯度传播更新第一机器学习模型中第一网络层的参数，得到更新后的第一网络层的参数，第一网络层包括在控制层之前的网络层；第一通信装置根据更新后的控制层的参数和更新后的第一网络层的参数，得到更新后的第一机器学习模型。

应理解，无论控制层位于第一机器学习模型的第几层，第一网络层均包括在控制层之前的网络层。例如，第一机器学习模型共8层网络层，若控制层位于第一机器学习模型的第5层，则第一网络层包括第一机器学习模型的前4层网络层。又如，第一机器学习模型共12层网络层，若控制层位于第一机器学习模型的第10层至第12层，则第一网络层包括第一机器学习模型的前9层网络层。

示例性地，第一网络层可以是基于全连接、卷积层或者残差网络(resnet)等网络结构。

可选地，在得到更新后的第一机器学习模型之后，上述方法300还包括：第一通信装置通过信道向第二通信装置发送第四数据，第四数据是第二训练数据输入至第一机器学习模型的输出结果；第二通信装置通过信道接收第五数据，第五数据是第一通信装置发送的第四数据经过信道传输后得到的；第二通信装置将第五数据输入至第二机器学习模型，得到第六数据；第二通信装置根据第六数据和第二训练数据，确定第三损失函数；若第三损失函数低于预设阈值，第二通信装置向第一通信装置发送指示信息，指示信息用于指示第一通信装置停止第一机器学习模型的训练，对应地，第一通信装置接收来自第二通信装置的指示信息，指示信息用于指示第一通信装置停止第一机器学习模型的训练；第一通信装置根据指示信息，停止第一机器学习模型的训练。

在得到更新后的第一机器学习模型之后，第一通信装置又会开始新一轮的训练，即第一通信装置将第二训练数据输入至第一机器学习模型，得到输出结果为第四数据，并通过信道向第二通信装置发送该第四数据。由于该第四数据通过信道，会带有信道误差，故第二通信装置会接收到第五数据。和上一轮训练相同，第二通信装置可以得到第六数据，并将第六数据作为预测值，将第二训练数据作为真实值，确定第三损失函数，若该第三损失函数低于预设阈值，第二通信装置可以确定经过上一轮的训练得到的更新后的第一机器学习模型为满足条件的模型，可以不再进行该轮训练，故向第一通信装置发送指示信息，该指示信息用于指示第一通信装置停止第一机器学习模型的训练。

应理解，若该第三损失函数高于或等于预设阈值，第二通信装置将会重复上一轮的训练步骤继续进行训练。

可选地，上述第二通信装置可以周期性地判断第三损失函数是否低于预设阈值，若第三损失函数低于阈值，则向第一通信装置发送指示信息。例如，第二通信装置可以每隔一定的时间或者每间隔一定的训练轮数判断第三损失函数是否低于预设阈值。本申请实施例提供的模型训练方法，在反复更新第一机器学习模型的参数的过程中，当检测到第三损失函数满足预设阈值时，可以停止更新第一机器学习模型的参数，有利于减少不必要的训练，节省运算资源，降低第一通信装置的功耗。

作为一个可选的实施例，在上述S306，第一通信装置通过信道接收第二损失函数之后，上述方法300还包括：第一通信装置根据第一时间段内接收到的多个损失函数的方差，判断信道在第一时间段内的非线性程度，多个损失函数包括第二损失函数；第一通信装置根据信道在第一时间段内的非线性程度，确定卡尔曼滤波的类型。

示例性地，方差σ ²可以通过下列公式表示：

其中，L _k为时刻k的第二损失函数，T为第一时间段的时长，

为T时刻内多个损失函数的均值。

第一通信装置可以通过σ ²的值，判断信道的非线性程度。

应理解，第一时间段为任意一段连续的时间，本申请实施例对第一时间段的时长不做限定。

可选地，第一通信装置可以预设第一阈值，当第二损失函数的方差大于或等于该第一阈值时，信道在第一时间段内的非线性程度为强非线性；当第二损失函数的方差小于该第一阈值，信道在所述第一时间段内的非线性程度为弱非线性。

该第一阈值的值和第一阈值的个数可以是第一通信装置根据卡尔曼滤波的计算精度确定的。示例性地，第一通信装置采用容积卡尔曼滤波的3阶积分方法可以得到2阶估计精度，即设定一个第一阈值，将非线性程度分为强非线性和弱非线性。其中，第一阈值是一个大于0且小于1的值。应理解，若第一通信装置采用容积卡尔曼滤波中更高阶的积分方法，可以得到更高的计算精度，第一阈值的值可以不同，第一阈值的个数可以包括至少一个。

可选地，当信道在该第一时间段内的非线性程度为强非线性时，卡尔曼滤波的类型可以为容积卡尔曼滤波；当所述信道在第一时间段内的非线性程度为弱非线性时，卡尔曼滤波的类型可以为扩展卡尔曼滤波。

当信道的非线性程度为弱非线性时，第一通信装置可以选择复杂度较低的扩展卡尔曼滤波更新第一机器学习模型的参数；当信道的非线性程度为强非线性时，第一通信装置可以选择复杂度较高的容积卡尔曼滤波更新第一机器学习模型的参数。

可选地，当信道的非线性程度为强非线性时，第一通信装置可以采用更高阶的积分方式更新第一机器学习模型的参数。

示例性地，第一通信装置若采用容积卡尔曼滤波的5阶积分方法，则采样点的个数可以为n ²+n+1，计算精度更高，更适合强非线性的信道估计。

可选地，当信道的非线性程度为弱非线性时，第一通信装置可以减少控制层的层数；当信道的非线性程度为强非线性时，第一通信装置可以增加控制层的层数。

上述控制层的参数为Θ _c，第一通信装置可以根据控制层的非线性程度，适应变化控制层的参数Θ _c的层数。

当信道的非线性程度较弱时，较少的控制层参数便可以消除信道误差的影响，减小更新控制层参数的复杂度，同时，在更新第一网络层的参数时，可以减少反向梯度传播的计算量，进而减小训练第一机器学习模型的复杂度。

当信道的非线性程度较强时，较多的控制层参数可以消除信道误差强非线性的影响，提高控制层参数更新的精度。

作为一个可选的实施例，上述第一数据可以包括N组数据，其中，N为正整数，且N的值是根据卡尔曼滤波的类型和控制层的参数的维度确定的。

第一数据的个数可以根据卡尔曼滤波的类型和控制层的参数的维度确定。

示例性地，若控制层的参数的维度为6，卡尔曼滤波的类型为容积卡尔曼滤波，则第一数据的个数可以为2*6＝12个，即第一通信装置对控制层每个维度的参数增加了左右两个扰动，可以得到12个采样点。若第一训练数据为一组数据，第一通信装置将该组数据分别输入第一机器学习模型中，则可以得到12组第一数据。

示例性地，若卡尔曼滤波的类型为扩展卡尔曼滤波，则第一数据可以为1组数据，即无需对控制层的参数进行采样。上述控制层的参数的更新的方式仍然可以适用。

下面，以第一通信装置对控制层的参数进行采样后进行模型训练为例，对本申请实施例提供的模型训练方法进行详细介绍。

图5示出了本申请实施例提供的另一种模型训练方法500的示意性流程图。如图5所示，该方法可以包括下列步骤：

S501，第一通信装置对控制层的参数进行采样，得到控制层的参数的采样点。

控制层可以是第一机器学习模型的最后至少一层网络。

示例性地，第一通信装置在训练第一机器学习模型之前，可以先初始化第一机器学习模型中控制层的参数θ ₀和控制层参数θ ₀的误差协方差P _0|0＝I。然后，第一通信装置可以对θ ₀进行采样。例如，k时刻的采样点可以表示为

其中，k≥1，0时刻的采样点可以记为

应理解，时刻可以理解是采样的时刻或者采样的次数。

可以通过下列公式(1)表示：

其中，

表示服从均值为

方差为P _k-1|k-1的高斯分布，

为第k-1时刻更新后的控制层的参数，P _k-1|k-1为k-1时刻的控制层的参数的误差协方差，用来度量估计的准确程度，θ _k-1为k-1时刻的控制层的参数。

应理解，

可以理解为基于第k-1时刻结果对第k时刻参数的预测(先验估计)值。k是指更新卡尔曼滤波的时刻，或者是训练的次数。k的取值范围是由整个训练过程决定的，即上述第一损失函数低于预设阈值后就终止训练。

P _k|k-1为k-1时刻的控制层的采样参数与k时刻的控制层的采样参数之间的误差协方差，该P _k|k-1可以通过下列公式(2)表示：

其中，Q _k-1为系统噪声，该Q _k-1与P _k|k-1的关系可以通过下列公式(3)表示：

其中，λ为遗忘因子，表示对过去的数据施加指数衰减权重，取值范围为0<λ≤1。

故上述P _k|k-1可以转换成通过下列公式(4)表示：

若卡尔曼滤波的类型为容积卡尔曼滤波，第一通信装置可以采用体积法来计算高斯权重积分，如下列公式(5)所示：

其中，P＝SS ^T，S是P的正交三角分解且

γ _i为积分点，且γ _i可以通过下列公式表示：

其中，e _i表示第i个元素为1的单位列向量。

因此，可通过生成2n个采样点计算得到控制层的参数的采样点

其中，n为大于等于1的正整数。

S502，第一通信装置可以将第一训练数据输入至第一机器学习模型，得到第一数据，其中，第一机器学习模型包括上述控制层的参数的采样点。

第一训练数据为一组数据，若卡尔曼滤波的类型为容积卡尔曼滤波，则控制层的参数的采样点为2n个，则第一数据可以为2n组数据。

S503，第一通信装置可以通过信道向第二通信装置发送第一数据。

S504，第二通信装置通过信道接收第二数据，第二数据是第一通信装置发送的第一数据经过信道传输后得到的。

应理解，第一数据为2n组数据，则第二数据也为2n组数据。

S505，第二通信装置将第二数据输入至第二机器学习模型，得到第三数据。

应理解，第三数据为2n组数据。

示例性地，假设第一机器学习模型、信道以及第二机器学习模型所表达的非线性函数为h(u；θ)，其中，u为通信系统的输入，θ为控制层的参数，则上述第三数据可以通过下列公式(7)表示：

其中，u _k为第一训练数据，θ _k为该时刻的控制层参数，

表示服从均值为

方差为P _k|k-1的高斯分布，k为训练的轮数或者训练的时刻。

该

可以通过上述公式(1)表示，P _k|k-1可以通过上述公式(2)表示。

第二通信装置可以根据该第三数据，估计该第三数据之间的误差协方差P _dd，该P _dd可以通过下列公式(8)表示：

其中，R _k为观测误差的协方差。

第二通信装置可以采用体积法来计算高斯权重积分。

示例性地，若记d _i,k|k-1＝h(u _k；θ _i,k|k-1)可以为2n个不同采样点θ _i,k|k-1代入h(u _k；θ _k)中得到的第三数据，则第三数据可以为

则上述P _dd可以通过下列公式(9)表示：

或者，上述P _dd可以通过下列公式(10)表示：

其中，1≤i≤2n，D为中心向量，D可以通过下列公式(11)表示：

S506，第二通信装置将第三数据作为预测值、第一训练数据作为真实值，确定第一损失函数。

应理解，第一损失函数包括2n个，即上述第一训练数据经过每个采样点得到一个数据，该第一数据经过信道后得到一个第三数据，根据一个第三数据和第一训练数据得到一个第一损失函数，故上述采样点包括2n个，则第一损失函数包括2n个。

第二通信装置可以计算交叉熵作为第一损失函数，该第一损失函数L _k可以通过下列公式(12)表示：

L _k＝-∑u _klogh(u _k；θ _k) (12)

其中，第一训练数据为u _k，第三数据为h(u _k；θ _k)。

训练目标为使真实值与第三数据的误差尽可能小，即使第一损失函数L _k为尽可能小的值，故可以将L _k近似为0，即下列公式(13)所示：

L _k＝|h(u _k；θ _k)-u _k|≈0 (13)

则第二通信装置可以通过观测第一损失函数的方式代替计算上述观测第三数据，故，

上述P _dd可以变化为通过下列公式(14)表示：

且第二通信装置的观测值，即第一损失函数，可以记为L _i,k，其中，第一损失函数包括2n个，i可以为取遍{1，2，…，2n}的整数。

S507，第二通信装置根据第一损失函数，基于反向梯度传播更新第二机器学习模型的参数，得到更新后的第二机器学习模型。

示例性地，第二通信装置可以计算第一损失函数的均值，采用第一损失函数的均值并基于反向梯度传播更新第二机器学习模型的参数。

该第一损失函数的均值可以为

其中，L _i,k为2n个第一损失函数。

S508，第二通信装置通过反馈信道向第一通信装置发送第一损失函数，反馈信道是第二通信装置根据观测误差确定的，第一损失函数用于更新第一机器学习模型的参数。

示例性地，第二通信装置可以通过反馈信道向第一通信装置发送第一损失函数L _i,k，即分别发送2n个第一损失函数。

第二通信装置可以根据环境变化动态估计观测误差，并通过功率控制使信道的误差近似与观测误差相同，构造反馈信道。

示例性地，第二通信装置可以定义预测值和真实值的误差为

并先预设误差协方差

R _max的值可以为经验值，该经验值可以是第二通信装置根据接收来自第一通信装置的误差协方差确定。第二通信装置可以根据

估计一段时间内的预测值和真实值的误差协方差

该

可以通过下列公式(15)表示：

其中，T _i为该段时间的时长，i≥0。

随后的T _i+1时间段，令

其中0<λ≤1，再次计算该时间段的

如果此时

则停止调整，令观测误差协方差

反之继续在T _i+2时间段对R _k调整。若出现误差协方差出现跳变，即

则意味着环境有较大变动，此时重设R _k＝R _max，并重复上述步骤。

另外也可对R _k的调整建立对应表，该对应表中包括索引和R _k的值的对应关系，可以是按索引从大到小对应R _max到R _min。第二通信装置可以通过计算两个时间段的

值来确定对R _k的选取，例如，当

时，索引减1，对应选取的R _k减小。反之则停止调整，令观测误差协方差

其中，R _k＝r _kI，其中，I为单位阵，r _k为方差。

第二通信装置可以通过功率控制，将信道建模成均值为0，方差为r _k的加性高斯白噪声(additive white gaussian noise，AWGN)信道，将2n个第一损失函数L _i,k反馈给第一通信装置，用于第一通信装置更新控制层的参数。

可选地，第二通信装置可以通过信道向第一通信装置发送第一损失函数的均值，即

同时向第一通信装置发送上述中心向量D。

S509，第一通信装置通过反馈信道接收第二损失函数，第二损失函数是第二通信装置发送的第一损失函数经过信道传输后得到的。

第二通信装置将反馈信道建模成信道误差为观测误差r _k的AWGN信道，故第一损失函数经过反馈信道传输后得到第二损失函数

即下列公式(16)所示：

即第二通信装置通过反馈信道向第一通信装置发送第一损失函数为L _i,k，则第一通信装置接收到的第二损失函数为

可选地，若第二通信装置向第一通信装置发送第一损失函数的均值，则第二通信装置可以将上述中心向量D通过反馈信道发送给第一通信装置，相应的，第一通信装置可以通过反馈信道接收第二损失函数的均值和带有观测误差的中心向量D。

S510，第一通信装置根据第二损失函数、控制层的先验参数以及第二损失函数的误差协方差，得到卡尔曼增益。

示例性地，首先，第一通信装置可以根据第二损失函数估计第二损失函数的误差协方差。

由于反馈信道的误差期望为0，即

且

故第二损失函数的误差协方差可以通过公式(17)表示：

应理解，该第二损失函数的误差协方差

与上述公式(8)中的P _dd相同。

然后，第一通信装置可以根据控制层的先验参数，得到第二损失函数的交叉协方差P _θd，其中，P _θd可以通过下列公式(18)表示：

进一步的，P _θd可以通过下列公式(19)或(20)表示：

或者，

其中，

最后，第一通信装置可以根据第二损失函数的误差协方差和第二损失函数的交叉协方差，得到卡尔曼增益G _k，其中，G _k可以通过下列公式(21)表示：

S511，第一通信装置根据卡尔曼增益，更新控制层的参数，得到更新后的控制层的参数。

示例性地，更新后的控制层的参数

可以通过下列公式(22)表示：

S512，第一通信装置根据更新后的控制层的参数和卡尔曼增益，基于反向梯度传播更新第一机器学习模型中第一网络层的参数，得到更新后的第一网络层的参数，第一网络层包括在控制层之前的网络层。

示例性地，图6示出了一种更新第一网络层的参数的示意图。如图6所示，将控制层参数记为Θ _c，第一网络层的参数记为Θ _z-c，Θ _z-c表示在网络中的所属l _z-c-1层和l _z-c层之间的权重，l _z-c为神经网络的所属层数的参数，其中，l _z＝Θ _cl _z-c，l _z-c＝Θ _z-cl _x-c-1c可以表示控制层的网络层数。

基于卡尔曼滤波的梯度可以为

其中，j为更新的次数，G为第j次计算得到的卡尔曼增益，

为第j次计算得到的第二损失函数。假定

令

表示向量的伪逆，可以得到推算控制层前一个网络层的参数更新方式，即可以通过下列公式(23)所示：

其中，z为第一机器学习模型的总网络层数，j可以为取遍{1，2，…，z-c}的整数。

依次类推，第一网络层的其他网络按该更新方式进行更新，此处不再进行赘述。

S513，第一通信装置根据更新后的控制层的参数和更新后的第一网络层的参数，得到更新后的第一机器学习模型。

本申请实施例提供的模型训练方法，对控制层的参数进行采样，更好地结合卡尔曼滤波到模型训练中，进一步增加模型训练的可行性，提高训练自编码器的收敛速度，优化自编码器的鲁棒性，从而提高端到端的通信质量。

本申请实施例还对该方法500进行了仿真，以检验该方法500的效果。示例性地，仿真是在AWGN时变扰动信道下进行的，对比本申请实施例提出的方法500和基于强化学习的策略梯度(policy gradient，PG)的效果。其中，本申请实施例提出的方法500为基于容积卡尔曼滤波(cubature kalman filter，CKF)的训练方法。

在该仿真中，信道的信噪比是实时变化的，信噪比的取值范围可以设置为[10,25]，其中，信噪比的单位为分贝。另外，在该仿真中，调制阶数为4，第一训练数据的长度为256，该第一训练数据在输入基于容积卡尔曼滤波的机器学习模型之前，需要进行独热编码(one-hot)得到长度为16的训练数据。

上述仿真分别对CKF和PG迭代4000次，分别观察两种算法的交叉熵损失和误码率变化。

图7示出了基于本申请实施例提供的模型训练方法的交叉熵损失的示意图。如图7所示，随着迭代次数的增加，CKF的下降速度大于PG，CKF的损失扰动小于PG的损失扰动，CKF的交叉熵损失小于PG的交叉熵损失，交叉熵损失越小，代表信道对第一通信装置和第二通信装置之间的通信影响越小。

图8示出了基于本申请实施例提供的模型训练方法的误码率变化的示意图。如图8所示，随着迭代次数的增加，CKF的下降速度大于PG，CKF的误码率小于PG的误码率。

由图7和图8可知，基于CKF的训练方法，可以提高模型训练的收敛速度和鲁棒性。

作为一个可选的实施例，上述第一数据可以包括M组数据，其中，M为正整数，M的值是第一通信装置与其他第一通信装置根据预设规则确定的，M与其他第一通信装置所发送的数据的个数之和是根据卡尔曼滤波的类型和控制层的参数的维度确定的。

其他第一通信装置所发送的数据包括其他第一通信装置中的每个第一通信装置中的机器学习模型的输出结果。

在端到端的通信系统中，第一通信装置的个数可以为多个，第二通信装置的个数可以为1个。在该通信系统中，上述第一通信装置可以与其他第一通信装置根据预设规则确定第一数据的数量M。该预设规则可以是在该通信系统中，每个第一通信装置中的机器学习模型的输出结果的个数均大于等于1，且所有的第一通信装置中的机器学习模型的输出结果的个数之和由卡尔曼滤波的类型和控制层的参数的维度确定。在该通信系统中的多个第一通信装置可以通过互相通信，确定自身的采样点。例如，若该通信系统中共有a个第一通信装置，且该a个第一通信装置构成环拓扑结构，则a-1个第一通信装置可以通过互相通信确定采样点编号时序。

在该通信系统下，第一通信装置为通信系统中分布式的中心第一通信装置时，仍可以按照上述方法300更新控制层的参数，得到更新后的控制层的参数。

应理解，第一通信装置可以通过信道向第二通信装置发送第一数据，该第一数据可以包括M组数据，若通信系统中的多个第一通信装置中的机器学习模型的输出结果的个数之和为P个，则第一通信装置可以通过信道接收的第一损失函数的个数为P个，应理解，P的值大于或等于M的值。第一通信装置可以根据所述P个第一损失函数，更新控制层的参数，得到更新后的控制层的参数。第一通信装置可以将更新后的控制层的参数通过互相通信的方式传输给其他第一通信装置。

应理解，通信系统中的多个第一通信装置采用中心式的分布式训练方法，将控制层的采样分成多个子任务，由多个第一通信装置共同完成，上述第一通信装置可作为中心的通信装置，可以接收第二通信装置发送的第一损失函数，并训练得到控制层的参数，然后下发给其他第一通信装置。

示例性地，图9示出了另一种模型训练方法900的示意性流程图。如图9所示，通信系统可以包括第一通信装置1、第一通信装置2以及第二通信装置，第一通信装置1部署有第一机器学习模型1，第一通信装置2部署有第一机器学习模型2。应理解，该通信系统中第一通信装置的个数仅仅为一个示例，第一通信装置2为分布式的中心第一通信装置仅仅为一个示例，本申请实施例对此不做限定。

如图9所示，方法900可以包括下列步骤：

S901，第一通信装置1将第一训练数据输入至第一机器学习模型1，得到第一数据1，第一机器学习模型1包括控制层的参数的采样点1，该控制层的参数的采样点1是第一通信装置1对第一机器学习模型1中控制层的参数进行采样得到的。

S902，第一通信装置2将第一训练数据输入至第一机器学习模型2，得到第一数据2，第一机器学习模型2包括控制层的参数的采样点2，该控制层的参数的采样点2是第一通信装置2对第一机器学习模型2中控制层的参数进行采样得到的。

第一机器学习模型1和第二机器学习模型2的初始参数可以相同也可以不同。

第一通信装置1和第一通信装置2可以根据预设规则确定采样点1的数量和采样点2的数量。示例性地，若第一通信装置1或第一通信装置2采用容积卡尔曼滤波训练第一机器学习模型1或第一机器学习模型2，且第一机器学习模型1和第一机器学习模型2的网络层的层数相同，均为n个，则采样点1的数量和与采样点2的数量之和为2n个，且采样点1的数量和采样点2的数量的比值可以为大于0的任意数值。

第一通信装置2可以通过对控制层的参数进行采样，得到的控制层的参数的采样点2。

S903，第一通信装置1将第一数据1通过信道发送给第二通信装置。

S904，第二通信装置通过信道接收第二数据1，第二数据1是第一数据1经过信道传输后得到的。

S905，第一通信装置2将第一数据2通过信道发送给第二通信装置.

S906，第二通信装置通过信道接收第二数据2，第二数据2是第一数据2经过信道传输后得到的。

S907，第二通信装置根据第二数据1和第二数据2，确定第一损失函数。

第二通信装置可以将第二数据1和第二数据2分别输入至第二机器学习模型，得到第三数据1和第三数据2，将第三数据1作为预测值、第一训练数据作为真实值，确定第一损失函数1，将第三数据2作为预测值、第一训练数据作为真实值，确定第一损失函数2。上述第一损失函数包括第一损失函数1和第一损失函数2。具体的实现方式与上述S505和S506相同，此处不再赘述。

S908，第二通信装置通过反馈信道向第一通信装置2发送第一损失函数。

第二通信装置构造反馈信道的过程与上述实施例相同，此处不再赘述。

S909，第一通信装置2通过反馈信道接收第二损失函数，第二损失函数是第一损失函数经过反馈信道传输后得到的。

第一通信装置2为中心第一通信装置，第一通信装置2可以接收第二通信装置通过反馈信道发送的全部的第二损失函数。

S910，第一通信装置2根据第二损失函数，得到更新后的控制层的参数。

S911，第一通信装置2向第一通信装置1发送更新后的控制层的参数。

第一通信装置2为中心第一通信装置，可以将更新后的控制层的参数发送给其他第一通信装置，即第一通信装置1。

本申请实施例提供的模型训练方法，采用中心式的分布式训练方法，将控制层的采样分成多个子任务，由两个第一通信装置共同完成，减小了非中心第一通信装置(第一通信装置1)的运算量，由中心第一通信装置向其他第一通信装置发送更新后的控制层的参数，提高了更新控制层的参数的效率。

可选地，上述第一通信装置1还可以将第一数据1发送给第一通信装置2，由第一通信装置2融合第一数据2后一起通过信道发送给第二通信装置。

可选地，若上述第一通信装置根据上述方法300的方法更新第一机器学习模型的参数后，第一通信装置还可以将更新后的第一机器学习模型的参数通过互相通信的方式传输给其他第一通信装置。

可选地，若上述第一通信装置根据上述方法300的方法确定卡尔曼增益后，第一通信装置还可以将更新后的控制层的参数和该卡尔曼增益通过互相通信的方式传输给其他第一通信装置，其他第一通信装置可以基于接收到的更新后的控制层的参数和该卡尔曼增益，基于反向梯度传播更新第一机器学习模型中第一网络层的参数，进而更新第一机器学习模型的参数。

上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

上文中结合图1至图9，详细描述了本申请实施例的模型训练方法，下面将结合10和图11，详细描述本申请实施例的模型训练的相关装置。

图10示出了本申请实施例提供的一种模型训练的相关装置1000的示意性框图。该装置1000包括：收发单元1010和处理单元1020。

在一种可能的实现方式中，该装置1000可以实现关联于上文方法实施例300中的第一通信装置执行的各个步骤或流程。

其中，该收发单元1010用于：通过信道向第二通信装置发送第一数据，第一数据是第一训练数据输入至第一机器学习模型的输出结果，第一机器学习模型包括控制层，控制层为第一机器学习模型的至少一层；通过反馈信道接收第二损失函数，反馈信道是根据观测误差确定的，第一损失函数是第二通信装置发送的第一损失函数经过反馈信道传输后得到的。该处理单元1020用于：根据第一损失函数，基于卡尔曼滤波更新控制层的参数，得到更新后的控制层的参数，更新后的控制层的参数用于更新第一机器学习模型的参数。

可选地，上述处理单元1020还用于：根据控制层的先验参数、第二损失函数和第二损失函数的误差协方差，得到卡尔曼增益；根据卡尔曼增益，更新控制层的参数，得到更新后的控制层的参数。

可选地，上述收发单元1010还用于：通过信道向第二通信装置发送第四数据，第四数据是第二训练数据输入至第一机器学习模型的输出结果；接收来自第二通信装置的指示信息，指示信息用于指示该装置停止第一机器学习模型的训练。上述处理单1020还用于：根据指示信息，停止第一机器学习模型的训练。

可选地，第一数据包括N组数据，其中，N为正整数，且N的值是根据卡尔曼滤波的类型和控制层的参数的维度确定的。

可选地，第一数据包括M组数据，其中，M为正整数，M的值是该装置与其他第一通信装置根据预设规则确定的，M与其他第一通信装置所发送的数据的个数之和是根据卡尔曼滤波的类型和控制层的参数的维度确定的。

可选地，上述收发单元1010还用于：第一通信装置向其他第一通信装置发送更新后的控制层的参数。

可选地，上述处理单元1020还用于：根据第一时间段内接收到的多个损失函数的方差，判断信道在第一时间段内的非线性程度，多个损失函数包括第二损失函数；根据信道在第一时间段内的非线性程度，确定卡尔曼滤波的类型。

可选地，第二损失函数的方差大于或等于第一阈值，信道在第一时间段内的非线性程度为强非线性；或者，第二损失函数的方差小于第一阈值，信道在第一时间段内的非线性程度为弱非线性。

可选地，信道在第一时间段内的非线性程度为强非线性，卡尔曼滤波的类型为容积卡尔曼滤波；或者，信道在第一时间段内的非线性程度为弱非线性，卡尔曼滤波的类型为扩展卡尔曼滤波。

在一种可能的实现方式中，该装置1000可以实现对应于上文方法实施例300中的第二通信装置执行的各个步骤或流程。

其中，该收发单元1010用于：通过信道接收第二数据，第二数据是第一通信装置发送的第一数据经过信道传输后得到的，第一数据是第一训练数据输入至第一机器学习模型的输出结果，第一机器学习模型包括控制层，控制层为第一机器学习模型的至少一层。该处理单元1020用于：将第二数据输入至第二机器学习模型，得到第三数据；根据第三数据和第一训练数据，确定第一损失函数，第一损失函数用于更新机器学习模型的控制层的参数。该收发单元1010还用于：通过反馈信道向第一通信装置发送第一损失函数，反馈信道是根据观测误差确定的，所述第一损失函数用于更新所述第一机器学习模型的控制层的参数。

可选地，上述处理单元1010还用于：根据第一损失函数，基于反向梯度传播更新第二机器学习模型的参数，得到更新后的第二机器学习模型。

可选地，上述收发单元1010还用于：通过信道接收第五数据，第五数据是第一通信装置发送的第四数据经过信道传输后得到的，第四数据是第二训练数据输入至第一机器学习模型的输出结果；上述处理单元1020用于：将第五数据输入至第二机器学习模型，得到第六数据；根据第六数据和第二训练数据，确定第三损失函数；上述收发单元还用于：若第三损失函数低于预设阈值，向第一通信装置发送指示信息，指示信息用于指示第一通信装置停止第一机器学习模型的训练。

这里的装置1000以功能单元的形式体现。这里的术语“单元”可以指应用特有集成电路(application specific integrated circuit，ASIC)、电子电路、用于执行一个或多个软件或固件程序的处理器(例如共享处理器、专有处理器或组处理器等)和存储器、合并逻辑电路和/或其它支持所描述的功能的合适组件。在一个可选例子中，本领域技术人员可以理解，该装置1000可以具体为上述实施例中的第一通信装置或者第二通信装置，或者，上述实施例中第一通信装置或者第二通信装置的功能可以集成在该装置中，该装置可以用于执行上述方法实施例中与第一通信装置或者第二通信装置对应的各个流程和/或步骤，为避免重复，在此不再赘述。

上述装置1000具有实现上述实施例中第一通信装置或者第二通信装置执行的相应步骤的功能；上述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。例如，上述收发单元1020可以包括发送单元和接收单元，该发送单元可以用于实现上述收发单元对应的用于执行发送动作的各个步骤和/或流程，该接收单元可以用于实现上述收发单元对应的用于执行接收动作的各个步骤和/或流程。该发送单元可以由发射器替代，该接收单元可以由接收器替代，分别执行各个方法实施例中的收发操作以及相关的处理操作。又例如，该收发单元1020可以由通信接口替代，执行各个方法实施例中的收发操作。在本申请实施例中，通信接口可以是电路、模块、总线、总线接口、收发器等可以实现通信功能的装置。应理解，上文实施例中的处理单元1010可以由处理器或处理器相关电路实现，收发单元1020可以由收发器或收发器相关电路或接口电路实现。

可选地，在上述可能设计的装置中，还可以包括存储单元，该存储单元用于存储计算机程序，处理单元1010可以从存储单元中调用并运行该计算机程序，使得装置1000执行上述方法实施例中第一通信装置或者第二通信装置的方法，本申请实施例对此不作限定。

此外，上述实施例中的单元也可以称为模块或者电路或者部件等。在本申请的实施例，图10的装置也可以是芯片或者芯片系统，例如：片上系统(system on chip，SoC)。对应地，收发单元可以是该芯片的收发电路，在此不做限定。

图11示出了本申请实施例提供的另一种模型训练的相关装置1100的示意性框图。该装置1100包括处理器1110和收发器1120。其中，处理器1110和收发器1120通过内部连接通路互相通信，该处理器1110用于执行指令，以控制该收发器1120发送信号和/或接收信号。

可选地，该装置1100还可以包括存储器1130，该存储器1130与处理器1110、收发器1120通过内部连接通路互相通信。该存储器1130用于存储指令，该处理器1110可以执行该存储器1130中存储的指令。装置1100用于实现上述方法实施例中的第一通信装置或者第二通信装置对应的各个流程和步骤。

装置1100可以具体为上述实施例中的第一通信装置或第二通信装置，也可以是芯片或者芯片系统。对应的，该收发器1120可以是该芯片的收发电路，在此不做限定。具体地，该装置1100可以用于执行上述方法实施例中与第一通信装置或第二通信装置对应的各个步骤和/或流程。可选地，该存储器1130可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器。例如，存储器还可以存储设备类型的信息。该处理器1110可以用于执行存储器中存储的指令，并且当该处理器1110执行存储器中存储的指令时，该处理器1110用于执行上述与第一通信装置或第二通信装置对应的方法实施例的各个步骤和/或流程。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

应注意，本申请实施例中的处理器可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。本申请实施例中的处理器可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

可以理解，本申请实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(dynamic RAM，DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，DR RAM)。应注意，本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

根据本申请实施例提供的方法，本申请还提供一种计算机程序产品，该计算机程序产品包括：计算机程序代码，当该计算机程序代码在计算机上运行时，使得该计算机执行上述实施例中所示的方法。

根据本申请实施例提供的方法，本申请还提供一种计算机可读存储介质，该计算机可读存储介质有程序代码，当该程序代码在计算机上运行时，使得该计算机执行上述实施例中所示的方法。

根据本申请实施例提供的方法，本申请还提供一种芯片，该芯片包括处理器，用于读取存储器中存储的指令，当该处理器执行所述指令时，使得该芯片实现上述实施例中所示的方法。

根据本申请实施例提供的方法，本申请提供一种计算机程序，当其在计算机上运行时，使得上述方法实施例中可能实现方式中的方法被执行。

本申请还提供一种通信系统，包括上述各个实施例中的第一通信装置和第二通信装置。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

一种模型训练方法，其特征在于，应用于包括第一通信装置和第二通信装置的通信系统，所述第一通信装置的个数为至少一个，所述第一通信装置部署有第一机器学习模型，所述方法包括：

所述第一通信装置通过信道向所述第二通信装置发送第一数据，所述第一数据是第一训练数据输入至所述第一机器学习模型的输出结果，所述第一机器学习模型包括控制层，所述控制层为所述第一机器学习模型的至少一层；

所述第一通信装置通过反馈信道接收第二损失函数，所述反馈信道是根据观测误差确定的，所述第二损失函数是所述第二通信装置发送的第一损失函数经过所述反馈信道传输后得到的；

所述第一通信装置根据所述第二损失函数，基于卡尔曼滤波更新所述控制层的参数，得到更新后的所述控制层的参数，所述更新后的所述控制层的参数用于更新所述第一机器学习模型的参数。
根据权利要求1所述的方法，其特征在于，所述基于卡尔曼滤波更新所述控制层的参数，得到更新后的所述控制层的参数，包括：

所述第一通信装置根据所述控制层的先验参数、所述第二损失函数和所述第二损失函数的误差协方差，得到卡尔曼增益；

所述第一通信装置根据所述卡尔曼增益，更新所述控制层的参数，得到更新后的所述控制层的参数。
根据权利要求2所述的方法，其特征在于，所述方法还包括：

所述第一通信装置根据所述更新后的所述控制层的参数和所述卡尔曼增益，基于反向梯度传播更新所述第一机器学习模型中第一网络层的参数，得到更新后的所述第一网络层的参数，所述第一网络层包括在所述控制层之前的网络层；

所述第一通信装置根据所述更新后的所述控制层的参数和所述更新后的所述第一网络层的参数，得到更新后的所述第一机器学习模型。
根据权利要求3所述的方法，其特征在于，在所述得到更新后的所述第一机器学习模型之后，所述方法还包括：

所述第一通信装置通过所述信道向所述第二通信装置发送第四数据，所述第四数据是第二训练数据输入至所述第一机器学习模型的输出结果；

所述第一通信装置接收来自所述第二通信装置的指示信息，所述指示信息用于指示所述第一通信装置停止所述第一机器学习模型的训练；

所述第一通信装置根据所述指示信息，停止所述第一机器学习模型的训练。
根据权利要求1至4中任一项所述的方法，其特征在于，所述第一数据包括N组数据，其中，N为正整数，且N的值是根据所述卡尔曼滤波的类型和所述控制层的参数的维度确定的。
根据权利要求1至4中任一项所述的方法，其特征在于，所述第一数据包括M组数据，其中，M为正整数，M的值是所述第一通信装置与其他第一通信装置根据预设规则确定的，M与所述其他第一通信装置所发送的数据的个数之和是根据所述卡尔曼滤波的类型和所述控制层的参数的维度确定的。
根据权利要求6所述的方法，其特征在于，所述方法还包括：

所述第一通信装置向所述通信系统中的其他第一通信装置发送所述更新后的所述控制层的参数。
根据权利要求1至7中任一项所述的方法，其特征在于，在所述第一通信装置通过所述信道接收第二损失函数之后，所述方法还包括：

所述第一通信装置根据第一时间段内接收到的多个损失函数的方差，判断所述信道在所述第一时间段内的非线性程度，所述多个损失函数包括所述第二损失函数；

所述第一通信装置根据所述信道在所述第一时间段内的非线性程度，确定所述卡尔曼滤波的类型。
根据权利要求8所述的方法，其特征在于，所述第二损失函数的方差大于或等于第一阈值，所述信道在所述第一时间段内的非线性程度为强非线性；或者，

所述第二损失函数的方差小于所述第一阈值，所述信道在所述第一时间段内的非线性程度为弱非线性。
根据权利要求8或9所述的方法，其特征在于，所述信道在所述第一时间段内的非线性程度为强非线性，所述卡尔曼滤波的类型为容积卡尔曼滤波；或者，

所述信道在所述第一时间段内的非线性程度为弱非线性，所述卡尔曼滤波的类型为扩展卡尔曼滤波。
一种模型训练方法，其特征在于，应用于包括第一通信装置和第二通信装置的通信系统，所述第一通信装置的个数为至少一个，所述第一通信装置部署有第一机器学习模型，所述第二通信装置部署有第二机器学习模型，所述方法包括：

所述第二通信装置通过信道接收第二数据，所述第二数据是所述第一通信装置发送的第一数据经过所述信道传输后得到的，所述第一数据是第一训练数据输入至所述第一机器学习模型的输出结果，所述第一机器学习模型包括控制层，所述控制层为所述第一机器学习模型的至少一层；

所述第二通信装置将所述第二数据输入至所述第二机器学习模型，得到第三数据；

所述第二通信装置根据所述第三数据和所述第一训练数据，确定第一损失函数；

所述第二通信装置通过反馈信道向所述第一通信装置发送所述第一损失函数，所述反馈信道是根据观测误差确定的，所述第一损失函数用于更新所述第一机器学习模型的控制层的参数。
根据权利要求11所述的方法，其特征在于，所述方法还包括：

所述第二通信装置根据所述第一损失函数，基于反向梯度传播更新所述第二机器学习模型的参数，得到更新后的所述第二机器学习模型。
根据权利要求12所述的方法，其特征在于，所述方法还包括：

所述第二通信装置通过所述信道接收第五数据，所述第五数据是所述第一通信装置发送的第四数据经过所述信道传输后得到的，所述第四数据是第二训练数据输入至所述第一机器学习模型的输出结果；

所述第二通信装置将所述第五数据输入至所述第二机器学习模型，得到第六数据；

所述第二通信装置根据所述第六数据和所述第二训练数据，确定第三损失函数；

若所述第三损失函数低于预设阈值，所述第二通信装置向所述第一通信装置发送指示信息，所述指示信息用于指示所述第一通信装置停止所述第一机器学习模型的训练。
一种模型训练的相关装置，其特征在于，包括：

收发单元，用于通过信道向第二通信装置发送第一数据，所述第一数据是第一训练数据输入至第一机器学习模型的输出结果，所述第一机器学习模型包括控制层，所述控制层为所述第一机器学习模型的至少一层；

所述收发单元，还用于通过反馈信道接收第二损失函数，所述反馈信道是根据观测误差确定的，所述第二损失函数是所述第二通信装置发送的第一损失函数经过所述反馈信道传输后得到的；

处理单元，用于根据所述第二损失函数，基于卡尔曼滤波更新所述控制层的参数，得到更新后的所述控制层的参数，所述更新后的所述控制层的参数用于更新所述第一机器学习模型的参数。
根据权利要求14所述的装置，其特征在于，所述处理单元还用于：

根据所述更新后的所述控制层的参数和卡尔曼增益，基于反向梯度传播更新所述第一机器学习模型中第一网络层的参数，得到更新后的所述第一网络层的参数，所述第一网络层的参数包括在控制层之前的网络层的参数，所述卡尔曼增益是根据所述控制层的先验参数、所述第二损失函数和所述第二损失函数的误差协方差得到的；

根据所述更新后的所述控制层的参数和所述更新后的所述第一网络层的参数，得到更新后的所述第一机器学习模型。
根据权利要求15所述的装置，其特征在于，所述收发单元还用于：

通过所述信道向所述第二通信装置发送第四数据，所述第四数据是第二训练数据输入至所述第一机器学习模型的输出结果；

接收来自所述第二通信装置的指示信息，所述指示信息用于指示停止所述第一机器学习模型的训练；

所述处理单元还用于：

根据所述指示信息，停止所述第一机器学习模型的训练。
根据权利要求14至16中任一项所述的装置，其特征在于，所述第一数据包括N组数据，其中，N为正整数，且N的值是根据所述卡尔曼滤波的类型和所述控制层的参数的维度确定的。
根据权利要求14至16中任一项所述的装置，其特征在于，所述第一数据包括M组数据，其中，M为正整数，M的值是所述装置与其他第一通信装置根据预设规则确定的，M与所述其他第一通信装置所发送的数据的个数之和是根据所述卡尔曼滤波的类型和所述控制层的参数的维度确定的。
根据权利要求18所述的装置，其特征在于，所述收发单元还用于：

向所述其他第一通信装置发送所述更新后的所述控制层的参数。
根据权利要求14至19中任一项所述的装置，其特征在于，所述收发单元还用于：

根据第一时间段内接收到的多个损失函数的方差，判断所述信道在所述第一时间段内的非线性程度，所述多个损失函数包括所述第二损失函数；

所述处理单元还用于：

根据所述信道在所述第一时间段内的非线性程度，确定所述卡尔曼滤波的类型。
根据权利要求20所述的装置，其特征在于，所述第二损失函数的方差大于或等于第一阈值，所述信道在所述第一时间段内的非线性程度为强非线性；或者，

所述第二损失函数的方差小于所述第一阈值，所述信道在所述第一时间段内的非线性程度为弱非线性。
根据权利要求19或21所述的装置，其特征在于，所述信道在所述第一时间段内的非线性程度为强非线性，所述卡尔曼滤波的类型为容积卡尔曼滤波；或者，

所述信道在所述第一时间段内的非线性程度为弱非线性，所述卡尔曼滤波的类型为扩展卡尔曼滤波。
一种模型训练的相关装置，其特征在于，包括：

收发单元，用于通过信道接收第二数据，所述第二数据是第一通信装置发送的第一数据经过所述信道传输后得到的，所述第一数据是第一训练数据输入至第一机器学习模型的输出结果，所述第一机器学习模型包括控制层，所述控制层为所述第一机器学习模型的至少一层；

处理单元，用于将所述第二数据输入至第二机器学习模型，得到第三数据；根据所述第三数据和所述第一训练数据，确定第一损失函数；

所述收发单元还用于：通过反馈信道向所述第一通信装置发送所述第一损失函数，所述反馈信道是根据观测误差确定的，所述第一损失函数用于更新所述第一机器学习模型的控制层的参数。
根据权利要求23所述的装置，其特征在于，所述处理单元还用于：

根据所述第一损失函数，基于反向梯度传播更新所述第二机器学习模型的参数，得到更新后的所述第二机器学习模型。
根据权利要求24所述的装置，其特征在于，所述收发单元还用于：

通过所述信道接收第五数据，所述第五数据是所述第一通信装置发送的第四数据经过所述信道传输后得到的，所述第四数据是第二训练数据输入至所述第一机器学习模型的输出结果；

所述处理单元还用于：

将所述第五数据输入至所述第二机器学习模型，得到第六数据；

根据所述第六数据和所述第二训练数据，确定第三损失函数；

所述收发单元还用于：

若所述第三损失函数低于预设阈值，向所述第一通信装置发送指示信息，所述指示信息用于指示所述第一通信装置停止所述第一机器学习模型的训练。
一种通信装置，其特征在于，包括：处理器和收发器，所述收发器用于和其它装置通信，所述处理器与存储器耦合，所述存储器用于存储计算机程序，当所述处理器调用所述计算机程序时，使得所述装置执行权利要求1至10中任一项所述的方法或者权利要求11至13中任一项所述的方法。
一种芯片系统，其特征在于，包括：处理器，用于从存储器中调用并运行计算机程序，使得安装有所述芯片系统的通信设备执行权利要求1至10中任一项所述的方法或者权利要求11至13中任一项所述的方法。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，当所述计算机程序在计算机上运行时，使得权利要求1至10中任一项所述的方法或者权利要求11至13中任一项所述的方法被执行。
一种计算机程序产品，其特征在于，所述计算机程序产品包括指令，当所述指令被执行时，使得权利要求1至10中任一项所述的方法或者权利要求11至13中任一项所述的方法被执行。
一种计算机程序，其特征在于，当所述计算机程序在计算机上运行时，使得权利要求1至10中任一项所述的方法或者权利要求11至13中任一项所述的方法被执行。
一种通信系统，其特征在于，包括：权利要求14至22中任一项所述的模型训练的相关装置和权利要求23至25中任一项所述的模型训练的相关装置。