WO2023280065A1

WO2023280065A1 - 一种面向跨模态通信系统的图像重建方法及装置

Info

Publication number: WO2023280065A1
Application number: PCT/CN2022/103303
Authority: WO
Inventors: 周亮; 魏昕; 章萌; 陈建新; 高子涵
Original assignee: 南京邮电大学
Priority date: 2021-07-09
Filing date: 2022-07-01
Publication date: 2023-01-12
Also published as: US11748919B2; CN113628294A; CN113628294B; US20230196633A1

Abstract

一种面向跨模态通信系统的图像重建方法和装置，所述方法利用跨模态通信系统中接收端所接收到完整触觉信号对传输过程中所存在的缺失图像进行重建，同时结合注意力机制构造跨模态交互网络，解决传统生成模型只能训练成对样本的局限性。该方法充分利用不同模态数据间的语义相关性，针对未配对数据实现触觉信号到图像的跨模态生成，克服跨模态通信系统中用于实际的训练触觉信号—图像数据难以成对采集的问题，显著提高了生成图像的质量和类别精度。

Description

一种面向跨模态通信系统的图像重建方法及装置

技术领域

本发明涉及跨模态图像生成领域，特别是一种面向跨模态通信系统的图像重建方法及装置。

背景技术

跨模态通信是一种以视觉、音频、触觉信号协调传输和联合处理为目标的新型通信技术，支持跨模态多媒体服务，具有多维度融合、沉浸式感官体验更丰富等特点。然而，在跨模态通信过程中，往往存在传输容量有限及传输干扰等问题，造成终端接收图像数据模糊甚至全部丢失。

针对传输过程中各种干扰因素，相关学者提出了一系列图像恢复的方法。比如，为了去除图像恢复中的脉冲噪声，提出基于全变分的稀疏优化方法；为了解决传输中的丢包现象，利用光流算法的信息与邻近的可用帧进行恢复。上述图像恢复方法主要是在视觉模态内借助其他完整的图像或视频帧进行恢复。然而，在多模态应用中，多模态流存在共存和竞争现象，可能会导致视频流在传输过程中严重受损或丢失。因此，上述方法不适用于跨模态传输。

由于在跨模态通信中，视觉信号和触觉信号并存，传递的内容在模态间具有内在的语义一致性。并且与视觉图像相比，触觉信号通常具有更高的优先级，接收端接收到的触觉信号的完整性更好。因此，可以利用触觉信号和内在语义信息进行缺失或受损的视觉图像生成，即触觉到图像的跨模态生成。

近年来，跨模态信号处理技术也成为一项热门的研究，其思想是挖掘文本、声音、视频等形式之间的语义，以执行检索和重构等任务。但这些方法要求成对数据作为训练集，不适用于难以采集成对数据的实际应用场景，因此设计更好的方法是相关工作者亟需解决的难题。

发明内容

本发明所要解决的技术问题是克服现有技术的不足而提供一种面向跨模态通信系统的图像重建方法及装置，该技术能够实现针对未配对数据的触觉到图像的跨模态生成任务。

本发明为解决上述技术问题采用以下技术方案：

根据本发明提出的一种面向跨模态通信系统的图像重建方法，包括以下步骤：

步骤1、选取跨模态通信系统接收端所接收到的触觉信号和图像数据对，将触觉信号和图像数据对作为训练集；训练集中的每一个触觉信号、图像数据对中的图像数据都带有所属类别的标签信息；

步骤2、建立基于触觉信号的跨模态图像生成模型，该模型包括图像特征提取模块、基于注意力机制的跨模态语义学习模块和对抗式图像生成模块；其中，

图像特征提取模块包括卷积神经网络CNN和第一类别对抗网络，用于对训练集中图像数据进行特征提取，得到图像特征；

跨模态语义学习模块包括一个编码器、基于注意力机制的语义融合网络和第二类别对抗网络，编码器对训练集中的触觉信号进行特征提取，得到触觉特征；而后，触觉特征与图像特征一起输入基于注意力机制的语义融合网络，该网络在与该图像特征具有同标签的触觉特征之间进行相似度计算并经过sigmoid函数的操作，获得与当前图像特征所对应的各触觉特征的权重向量，再基于权重向量对各触觉特征进行加权求和，得到与当前图像特征最为相似的合成触觉特征；接着，第二类别对抗网络在对抗学习的作用下对合成触觉特征进行强化，保持触觉信号的类别特征和分布特征；

对抗式图像生成模块包括一个生成对抗网络，用于接收到强化后的合成触觉特征后，输出与该合成触觉特征具有同标签的生成图像；

步骤3、对基于触觉信号的跨模态图像生成模型进行训练，根据图像特征提取模块计算图像特征的模态内损失，根据基于注意力机制的跨模态语义学习模块计算合成触觉特征的模态内损失、合成触觉特征和图像特征之间的模间损失，根据对抗式图像生成模块并结合均方误差计算生成图像的对抗生成损失；将这些计算得到的损失用于更新跨模态图像生成模型的参数；当模型的参数收敛后，保存此时的最优跨模态图像生成模型及参数；

步骤4、在训练完成后，将跨模态通信系统接收端接收到的触觉信号输入训练好的上述跨模态图像生成模型，输出为目标图像。

作为本发明所述的一种面向跨模态通信系统的图像重建方法进一步优化方案，步骤2中图像数据进行特征提取包括以下步骤：

(2-1)图像数据V经过卷积神经网络CNN获得图像特征v′ ^(f)，CNN包括多个卷积层，每层卷积层后面连接一个池化层；

(2-2)为v′ ^(f)构建第一类别对抗网络，该第一类别对抗网络包括网络参数为θ _v的类别标签预测器f _v(·)和网络参数为α的类别标签鉴别器D ₁，其中f _v(·)由多个全连接层和一个softmax层组成，f _v(·)的输入为图像特征v′ ^(f)，f _v(·)的输出为所预测的类别标签v ^(c)＝f _v(v′ ^(f)；θ _v)；类别标签鉴别器D ₁由多个依次连接的全连接层组成，最后一层维度为1，D ₁用于判别v ^(c)和图像特征v′ ^(f)对应的真实标签y _v；通过f _v(·)与D ₁对抗训练，对v′ ^(f)不断进行优化，最终提取具有类别特性的图像特征

其中，

为第i个图像数据的图像特征，N为图像数据总量。

作为本发明所述的一种面向跨模态通信系统的图像重建方法进一步优化方案，第一类别对抗网络的对抗损失如下：

其中，

为类别标签鉴别器D ₁的对抗损失函数，

和

指对*求期望，D ₁(y _v；α)指类别标签鉴别器对真实标签y _v的判别结果，D ₁(v ^(c)；α)指类别标签鉴别器对类别标签预测器输出的v ^(c)的判别结果，

为类别标签预测器f _v(·)的对抗损失函数。

作为本发明所述的一种面向跨模态通信系统的图像重建方法进一步优化方案，步骤2中基于注意力机制的跨模态语义学习模块的学习过程具体如下：

(3-1)触觉信号经过编码器获得触觉特征

其中，

为第j个触觉信号的触觉特征，N为触觉信号的数据总量，编码器包括门循环单元GRU和多个全连接层；

(3-2)基于注意力机制的语义融合网络匹配触觉特征和(2-2)提取的v ^(f)，每一个

作为查询向量，筛选出与

所属同一类别的合成触觉特征

和

形成触觉-图像特征对，那么与v ^(f)对应的合成触觉特征为

具体如下：

3-2-1、将

和触觉特征h ^(f)输入基于注意力机制的语义融合网络，输出触觉的隐藏层表示向量

为第j个触觉特征

的隐藏层表示向量，其中，隐藏层为单层感知机结构，激活函数为Tanh()函数；具体过程如下：

其中，w和b是基于注意力机制的语义融合网络中隐藏层的网络参数；

3-2-2、计算

与

的皮尔逊相关系数，作为相似度：

其中，Sim _i,j为

与

的相似度，

分别为

与

的类别标签，||·|| ₁为L1范数；I _i,j是一个评分函数，用于减少触觉特征的冗余搜索和计算；

选择与

具有相同类别标签的触觉特征作为参与计算相似度Sim _i,j的触觉候选特征；

3-2-3、使用softmax()函数对相似度Sim _i,j进行归一化处理，得到注意力权重系数a _i,j；再对触觉候选特征进行加权求和，得到与

所属同一类别的合成触觉特征

a _i,j＝softmax(Sim _i,j)

(3-3)利用配对模态间的语义信息约束图像特征和触觉特征，具体地，对所有图像特征与触觉特征计算模间损失目标函数：

其中，L _cro为图像特征与触觉特征的模间损失，

为第j个不与

配对的合成触觉特征，δ为限制

与

差距大小的阈值，||·|| ₂为L2范数；

(3-4)为

构建第二类别对抗网络，该第二类别对抗包括网络参数为θ _h的类别标签预测器f _h(·)和网络参数为β的类别标签鉴别器D ₂，其中类别标签预测器f _h(·)包括多个全连接层和一个softmax层，输入为

输出为所预测的

的类别标签

类别标签鉴别器D ₂由多个全连接层依次连接组成，最后一层维度为1，D ₂用于判别

和

对应的真实标签y _h的真假；通过类别标签预测器f _h(·)与类别标签鉴别器D ₂对抗训练，对

不断进行优化，最终使得合成触觉特征

具有类别特性。

作为本发明所述的一种面向跨模态通信系统的图像重建方法进一步优化方案，第二类别对抗网络的对抗损失如下：

其中，

为类别标签鉴别器D ₂的对抗损失函数，

和

指对*求期望，D ₂(y _h；β)指类别标签鉴别器D ₂对真实标签y _h的判别结果，β为类别标签鉴别器D ₂的网络参数，

指类别标签鉴别器D ₂对类别标签预测器输出的

的判别结果，

为类别标签预测器f _h(·)的对抗损失函数。

作为本发明所述的一种面向跨模态通信系统的图像重建方法进一步优化方案，步骤2中对抗式图像生成模块的学习过程包括以下步骤：

(4-1)采用条件生成对抗网络实现跨模态图像生成；具体地，生成对抗网络包括网络参数为η的图像生成器G和网络参数为γ的图像鉴别器D ₃，将

输入图像生成器G，输出对应的生成图像

G(*)为一种描述生成器输出生成图像的过程的函数，并将

与真实图像v组合输入图像鉴别器D ₃；图像鉴别器D ₃辨别所生成图像组

和真实图像组(v,v)的真假；

(4-2)结合重构损失与生成对抗网络的对抗生成损失函数来拟合数据分布；最终，图像生成器G的损失函数为：

其中，L _G为图像生成器G的生成损失，E[*]为期望。

作为本发明所述的一种面向跨模态通信系统的图像重建方法进一步优化方案，(4-1)中，生成对抗网络的对抗生成损失如下：

其中，L(G,D ₃)为图像生成器G和图像鉴别器D ₃的对抗损失，E _v[*]和

指对*求期望，D ₃(v,v；γ)为图像鉴别器D ₃对真实图像组(v,v)的判别结果，

为图像鉴别器D ₃对生成图像组

的判别结果，γ为图像鉴别器D ₃的网络参数。

作为本发明所述的一种面向跨模态通信系统的图像重建方法进一步优化方案，步骤3中所述的基于触觉信号的跨模态图像生成模型训练过程包括以下步骤：

(5-1)由步骤1获取训练集：

其中，V，H分别为图像和触觉信号的训练数据，v _i为第i个图像数据，

为v _i对应的类别标签，h _i为第i个触觉信号，

为h _i对应的类别标签；

(5-2)初始化基于触觉信号的跨模态图像生成模型的网络参数{θ _v,α},{θ _h,η,(w,b),β,γ}，并导入各模态数据的特征提取网络的预训练模型参数，模态数据是指触觉信号数据或图像数据；各模态数据的特征提取网络指编码器和图像特征提取模块中的CNN；

(5-3)利用随机梯度下降法最小化损失函数，迭代训练基于触觉信号的跨模态图像生成模型，直到收敛或迭代次数达到规定的最大次数，最大迭代次数为预设的：

步骤A、设置D ₁,D ₂,D ₃的学习率μ ₁和G的学习率μ ₂，迭代次数r＝1；

步骤B、基于梯度下降法，从目标的负梯度方向对各个模块网络的参数进行更新：

其中，

为第一类别对抗网络的对抗损失，

为第二类别对抗网络的对抗损失，L _cro(*)为图像特征与触觉特征的模间损失，L _G(*)为图像生成器G的损失函数；θ _v ^r+1,θ _h ^r+1,(w ^r+1,b ^r+1),α ^r+1,β ^r+1,γ ^r+1,η ^r+1和θ _v ^r,θ _h ^r,(w ^r,b ^r),α ^r,β ^r,γ ^r,η ^r分别为第r+1和第r次迭代后的类别标签预测器f _v(·)，类别标签预测器f _h(·)，基于注意力机制的语义融合网络的隐藏层参数，类别标签鉴别器D ₁，类别标签鉴别器D ₂，图像鉴别器D ₃和图像生成器G的网络参数集合；隐藏层参数包括权重和偏差；

为导数；

步骤C、当迭代收敛或迭代次数达到规定的最大次数，输出最优对抗式图像生成模块；否则r＝r+1,重复步骤B。

作为本发明所述的一种面向跨模态通信系统的图像重建方法进一步优化方案，步骤4中所述的目标图像的生成过程包括以下步骤：

(6-1)跨模态通信系统接收端接收到的触觉信号

为：

其中，

分别为第k个触觉数据及其类别标签，M为待生成的目标图像总量；

(6-2)将

中的触觉数据输入编码器，获得触觉特征

再将其输入训练好的最优对抗式图像生成模块，输出即为生成的目标图像

具体过程如下：

一种面向跨模态通信系统的图像重建装置，包括：

模型建立模块，用于获取图像数据和触觉信号，并建立基于触觉信号的跨模态图像生成模型；

模型分解模块，用于将跨模态图像生成模型分解为图像特征提取模块、基于注意力机制的跨模态语义学习模块和对抗式图像生成模块，其中，所述图像特征提取模块包含预训练参数θ _v,α，用于提取图像数据特征；基于注意力机制的跨模态语义学习模块包含网络参数θ _h,(w,b),β，用于图像特征与触觉特征的配对及语义融合；对抗式图像生成模块包含网络参数η,γ，用于触觉特征生成对应图像；

模型训练求解模块，用于求解所述基于触觉信号的跨模态图像生成模型，得到结果，并在求解过程中自适应更新模型网络参数；

目标图像获得重建模块，用于获取完整的触觉信号特征，利用对抗式图像生成模块，得到对应的图像，从而恢复存在损坏、丢失、延迟到达问题的图像数据。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

(1)实现针对未配对数据的触觉到图像的跨模态生成任务，有效解决了跨模态通信中视觉信号延时或丢包导致地不完整问题，提高用户的沉浸式体验；

(2)这种方法能够挖掘视觉模态和触觉模态间的语义相关性，构造跨模态公共子空间，从而弥补异构数据间的鸿沟，同时设计注意力交互网络，使得生成模型能够训练未配对的异构数据并提高生成图像的质量和类别精确度。

附图说明

图1为实施例提供的电子设备的方框示意图。

图2为本发明方法的具体实现流程图。

图3为实施例的跨模态图像生成模型结构示意图。

图4为实施例的注意力网络结构示意图。

图5为实施例中验证模型生成图像性能的结果图。

图6为实施例中验证模型收敛性能的结果图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图及具体实施例对本发明进行详细描述。

参照图2，一种面向跨模态通信系统的图像重建方法及装置，包括如下步骤：

步骤2、建立基于触觉信号的跨模态图像生成模型，如图3所示，该模型包括图像特征提取模块、基于注意力机制的跨模态语义学习模块和对抗式图像生成模块；其中，

图像特征提取模块包括卷积神经网络(Convolutional Neural Networks,CNN)和第一类别对抗网络，用于对训练集中图像数据进行特征提取，得到图像特征；

本例中，步骤3所述的图像特征提取的实现过程如下：

(1)大小为128×128的图像V经过卷积神经网络(CNN)获得图像特征v′ ^(f)，其中，N为图像数据总量，CNN由四个卷积层和池化层组成，卷积核数分别为512，256，128，64，卷积核大小为5×5。

(2)为图像特征v′ ^(f)构建网络参数为θ _v的类别标签预测器f(·)和网络参数为α的判别器D ₁，其中预测器由2层全连接层和一个softmax层组成，输出维度分别为1024，128，8，输出预测的类别标签v ^(c)＝f(v′ ^(f)；θ _v)；判别器D ₁由四层全连接层组成，维度分别为512，1024，512，1，最后输出一个(0，1)范围内的数表示输入特征为真实特征的概率，用于判别v ^(c)和真实标签y。通过预测器与判别器D ₁对抗训练，提取的图像特征将具有类别特性。对抗损失如下：

本例中，步骤3所述的基于注意力机制的跨模态语义学习的实现过程如下：

(1)触觉信号H经过编码器获得触觉初始特征

其中，N为触觉信号的数据总量，编码器由门循环单元(Gated Recurrent Unit，GRU)和两层全连接层组成。GRU有一个重置门和更新门，设置单元数为256，输出维度为64，全连接层输出维度分别为1024，64。

(2)如图4，基于注意力交互网络匹配触觉特征和所提取出的图像特征，每一个

作为查询向量，筛选出与其所属同一类别的合成触觉特征，形成触觉-图像特征对，具体如下：

3-2-1、将

为第j个触觉特征

3-2-2、计算

与

的皮尔逊相关系数，作为相似度：

其中，Sim _i,j为

与

的相似度，

分别为

与

选择与

所属同一类别的合成触觉特征

a _i,j＝softmax(Sim _i,j)

(3)利用配对模态间的语义信息约束视觉和触觉特征，要求不同模态间配对特征向量的距离小，不配对的特征向量之间的距离大。具体地，对所有图像特征与触觉特征计算模间损失目标函数：

其中，L _cro为图像特征与触觉特征的模间损失，

为第j个不与

配对的合成触觉特征，δ为限制

与

差距大小的阈值，||·|| ₂为L2范数；

(4)为

输出为所预测的

的类别标签

输出维度分别为1024，128，8；判别器D ₂由四层全连接层组成，维度分别为512，1024，512，1，最后输出一个(0，1)范围内的数表示输入特征为真实特征的概率，用于判别

和真实标签y的真假；类别标签鉴别器D ₂由多个全连接层依次连接组成，最后一层维度为1，D ₂用于判别

和

不断进行优化，最终使得合成触觉特征

具有类别特性。

第二类别对抗网络的对抗损失如下：

其中，

为类别标签鉴别器D ₂的对抗损失函数，

和

指类别标签鉴别器D ₂对类别标签预测器输出的

的判别结果，

为类别标签预测器f _h(·)的对抗损失函数。

本例中，最小化配对视、触觉模态特征向量的距离，可以增强公共空间上两者的语义相关性，解决模态间的异构问题；最小化各模态中同类别特征向量的距离，可以使映射前后样本的类别与分布信息保持一致。

本例中，步骤3所述的结合均方误差构造对抗式图像生成的实现过程如下：

(1)采用条件生成对抗网络实现跨模态图像生成；具体地，将合成触觉特征

输入网络参数为η的生成器G，输出对应的生成图像

并将其与真实图像v组合输入网络参数为γ的判别器D ₃；图像判别器D ₃辨别所生成图像组

和真实图像组(v,v)的真假。具体过程如下：

生成对抗网络的对抗生成损失如下：

为图像鉴别器D ₃对生成图像组

的判别结果，γ为图像鉴别器D ₃的网络参数。

在这个模块中，图像生成器G，包含2个全连接层和四个反卷积层，全连接层的维度分别为128，1024，反卷积的数量为64，128，256，512，输出为128x128的彩色图像

图像判别器D ₃包含四个卷积层和2个全连接层，卷积层输出维度为512，256，128，64，卷积核大小为5x5，全连接层的维度为1024，1，最后输出一个(0，1)范围内的数表示输入特征为真实特征的概率。

(2)为了对生成图像和真实图像同时进行全局结构级别与像素级别的约束，结合重构损失与生成对抗网络的对抗生成损失函数来更好地拟合数据分布。最终，图像生成器G的损失函数为：

其中，L _G为图像生成器G的生成损失，E[*]为期望。

本例中，步骤3所述的模型训练的实现过程如下：

(5-1)由步骤1获取训练集：

为v _i对应的类别标签，h _i为第i个触觉信号，

为h _i对应的类别标签；

其中，

为第一类别对抗网络的对抗损失，

为导数；

本例中，步骤4中所述的当接收到的图像数据存在损坏、丢失、延迟到达时，目标图像的生成过程如下：

(6-1)跨模态通信系统接收端接收到的触觉信号

为：

其中，

(6-2)将

中的触觉数据输入编码器，获得触觉特征

具体过程如下：

下面通过具体实施例对本发明的技术方案做进一步阐述：

(1)仿真条件

本发明是在中央处理器为Intel(R)Core(TM)i3-21203.30GHZ、内存6G、windows10操作系统上，运用Python软件进行的实验仿真。

(2)仿真内容

本发明的方法与现有的跨模态图像生成方法进行了对比，作为对比的方法如下：

现有方法一：深度规范化相关自动编码器(Deep canonically correlated auto-encoder,DCCAE)，最初提出用于从多视图图像数据中学习深度表示，由两个自动编码器组成，以典型的相关性和重构误差为约束条件进行训练。

现有方法二：条件对抗式生成网络(Conditional Generative Adversarial Network,CGAN)，可以利用类别标签辅助触觉信号生成图像。

现有方法三：ACGAN(Auxiliary Classifier Generative Adversarial Network)是一种带有辅助分类器的条件图像合成方法。其中，分类器的输入被设置为噪声和触觉特征的组合。

现有方法四：AE-GAN(Auto Encoding-Generative Adversarial Network)，将自动编码器与对抗式生成网络相结合，用于图像恢复。

(3)仿真结果

仿真实验中分别给出了DCCAE、CGAN、ACGAN、AE-GAN和本发明分别在单标签数据集LMT下所对应的MiroF1、MacroF1、ACC-SVM指标，指标越大，说明图像类别准确度越高，具体如表1所示。

表1 LMT数据集下以触觉生成图像的各类指标

结合图5的生成结果和表1的评估结果观察可知。我们的方法生成的图像类别准确度最高。这表明我们提出的模型优于其他模型，对于相同的生成目标，我们的模型在图像质量上具有最高清晰度，在语义上具有最高的准确度，同时也验证了跨模态配对网络在模型中的重要程度。

仿真实验中，画出了跨模态特征向量长度为64位、128位、256位、512位的IS曲线来评估跨模态图像生成模型的收敛能力，如图6。其中，IS曲线是指Inception Score指标，计算公式如下：

其中，y指感知网络对图像所预测的标签，当边缘分布p(y)与条件分布的散度越大，说明该图像所包含的内容越丰富，图像质量越好。

图1为实施例提供的电子设备的方框示意图，上述方法可以加载在图1提供的电子设备中。

简而言之，本发明公开的基于注意力机制的跨模态材料纹理图像生成方法，主要是用于大规模未配对数据集中触觉生成图像的应用，同时结合注意力机制构造跨模态交互网络，解决传统生成模型只能训练成对样本的局限性，采用普遍使用的Inception Score作为性能评价指标。本发明不仅考虑了样本的模态内相似性，还考虑了不同模态间的相似性，为以触觉生成对应图像的准确性提供了保障。其实现步骤为：(1)选取跨模态数据集(2)设置模型(3)训练模型，包括对触觉加速度和纹理图像样本进行特征提取；为触觉特征和图像特征构造注意力交互网络，将触觉特征映射到跨模态公共子空间，根据类别与分布对各模态的公共表示进行强配对；利用模态间与模态内相似性的损失函数进行跨分布对齐，同时保持各模态的类别一致性；结合均方误差构造对抗式生成模型；采用交替迭代方法训练网络；(4)图像生成。本发明利用注意机制网络，根据不同模态数据间的语义相关性，实现图像、触觉模态数据的强配对和语义融合，因而触觉生成对应图像的质量更优、类别精度更高，可用于3D游戏等多模态服务，提高用户的沉浸式体验。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围内。

Claims

一种面向跨模态通信系统的图像重建方法，其特征在于，包括以下步骤：

步骤1、选取跨模态通信系统接收端所接收到的触觉信号和图像数据对，将触觉信号和图像数据对作为训练集；训练集中的每一个触觉信号、图像数据对中的图像数据都带有所属类别的标签信息；

步骤2、建立基于触觉信号的跨模态图像生成模型，该模型包括图像特征提取模块、基于注意力机制的跨模态语义学习模块和对抗式图像生成模块；其中，

图像特征提取模块包括卷积神经网络CNN和第一类别对抗网络，用于对训练集中图像数据进行特征提取，得到图像特征；

跨模态语义学习模块包括一个编码器、基于注意力机制的语义融合网络和第二类别对抗网络，编码器对训练集中的触觉信号进行特征提取，得到触觉特征；而后，触觉特征与图像特征一起输入基于注意力机制的语义融合网络，该网络在与该图像特征具有同标签的触觉特征之间进行相似度计算并经过sigmoid函数的操作，获得与当前图像特征所对应的各触觉特征的权重向量，再基于权重向量对各触觉特征进行加权求和，得到与当前图像特征最为相似的合成触觉特征；接着，第二类别对抗网络在对抗学习的作用下对合成触觉特征进行强化，保持触觉信号的类别特征和分布特征；

对抗式图像生成模块包括一个生成对抗网络，用于接收到强化后的合成触觉特征后，输出与该合成触觉特征具有同标签的生成图像；

步骤3、对基于触觉信号的跨模态图像生成模型进行训练，根据图像特征提取模块计算图像特征的模态内损失，根据基于注意力机制的跨模态语义学习模块计算合成触觉特征的模态内损失、合成触觉特征和图像特征之间的模间损失，根据对抗式图像生成模块并结合均方误差计算生成图像的对抗生成损失；将这些计算得到的损失用于更新跨模态图像生成模型的参数；当模型的参数收敛后，保存此时的最优跨模态图像生成模型及参数；

步骤4、在训练完成后，将跨模态通信系统接收端接收到的触觉信号输入训练好的上述跨模态图像生成模型，输出为目标图像。
根据权利要求1所述的一种面向跨模态通信系统的图像重建方法，其特征在于，步骤2中图像数据进行特征提取包括以下步骤：

(2-1)图像数据V经过卷积神经网络CNN获得图像特征v′ ^(f)，CNN包括多个卷积层，每层卷积层后面连接一个池化层；

(2-2)为v′ ^(f)构建第一类别对抗网络，该第一类别对抗网络包括网络参数为θ _v的类别标签预测器f _v(·)和网络参数为α的类别标签鉴别器D ₁，其中f _v(·)由多个全连接层和一个softmax层组成，f _v(·)的输入为图像特征v′ ^(f)，f _v(·)的输出为所预测的类别标签v ^(c)＝f _v(v′ ^(f)；θ _v)；类别标签鉴别器D ₁由多个依次连接的全连接层组成，最后一层维度为1，D ₁用于判别v ^(c)和图像特征v′ ^(f)对应的真实标签y _v；通过f _v(·)与D ₁对抗训练，对v′ ^(f)不断进行优化，最终提取具有类别特性的图像特征
其中，
为第i个图像数据的图像特征，N为图像数据总量。
根据权利要求2所述的一种面向跨模态通信系统的图像重建方法，其特征在于，第一类别对抗网络的对抗损失如下：

其中，
为类别标签鉴别器D ₁的对抗损失函数，
和
指对*求期望，D ₁(y _v；α)指类别标签鉴别器对真实标签y _v的判别结果，D ₁(v ^(c)；α)指类别标签鉴别器对类别标签预测器输出的v ^(c)的判别结果，
为类别标签预测器f _v(·)的对抗损失函数。
根据权利要求2所述的一种面向跨模态通信系统的图像重建方法，其特征在于，步骤2中基于注意力机制的跨模态语义学习模块的学习过程具体如下：

(3-1)触觉信号经过编码器获得触觉特征
其中，
为第j个触觉信号的触觉特征，N为触觉信号的数据总量，编码器包括门循环单元GRU和多个全连接层；

(3-2)基于注意力机制的语义融合网络匹配触觉特征和(2-2)提取的v ^(f)，每一个
作为查询向量，筛选出与
所属同一类别的合成触觉特征
和
形成触觉-图像特征对，那么与v ^(f)对应的合成触觉特征为
具体如下：

3-2-1、将
和触觉特征h ^(f)输入基于注意力机制的语义融合网络，输出触觉的隐藏层表示向量
为第j个触觉特征
的隐藏层表示向量，其中，隐藏层为单层感知机结构，激活函数为Tanh()函数；具体过程如下：

其中，w和b是基于注意力机制的语义融合网络中隐藏层的网络参数；

3-2-2、计算
与
的皮尔逊相关系数，作为相似度：

其中，Sim _i,j为
与
的相似度，
分别为
与
的类别标签，||·|| ₁为L1范数；I _i,j是一个评分函数，用于减少触觉特征的冗余搜索和计算；

选择与
具有相同类别标签的触觉特征作为参与计算相似度Sim _i,j的触觉候选特征；

3-2-3、使用softmax()函数对相似度Sim _i,j进行归一化处理，得到注意力权重系数a _i,j；再对触觉候选特征进行加权求和，得到与
所属同一类别的合成触觉特征

a _i,j＝softmax(Sim _i,j)

(3-3)利用配对模态间的语义信息约束图像特征和触觉特征，具体地，对所有图像特征与触觉特征计算模间损失目标函数：

其中，L _cro为图像特征与触觉特征的模间损失，
为第j个不与
配对的合成触觉特征，δ为限制
与
差距大小的阈值，||·|| ₂为L2范数；

(3-4)为
构建第二类别对抗网络，该第二类别对抗包括网络参数为θ _h的类别标签预测器f _h(·)和网络参数为β的类别标签鉴别器D ₂，其中类别标签预测器f _h(·)包括多个全连接层和一个softmax层，输入为
输出为所预测的
的类别标签
类别标签鉴别器D ₂由多个全连接层依次连接组成，最后一层维度为1，D ₂用于判别
和
对应的真实标签y _h的真假；通过类别标签预测器f _h(·)与类别标签鉴别器D ₂对抗训练，对
不断进行优化，最终使得合成触觉特征
具有类别特性。
根据权利要求4所述的一种面向跨模态通信系统的图像重建方法，其特征在于，第二类别对抗网络的对抗损失如下：

其中，
为类别标签鉴别器D ₂的对抗损失函数，
和
指对*求期望，D ₂(y _h；β)指类别标签鉴别器D ₂对真实标签y _h的判别结果，β为类别标签鉴别器D ₂的网络参数，
指类别标签鉴别器D ₂对类别标签预测器输出的
的判别结果，
为类别标签预测器f _h(·)的对抗损失函数。
根据权利要求1所述的一种面向跨模态通信系统的图像重建方法，其特征在于，步骤2中对抗式图像生成模块的学习过程包括以下步骤：

(4-1)采用条件生成对抗网络实现跨模态图像生成；具体地，生成对抗网络包括网络参数为η的图像生成器G和网络参数为γ的图像鉴别器D ₃，将
输入图像生成器G，输出对应的生成图像
G(*)为一种描述生成器输出生成图像的过程的函数，并将
与真实图像v组合输入图像鉴别器D ₃；图像鉴别器D ₃辨别所生成图像组
和真实图像组(v,v)的真假；

(4-2)结合重构损失与生成对抗网络的对抗生成损失函数来拟合数据分布；最终，图像生成器G的损失函数为：

其中，L _G为图像生成器G的生成损失，E[*]为期望。
根据权利要求6所述的一种面向跨模态通信系统的图像重建方法，其特征在于，(4-1)中，生成对抗网络的对抗生成损失如下：

其中，L(G,D ₃)为图像生成器G和图像鉴别器D ₃的对抗损失，E _v[*]和
指对*求期望，D ₃(v,v；γ)为图像鉴别器D ₃对真实图像组(v,v)的判别结果，
为图像鉴别器D ₃对生成图像组
的判别结果，γ为图像鉴别器D ₃的网络参数。
根据权利要求1所述的一种面向跨模态通信系统的图像重建方法，其特征在于，步骤3中所述的基于触觉信号的跨模态图像生成模型训练过程包括以下步骤：

(5-1)由步骤1获取训练集：

其中，V，H分别为图像和触觉信号的训练数据，v _i为第i个图像数据，
为v _i对应的类别标签，h _i为第i个触觉信号，
为h _i对应的类别标签；

(5-2)初始化基于触觉信号的跨模态图像生成模型的网络参数{θ _v,α},{θ _h,η,(w,b),β,γ}，并导入各模态数据的特征提取网络的预训练模型参数，模态数据是指触觉信号数据或图像数据；各模态数据的特征提取网络指编码器和图像特征提取模块中的CNN；

(5-3)利用随机梯度下降法最小化损失函数，迭代训练基于触觉信号的跨模态图像生成模型，直到收敛或迭代次数达到规定的最大次数，最大迭代次数为预设的：

步骤A、设置D ₁,D ₂,D ₃的学习率μ ₁和G的学习率μ ₂，迭代次数r＝1；

步骤B、基于梯度下降法，从目标的负梯度方向对各个模块网络的参数进行更新：

其中，
为第一类别对抗网络的对抗损失，
为第二类别对抗网络的对抗损失，L _cro(*)为图像特征与触觉特征的模间损失，L _G(*)为图像生成器G的损失函数；θ _v ^r+1,θ _h ^r+1,(w ^r+1,b ^r+1),α ^r+1,β ^r+1,γ ^r+1,η ^r+1和θ _v ^r,θ _h ^r,(w ^r,b ^r),α ^r,β ^r,γ ^r,η ^r分别为第r+1和第r次迭代后的类别标签预测器f _v(·)，类别标签预测器f _h(·)，基于注意力机制的语义融合网络的隐藏层参数，类别标签鉴别器D ₁，类别标签鉴别器D ₂，图像鉴别器D ₃和图像生成器G的网络参数集合；隐藏层参数包括权重和偏差；
为导数；

步骤C、当迭代收敛或迭代次数达到规定的最大次数，输出最优对抗式图像生成模块；否则r＝r+1,重复步骤B。
根据权利要求1所述的一种面向跨模态通信系统的图像重建方法，其特征在于，步骤4中所述的目标图像的生成过程包括以下步骤：

(6-1)跨模态通信系统接收端接收到的触觉信号
为：

其中，
分别为第k个触觉数据及其类别标签，M为待生成的目标图像总量；

(6-2)将
中的触觉数据输入编码器，获得触觉特征
再将其输入训练好的最优对抗式图像生成模块，输出即为生成的目标图像
具体过程如下：
一种面向跨模态通信系统的图像重建装置，其特征在于，包括：

模型建立模块，用于获取图像数据和触觉信号，并建立基于触觉信号的跨模态图像生成模型；

模型分解模块，用于将跨模态图像生成模型分解为图像特征提取模块、基于注意力机制的跨模态语义学习模块和对抗式图像生成模块，其中，所述图像特征提取模块包含预训练参数θ _v,α，用于提取图像数据特征；基于注意力机制的跨模态语义学习模块包含网络参数θ _h,(w,b),β，用于图像特征与触觉特征的配对及语义融合；对抗式图像生成模块包含网络参数η,γ，用于触觉特征生成对应图像；

模型训练求解模块，用于求解所述基于触觉信号的跨模态图像生成模型，得到结果，并在求解过程中自适应更新模型网络参数；

目标图像获得重建模块，用于获取完整的触觉信号特征，利用对抗式图像生成模块，得到对应的图像，从而恢复存在损坏、丢失、延迟到达问题的图像数据。