WO2023280065A1 - 一种面向跨模态通信系统的图像重建方法及装置 - Google Patents

一种面向跨模态通信系统的图像重建方法及装置 Download PDF

Info

Publication number
WO2023280065A1
WO2023280065A1 PCT/CN2022/103303 CN2022103303W WO2023280065A1 WO 2023280065 A1 WO2023280065 A1 WO 2023280065A1 CN 2022103303 W CN2022103303 W CN 2022103303W WO 2023280065 A1 WO2023280065 A1 WO 2023280065A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
tactile
modal
cross
network
Prior art date
Application number
PCT/CN2022/103303
Other languages
English (en)
French (fr)
Inventor
周亮
魏昕
章萌
陈建新
高子涵
Original Assignee
南京邮电大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 南京邮电大学 filed Critical 南京邮电大学
Priority to US18/002,500 priority Critical patent/US11748919B2/en
Publication of WO2023280065A1 publication Critical patent/WO2023280065A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/001Texturing; Colouring; Generation of texture or colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/094Adversarial learning
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B6/00Tactile signalling systems, e.g. personal calling systems

Definitions

  • the image data V obtains the image feature v′ (f) through the convolutional neural network CNN.
  • the CNN includes multiple convolutional layers, and a pooling layer is connected behind each convolutional layer;
  • the reconstruction loss is combined with the adversarial generation loss function of the generative adversarial network to better fit the data distribution.
  • the loss function of the image generator G is:
  • AE-GAN Auto Encoding-Generative Adversarial Network
  • the implementation steps are: (1) select the cross-modal data set (2) set up the model (3) train the model, including feature extraction of tactile acceleration and texture image samples; construct an attention interaction network for tactile features and image features, and combine The tactile features are mapped to the cross-modal common subspace, and the common representations of each modality are strongly paired according to the category and distribution; the cross-distribution alignment is performed using the loss function of inter-modal and intra-modal similarity, while maintaining the Category consistency; Combining mean square error to construct an adversarial generative model; Using alternate iterative methods to train the network; (4) Image generation.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

一种面向跨模态通信系统的图像重建方法和装置,所述方法利用跨模态通信系统中接收端所接收到完整触觉信号对传输过程中所存在的缺失图像进行重建,同时结合注意力机制构造跨模态交互网络,解决传统生成模型只能训练成对样本的局限性。该方法充分利用不同模态数据间的语义相关性,针对未配对数据实现触觉信号到图像的跨模态生成,克服跨模态通信系统中用于实际的训练触觉信号—图像数据难以成对采集的问题,显著提高了生成图像的质量和类别精度。

Description

一种面向跨模态通信系统的图像重建方法及装置 技术领域
本发明涉及跨模态图像生成领域,特别是一种面向跨模态通信系统的图像重建方法及装置。
背景技术
跨模态通信是一种以视觉、音频、触觉信号协调传输和联合处理为目标的新型通信技术,支持跨模态多媒体服务,具有多维度融合、沉浸式感官体验更丰富等特点。然而,在跨模态通信过程中,往往存在传输容量有限及传输干扰等问题,造成终端接收图像数据模糊甚至全部丢失。
针对传输过程中各种干扰因素,相关学者提出了一系列图像恢复的方法。比如,为了去除图像恢复中的脉冲噪声,提出基于全变分的稀疏优化方法;为了解决传输中的丢包现象,利用光流算法的信息与邻近的可用帧进行恢复。上述图像恢复方法主要是在视觉模态内借助其他完整的图像或视频帧进行恢复。然而,在多模态应用中,多模态流存在共存和竞争现象,可能会导致视频流在传输过程中严重受损或丢失。因此,上述方法不适用于跨模态传输。
由于在跨模态通信中,视觉信号和触觉信号并存,传递的内容在模态间具有内在的语义一致性。并且与视觉图像相比,触觉信号通常具有更高的优先级,接收端接收到的触觉信号的完整性更好。因此,可以利用触觉信号和内在语义信息进行缺失或受损的视觉图像生成,即触觉到图像的跨模态生成。
近年来,跨模态信号处理技术也成为一项热门的研究,其思想是挖掘文本、声音、视频等形式之间的语义,以执行检索和重构等任务。但这些方法要求成对数据作为训练集,不适用于难以采集成对数据的实际应用场景,因此设计更好的方法是相关工作者亟需解决的难题。
发明内容
本发明所要解决的技术问题是克服现有技术的不足而提供一种面向跨模态通信系统的图像重建方法及装置,该技术能够实现针对未配对数据的触觉到图像的跨模态生成任务。
本发明为解决上述技术问题采用以下技术方案:
根据本发明提出的一种面向跨模态通信系统的图像重建方法,包括以下步骤:
步骤1、选取跨模态通信系统接收端所接收到的触觉信号和图像数据对,将触觉信号和图像数据对作为训练集;训练集中的每一个触觉信号、图像数据对中的图像数据都带有所属类别的标签信息;
步骤2、建立基于触觉信号的跨模态图像生成模型,该模型包括图像特征提取模块、基于注意力机制的跨模态语义学习模块和对抗式图像生成模块;其中,
图像特征提取模块包括卷积神经网络CNN和第一类别对抗网络,用于对训练集中 图像数据进行特征提取,得到图像特征;
跨模态语义学习模块包括一个编码器、基于注意力机制的语义融合网络和第二类别对抗网络,编码器对训练集中的触觉信号进行特征提取,得到触觉特征;而后,触觉特征与图像特征一起输入基于注意力机制的语义融合网络,该网络在与该图像特征具有同标签的触觉特征之间进行相似度计算并经过sigmoid函数的操作,获得与当前图像特征所对应的各触觉特征的权重向量,再基于权重向量对各触觉特征进行加权求和,得到与当前图像特征最为相似的合成触觉特征;接着,第二类别对抗网络在对抗学习的作用下对合成触觉特征进行强化,保持触觉信号的类别特征和分布特征;
对抗式图像生成模块包括一个生成对抗网络,用于接收到强化后的合成触觉特征后,输出与该合成触觉特征具有同标签的生成图像;
步骤3、对基于触觉信号的跨模态图像生成模型进行训练,根据图像特征提取模块计算图像特征的模态内损失,根据基于注意力机制的跨模态语义学习模块计算合成触觉特征的模态内损失、合成触觉特征和图像特征之间的模间损失,根据对抗式图像生成模块并结合均方误差计算生成图像的对抗生成损失;将这些计算得到的损失用于更新跨模态图像生成模型的参数;当模型的参数收敛后,保存此时的最优跨模态图像生成模型及参数;
步骤4、在训练完成后,将跨模态通信系统接收端接收到的触觉信号输入训练好的上述跨模态图像生成模型,输出为目标图像。
作为本发明所述的一种面向跨模态通信系统的图像重建方法进一步优化方案,步骤2中图像数据进行特征提取包括以下步骤:
(2-1)图像数据V经过卷积神经网络CNN获得图像特征v′ (f),CNN包括多个卷积层,每层卷积层后面连接一个池化层;
(2-2)为v′ (f)构建第一类别对抗网络,该第一类别对抗网络包括网络参数为θ v的类别标签预测器f v(·)和网络参数为α的类别标签鉴别器D 1,其中f v(·)由多个全连接层和一个softmax层组成,f v(·)的输入为图像特征v′ (f),f v(·)的输出为所预测的类别标签v (c)=f v(v′ (f);θ v);类别标签鉴别器D 1由多个依次连接的全连接层组成,最后一层维度为1,D 1用于判别v (c)和图像特征v′ (f)对应的真实标签y v;通过f v(·)与D 1对抗训练,对v′ (f)不断进行优化,最终提取具有类别特性的图像特征
Figure PCTCN2022103303-appb-000001
其中,
Figure PCTCN2022103303-appb-000002
为第i个图像数据的图像特征,N为图像数据总量。
作为本发明所述的一种面向跨模态通信系统的图像重建方法进一步优化方案,第一类别对抗网络的对抗损失如下:
Figure PCTCN2022103303-appb-000003
Figure PCTCN2022103303-appb-000004
其中,
Figure PCTCN2022103303-appb-000005
为类别标签鉴别器D 1的对抗损失函数,
Figure PCTCN2022103303-appb-000006
Figure PCTCN2022103303-appb-000007
指对*求期望,D 1(y v;α)指类别标签鉴别器对真实标签y v的判别结果,D 1(v (c);α)指类别标签鉴别器对类别标签预测器输出的v (c)的判别结果,
Figure PCTCN2022103303-appb-000008
为类别标签预测器f v(·)的对抗损失函数。
作为本发明所述的一种面向跨模态通信系统的图像重建方法进一步优化方案,步骤2中基于注意力机制的跨模态语义学习模块的学习过程具体如下:
(3-1)触觉信号经过编码器获得触觉特征
Figure PCTCN2022103303-appb-000009
其中,
Figure PCTCN2022103303-appb-000010
为第j个触觉信号的触觉特征,N为触觉信号的数据总量,编码器包括门循环单元GRU和多个全连接层;
(3-2)基于注意力机制的语义融合网络匹配触觉特征和(2-2)提取的v (f),每一个
Figure PCTCN2022103303-appb-000011
作为查询向量,筛选出与
Figure PCTCN2022103303-appb-000012
所属同一类别的合成触觉特征
Figure PCTCN2022103303-appb-000013
Figure PCTCN2022103303-appb-000014
形成触觉-图像特征对,那么与v (f)对应的合成触觉特征为
Figure PCTCN2022103303-appb-000015
具体如下:
3-2-1、将
Figure PCTCN2022103303-appb-000016
和触觉特征h (f)输入基于注意力机制的语义融合网络,输出触觉的隐藏层表示向量
Figure PCTCN2022103303-appb-000017
为第j个触觉特征
Figure PCTCN2022103303-appb-000018
的隐藏层表示向量,其中,隐藏层为单层感知机结构,激活函数为Tanh()函数;具体过程如下:
Figure PCTCN2022103303-appb-000019
其中,w和b是基于注意力机制的语义融合网络中隐藏层的网络参数;
3-2-2、计算
Figure PCTCN2022103303-appb-000020
Figure PCTCN2022103303-appb-000021
的皮尔逊相关系数,作为相似度:
Figure PCTCN2022103303-appb-000022
Figure PCTCN2022103303-appb-000023
其中,Sim i,j
Figure PCTCN2022103303-appb-000024
Figure PCTCN2022103303-appb-000025
的相似度,
Figure PCTCN2022103303-appb-000026
分别为
Figure PCTCN2022103303-appb-000027
Figure PCTCN2022103303-appb-000028
的类别标签,||·|| 1为L1范数;I i,j是一个评分函数,用于减少触觉特征的冗余搜索和计算;
选择与
Figure PCTCN2022103303-appb-000029
具有相同类别标签的触觉特征作为参与计算相似度Sim i,j的触觉候选特征;
3-2-3、使用softmax()函数对相似度Sim i,j进行归一化处理,得到注意力权重系数a i,j;再对触觉候选特征进行加权求和,得到与
Figure PCTCN2022103303-appb-000030
所属同一类别的合成触觉特征
Figure PCTCN2022103303-appb-000031
a i,j=softmax(Sim i,j)
Figure PCTCN2022103303-appb-000032
(3-3)利用配对模态间的语义信息约束图像特征和触觉特征,具体地,对所有图像特征与触觉特征计算模间损失目标函数:
Figure PCTCN2022103303-appb-000033
其中,L cro为图像特征与触觉特征的模间损失,
Figure PCTCN2022103303-appb-000034
为第j个不与
Figure PCTCN2022103303-appb-000035
配对的合成触觉特征,δ为限制
Figure PCTCN2022103303-appb-000036
Figure PCTCN2022103303-appb-000037
差距大小的阈值,||·|| 2为L2范数;
(3-4)为
Figure PCTCN2022103303-appb-000038
构建第二类别对抗网络,该第二类别对抗包括网络参数为θ h的类别标签预测器f h(·)和网络参数为β的类别标签鉴别器D 2,其中类别标签预测器f h(·)包括多个全连接层和一个softmax层,输入为
Figure PCTCN2022103303-appb-000039
输出为所预测的
Figure PCTCN2022103303-appb-000040
的类别标签
Figure PCTCN2022103303-appb-000041
类别标签鉴别器D 2由多个全连接层依次连接组成,最后一层维度为1,D 2用于判别
Figure PCTCN2022103303-appb-000042
Figure PCTCN2022103303-appb-000043
对应的真实标签y h的真假;通过类别标签预测器f h(·)与类别标签鉴别器D 2对抗训练,对
Figure PCTCN2022103303-appb-000044
不断进行优化,最终使得合成触觉特征
Figure PCTCN2022103303-appb-000045
具有类别特性。
作为本发明所述的一种面向跨模态通信系统的图像重建方法进一步优化方案,第二类别对抗网络的对抗损失如下:
Figure PCTCN2022103303-appb-000046
Figure PCTCN2022103303-appb-000047
其中,
Figure PCTCN2022103303-appb-000048
为类别标签鉴别器D 2的对抗损失函数,
Figure PCTCN2022103303-appb-000049
Figure PCTCN2022103303-appb-000050
指对*求期望,D 2(y h;β)指类别标签鉴别器D 2对真实标签y h的判别结果,β为类别标签鉴别器D 2的网络参数,
Figure PCTCN2022103303-appb-000051
指类别标签鉴别器D 2对类别标签预测器输出的
Figure PCTCN2022103303-appb-000052
的判别结果,
Figure PCTCN2022103303-appb-000053
为类别标签预测器f h(·)的对抗损失函数。
作为本发明所述的一种面向跨模态通信系统的图像重建方法进一步优化方案,步骤2中对抗式图像生成模块的学习过程包括以下步骤:
(4-1)采用条件生成对抗网络实现跨模态图像生成;具体地,生成对抗网络包括网络参数为η的图像生成器G和网络参数为γ的图像鉴别器D 3,将
Figure PCTCN2022103303-appb-000054
输入图像生成器G,输出对应的生成图像
Figure PCTCN2022103303-appb-000055
G(*)为一种描述生成器输出生成图像的过程的函数,并将
Figure PCTCN2022103303-appb-000056
与真实图像v组合输入图像鉴别器D 3;图像鉴别器D 3辨别所生成图像组
Figure PCTCN2022103303-appb-000057
和真实图像组(v,v)的真假;
(4-2)结合重构损失与生成对抗网络的对抗生成损失函数来拟合数据分布;最终,图像生成器G的损失函数为:
Figure PCTCN2022103303-appb-000058
其中,L G为图像生成器G的生成损失,E[*]为期望。
作为本发明所述的一种面向跨模态通信系统的图像重建方法进一步优化方案,(4-1)中,生成对抗网络的对抗生成损失如下:
Figure PCTCN2022103303-appb-000059
其中,L(G,D 3)为图像生成器G和图像鉴别器D 3的对抗损失,E v[*]和
Figure PCTCN2022103303-appb-000060
指对*求期望,D 3(v,v;γ)为图像鉴别器D 3对真实图像组(v,v)的判别结果,
Figure PCTCN2022103303-appb-000061
为图像鉴别器D 3对生成图像组
Figure PCTCN2022103303-appb-000062
的判别结果,γ为图像鉴别器D 3的网络参数。
作为本发明所述的一种面向跨模态通信系统的图像重建方法进一步优化方案,步骤3中所述的基于触觉信号的跨模态图像生成模型训练过程包括以下步骤:
(5-1)由步骤1获取训练集:
Figure PCTCN2022103303-appb-000063
其中,V,H分别为图像和触觉信号的训练数据,v i为第i个图像数据,
Figure PCTCN2022103303-appb-000064
为v i对应的类别标签,h i为第i个触觉信号,
Figure PCTCN2022103303-appb-000065
为h i对应的类别标签;
(5-2)初始化基于触觉信号的跨模态图像生成模型的网络参数{θ v,α},{θ h,η,(w,b),β,γ},并导入各模态数据的特征提取网络的预训练模型参数,模态数据是指触觉信号数据或图像数据;各模态数据的特征提取网络指编码器和图像特征提取模块中的CNN;
(5-3)利用随机梯度下降法最小化损失函数,迭代训练基于触觉信号的跨模态图像生成模型,直到收敛或迭代次数达到规定的最大次数,最大迭代次数为预设的:
步骤A、设置D 1,D 2,D 3的学习率μ 1和G的学习率μ 2,迭代次数r=1;
步骤B、基于梯度下降法,从目标的负梯度方向对各个模块网络的参数进行更新:
Figure PCTCN2022103303-appb-000066
Figure PCTCN2022103303-appb-000067
Figure PCTCN2022103303-appb-000068
Figure PCTCN2022103303-appb-000069
Figure PCTCN2022103303-appb-000070
Figure PCTCN2022103303-appb-000071
Figure PCTCN2022103303-appb-000072
其中,
Figure PCTCN2022103303-appb-000073
为第一类别对抗网络的对抗损失,
Figure PCTCN2022103303-appb-000074
为第二类别对抗网络的对抗损失,L cro(*)为图像特征与触觉特征的模间损失,L G(*)为图像生成器G的损失函数;θ v r+1h r+1,(w r+1,b r+1),α r+1r+1r+1r+1和θ v rh r,(w r,b r),α rrrr分别为第r+1和第r次迭代后的类别标签预测器f v(·),类别标签预测器f h(·),基于注意力机制的语义融合网络的隐藏层参数,类别标签鉴别器D 1,类别标签鉴别器D 2,图像鉴别器D 3和图像生成器G的网络参数集合;隐藏层参数包括权重和偏差;
Figure PCTCN2022103303-appb-000075
为导数;
步骤C、当迭代收敛或迭代次数达到规定的最大次数,输出最优对抗式图像生成模块;否则r=r+1,重复步骤B。
作为本发明所述的一种面向跨模态通信系统的图像重建方法进一步优化方案,步骤4中所述的目标图像的生成过程包括以下步骤:
(6-1)跨模态通信系统接收端接收到的触觉信号
Figure PCTCN2022103303-appb-000076
为:
Figure PCTCN2022103303-appb-000077
其中,
Figure PCTCN2022103303-appb-000078
分别为第k个触觉数据及其类别标签,M为待生成的目标图像总量;
(6-2)将
Figure PCTCN2022103303-appb-000079
中的触觉数据输入编码器,获得触觉特征
Figure PCTCN2022103303-appb-000080
再将其输入训练好的最优对抗式图像生成模块,输出即为生成的目标图像
Figure PCTCN2022103303-appb-000081
具体过程如下:
Figure PCTCN2022103303-appb-000082
一种面向跨模态通信系统的图像重建装置,包括:
模型建立模块,用于获取图像数据和触觉信号,并建立基于触觉信号的跨模态图像生成模型;
模型分解模块,用于将跨模态图像生成模型分解为图像特征提取模块、基于注意力机制的跨模态语义学习模块和对抗式图像生成模块,其中,所述图像特征提取模块包含预训练参数θ v,α,用于提取图像数据特征;基于注意力机制的跨模态语义学习模块包含网络参数θ h,(w,b),β,用于图像特征与触觉特征的配对及语义融合;对抗式图像生成模块包含网络参数η,γ,用于触觉特征生成对应图像;
模型训练求解模块,用于求解所述基于触觉信号的跨模态图像生成模型,得到结果,并在求解过程中自适应更新模型网络参数;
目标图像获得重建模块,用于获取完整的触觉信号特征,利用对抗式图像生成模块,得到对应的图像,从而恢复存在损坏、丢失、延迟到达问题的图像数据。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
(1)实现针对未配对数据的触觉到图像的跨模态生成任务,有效解决了跨模态通信中视觉信号延时或丢包导致地不完整问题,提高用户的沉浸式体验;
(2)这种方法能够挖掘视觉模态和触觉模态间的语义相关性,构造跨模态公共子空间,从而弥补异构数据间的鸿沟,同时设计注意力交互网络,使得生成模型能够训练未配对的异构数据并提高生成图像的质量和类别精确度。
附图说明
图1为实施例提供的电子设备的方框示意图。
图2为本发明方法的具体实现流程图。
图3为实施例的跨模态图像生成模型结构示意图。
图4为实施例的注意力网络结构示意图。
图5为实施例中验证模型生成图像性能的结果图。
图6为实施例中验证模型收敛性能的结果图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明进行详细描述。
参照图2,一种面向跨模态通信系统的图像重建方法及装置,包括如下步骤:
步骤1、选取跨模态通信系统接收端所接收到的触觉信号和图像数据对,将触觉信号和图像数据对作为训练集;训练集中的每一个触觉信号、图像数据对中的图像数据都带有所属类别的标签信息;
步骤2、建立基于触觉信号的跨模态图像生成模型,如图3所示,该模型包括图像特征提取模块、基于注意力机制的跨模态语义学习模块和对抗式图像生成模块;其中,
图像特征提取模块包括卷积神经网络(Convolutional Neural Networks,CNN)和第一类别对抗网络,用于对训练集中图像数据进行特征提取,得到图像特征;
跨模态语义学习模块包括一个编码器、基于注意力机制的语义融合网络和第二类 别对抗网络,编码器对训练集中的触觉信号进行特征提取,得到触觉特征;而后,触觉特征与图像特征一起输入基于注意力机制的语义融合网络,该网络在与该图像特征具有同标签的触觉特征之间进行相似度计算并经过sigmoid函数的操作,获得与当前图像特征所对应的各触觉特征的权重向量,再基于权重向量对各触觉特征进行加权求和,得到与当前图像特征最为相似的合成触觉特征;接着,第二类别对抗网络在对抗学习的作用下对合成触觉特征进行强化,保持触觉信号的类别特征和分布特征;
对抗式图像生成模块包括一个生成对抗网络,用于接收到强化后的合成触觉特征后,输出与该合成触觉特征具有同标签的生成图像;
步骤3、对基于触觉信号的跨模态图像生成模型进行训练,根据图像特征提取模块计算图像特征的模态内损失,根据基于注意力机制的跨模态语义学习模块计算合成触觉特征的模态内损失、合成触觉特征和图像特征之间的模间损失,根据对抗式图像生成模块并结合均方误差计算生成图像的对抗生成损失;将这些计算得到的损失用于更新跨模态图像生成模型的参数;当模型的参数收敛后,保存此时的最优跨模态图像生成模型及参数;
步骤4、在训练完成后,将跨模态通信系统接收端接收到的触觉信号输入训练好的上述跨模态图像生成模型,输出为目标图像。
本例中,步骤3所述的图像特征提取的实现过程如下:
(1)大小为128×128的图像V经过卷积神经网络(CNN)获得图像特征v′ (f),其中,N为图像数据总量,CNN由四个卷积层和池化层组成,卷积核数分别为512,256,128,64,卷积核大小为5×5。
(2)为图像特征v′ (f)构建网络参数为θ v的类别标签预测器f(·)和网络参数为α的判别器D 1,其中预测器由2层全连接层和一个softmax层组成,输出维度分别为1024,128,8,输出预测的类别标签v (c)=f(v′ (f);θ v);判别器D 1由四层全连接层组成,维度分别为512,1024,512,1,最后输出一个(0,1)范围内的数表示输入特征为真实特征的概率,用于判别v (c)和真实标签y。通过预测器与判别器D 1对抗训练,提取的图像特征将具有类别特性。对抗损失如下:
Figure PCTCN2022103303-appb-000083
Figure PCTCN2022103303-appb-000084
本例中,步骤3所述的基于注意力机制的跨模态语义学习的实现过程如下:
(1)触觉信号H经过编码器获得触觉初始特征
Figure PCTCN2022103303-appb-000085
其中,N为触觉信号的数据总量,编码器由门循环单元(Gated Recurrent Unit,GRU)和两层全连接层组成。GRU有一个重置门和更新门,设置单元数为256,输出维度为64,全连接层输出维度分别为1024,64。
(2)如图4,基于注意力交互网络匹配触觉特征和所提取出的图像特征,每一个
Figure PCTCN2022103303-appb-000086
作为查询向量,筛选出与其所属同一类别的合成触觉特征,形成触觉-图像特征对,具体如下:
3-2-1、将
Figure PCTCN2022103303-appb-000087
和触觉特征h (f)输入基于注意力机制的语义融合网络,输出触觉的隐 藏层表示向量
Figure PCTCN2022103303-appb-000088
为第j个触觉特征
Figure PCTCN2022103303-appb-000089
的隐藏层表示向量,其中,隐藏层为单层感知机结构,激活函数为Tanh()函数;具体过程如下:
Figure PCTCN2022103303-appb-000090
其中,w和b是基于注意力机制的语义融合网络中隐藏层的网络参数;
3-2-2、计算
Figure PCTCN2022103303-appb-000091
Figure PCTCN2022103303-appb-000092
的皮尔逊相关系数,作为相似度:
Figure PCTCN2022103303-appb-000093
Figure PCTCN2022103303-appb-000094
其中,Sim i,j
Figure PCTCN2022103303-appb-000095
Figure PCTCN2022103303-appb-000096
的相似度,
Figure PCTCN2022103303-appb-000097
分别为
Figure PCTCN2022103303-appb-000098
Figure PCTCN2022103303-appb-000099
的类别标签,||·|| 1为L1范数;I i,j是一个评分函数,用于减少触觉特征的冗余搜索和计算;
选择与
Figure PCTCN2022103303-appb-000100
具有相同类别标签的触觉特征作为参与计算相似度Sim i,j的触觉候选特征;
3-2-3、使用softmax()函数对相似度Sim i,j进行归一化处理,得到注意力权重系数a i,j;再对触觉候选特征进行加权求和,得到与
Figure PCTCN2022103303-appb-000101
所属同一类别的合成触觉特征
Figure PCTCN2022103303-appb-000102
a i,j=softmax(Sim i,j)
Figure PCTCN2022103303-appb-000103
(3)利用配对模态间的语义信息约束视觉和触觉特征,要求不同模态间配对特征向量的距离小,不配对的特征向量之间的距离大。具体地,对所有图像特征与触觉特征计算模间损失目标函数:
Figure PCTCN2022103303-appb-000104
其中,L cro为图像特征与触觉特征的模间损失,
Figure PCTCN2022103303-appb-000105
为第j个不与
Figure PCTCN2022103303-appb-000106
配对的合成触觉特征,δ为限制
Figure PCTCN2022103303-appb-000107
Figure PCTCN2022103303-appb-000108
差距大小的阈值,||·|| 2为L2范数;
(4)为
Figure PCTCN2022103303-appb-000109
构建第二类别对抗网络,该第二类别对抗包括网络参数为θ h的类别标签预测器f h(·)和网络参数为β的类别标签鉴别器D 2,其中类别标签预测器f h(·)包括多个全连接层和一个softmax层,输入为
Figure PCTCN2022103303-appb-000110
输出为所预测的
Figure PCTCN2022103303-appb-000111
的类别标签
Figure PCTCN2022103303-appb-000112
输出维度分别为1024,128,8;判别器D 2由四层全连接层组成,维度分别为512,1024,512,1,最后输出一个(0,1)范围内的数表示输入特征为真实特征的概率,用于判别
Figure PCTCN2022103303-appb-000113
和真实标签y的真假;类别标签鉴别器D 2由多个全连接层依次连接组成,最后一层维度为1,D 2用于判别
Figure PCTCN2022103303-appb-000114
Figure PCTCN2022103303-appb-000115
对应的真实标签y h的真假;通过类别标签预测器f h(·)与类别标签鉴别器D 2对抗 训练,对
Figure PCTCN2022103303-appb-000116
不断进行优化,最终使得合成触觉特征
Figure PCTCN2022103303-appb-000117
具有类别特性。
第二类别对抗网络的对抗损失如下:
Figure PCTCN2022103303-appb-000118
Figure PCTCN2022103303-appb-000119
其中,
Figure PCTCN2022103303-appb-000120
为类别标签鉴别器D 2的对抗损失函数,
Figure PCTCN2022103303-appb-000121
Figure PCTCN2022103303-appb-000122
指对*求期望,D 2(y h;β)指类别标签鉴别器D 2对真实标签y h的判别结果,β为类别标签鉴别器D 2的网络参数,
Figure PCTCN2022103303-appb-000123
指类别标签鉴别器D 2对类别标签预测器输出的
Figure PCTCN2022103303-appb-000124
的判别结果,
Figure PCTCN2022103303-appb-000125
为类别标签预测器f h(·)的对抗损失函数。
本例中,最小化配对视、触觉模态特征向量的距离,可以增强公共空间上两者的语义相关性,解决模态间的异构问题;最小化各模态中同类别特征向量的距离,可以使映射前后样本的类别与分布信息保持一致。
本例中,步骤3所述的结合均方误差构造对抗式图像生成的实现过程如下:
(1)采用条件生成对抗网络实现跨模态图像生成;具体地,将合成触觉特征
Figure PCTCN2022103303-appb-000126
输入网络参数为η的生成器G,输出对应的生成图像
Figure PCTCN2022103303-appb-000127
并将其与真实图像v组合输入网络参数为γ的判别器D 3;图像判别器D 3辨别所生成图像组
Figure PCTCN2022103303-appb-000128
和真实图像组(v,v)的真假。具体过程如下:
生成对抗网络的对抗生成损失如下:
Figure PCTCN2022103303-appb-000129
其中,L(G,D 3)为图像生成器G和图像鉴别器D 3的对抗损失,E v[*]和
Figure PCTCN2022103303-appb-000130
指对*求期望,D 3(v,v;γ)为图像鉴别器D 3对真实图像组(v,v)的判别结果,
Figure PCTCN2022103303-appb-000131
为图像鉴别器D 3对生成图像组
Figure PCTCN2022103303-appb-000132
的判别结果,γ为图像鉴别器D 3的网络参数。
在这个模块中,图像生成器G,包含2个全连接层和四个反卷积层,全连接层的维度分别为128,1024,反卷积的数量为64,128,256,512,输出为128x128的彩色图像
Figure PCTCN2022103303-appb-000133
图像判别器D 3包含四个卷积层和2个全连接层,卷积层输出维度为512,256,128,64,卷积核大小为5x5,全连接层的维度为1024,1,最后输出一个(0,1)范围内的数表示输入特征为真实特征的概率。
(2)为了对生成图像和真实图像同时进行全局结构级别与像素级别的约束,结合重构损失与生成对抗网络的对抗生成损失函数来更好地拟合数据分布。最终,图像生成器G的损失函数为:
Figure PCTCN2022103303-appb-000134
其中,L G为图像生成器G的生成损失,E[*]为期望。
本例中,步骤3所述的模型训练的实现过程如下:
(5-1)由步骤1获取训练集:
Figure PCTCN2022103303-appb-000135
其中,V,H分别为图像和触觉信号的训练数据,v i为第i个图像数据,
Figure PCTCN2022103303-appb-000136
为v i对应的类别标签,h i为第i个触觉信号,
Figure PCTCN2022103303-appb-000137
为h i对应的类别标签;
(5-2)初始化基于触觉信号的跨模态图像生成模型的网络参数{θ v,α},{θ h,η,(w,b),β,γ},并导入各模态数据的特征提取网络的预训练模型参数,模态数据是指触觉信号数据或图像数据;各模态数据的特征提取网络指编码器和图像特征提取模块中的CNN;
(5-3)利用随机梯度下降法最小化损失函数,迭代训练基于触觉信号的跨模态图像生成模型,直到收敛或迭代次数达到规定的最大次数,最大迭代次数为预设的:
步骤A、设置D 1,D 2,D 3的学习率μ 1和G的学习率μ 2,迭代次数r=1;
步骤B、基于梯度下降法,从目标的负梯度方向对各个模块网络的参数进行更新:
Figure PCTCN2022103303-appb-000138
Figure PCTCN2022103303-appb-000139
Figure PCTCN2022103303-appb-000140
Figure PCTCN2022103303-appb-000141
Figure PCTCN2022103303-appb-000142
Figure PCTCN2022103303-appb-000143
Figure PCTCN2022103303-appb-000144
其中,
Figure PCTCN2022103303-appb-000145
为第一类别对抗网络的对抗损失,
Figure PCTCN2022103303-appb-000146
为第二类别对抗网络的对抗损失,L cro(*)为图像特征与触觉特征的模间损失,L G(*)为图像生成器G的损失函数;θ v r+1h r+1,(w r+1,b r+1),α r+1r+1r+1r+1和θ v rh r,(w r,b r),α rrrr分别为第r+1和第r次迭代后的类别标签预测器f v(·),类别标签预测器f h(·),基于注意力机制的语义融合网络的隐藏层参数,类别标签鉴别器D 1,类别标签鉴别器D 2,图像鉴别器D 3和图像生成器G的网络参数集合;隐藏层参数包括权重和偏差;
Figure PCTCN2022103303-appb-000147
为导数;
步骤C、当迭代收敛或迭代次数达到规定的最大次数,输出最优对抗式图像生成模块;否则r=r+1,重复步骤B。
本例中,步骤4中所述的当接收到的图像数据存在损坏、丢失、延迟到达时,目标图像的生成过程如下:
(6-1)跨模态通信系统接收端接收到的触觉信号
Figure PCTCN2022103303-appb-000148
为:
Figure PCTCN2022103303-appb-000149
其中,
Figure PCTCN2022103303-appb-000150
分别为第k个触觉数据及其类别标签,M为待生成的目标图像总量;
(6-2)将
Figure PCTCN2022103303-appb-000151
中的触觉数据输入编码器,获得触觉特征
Figure PCTCN2022103303-appb-000152
再将其输入训练好的最优对抗式图像生成模块,输出即为生成的目标图像
Figure PCTCN2022103303-appb-000153
具体过程如下:
Figure PCTCN2022103303-appb-000154
下面通过具体实施例对本发明的技术方案做进一步阐述:
(1)仿真条件
本发明是在中央处理器为Intel(R)Core(TM)i3-21203.30GHZ、内存6G、windows10操作系统上,运用Python软件进行的实验仿真。
(2)仿真内容
本发明的方法与现有的跨模态图像生成方法进行了对比,作为对比的方法如下:
现有方法一:深度规范化相关自动编码器(Deep canonically correlated auto-encoder,DCCAE),最初提出用于从多视图图像数据中学习深度表示,由两个自动编码器组成,以典型的相关性和重构误差为约束条件进行训练。
现有方法二:条件对抗式生成网络(Conditional Generative Adversarial Network,CGAN),可以利用类别标签辅助触觉信号生成图像。
现有方法三:ACGAN(Auxiliary Classifier Generative Adversarial Network)是一种带有辅助分类器的条件图像合成方法。其中,分类器的输入被设置为噪声和触觉特征的组合。
现有方法四:AE-GAN(Auto Encoding-Generative Adversarial Network),将自动编码器与对抗式生成网络相结合,用于图像恢复。
(3)仿真结果
仿真实验中分别给出了DCCAE、CGAN、ACGAN、AE-GAN和本发明分别在单标签数据集LMT下所对应的MiroF1、MacroF1、ACC-SVM指标,指标越大,说明图像类别准确度越高,具体如表1所示。
表1 LMT数据集下以触觉生成图像的各类指标
Figure PCTCN2022103303-appb-000155
结合图5的生成结果和表1的评估结果观察可知。我们的方法生成的图像类别准确度最高。这表明我们提出的模型优于其他模型,对于相同的生成目标,我们的模型在图像质量上具有最高清晰度,在语义上具有最高的准确度,同时也验证了跨模态配对网络在模型中的重要程度。
仿真实验中,画出了跨模态特征向量长度为64位、128位、256位、512位的IS曲线来评估跨模态图像生成模型的收敛能力,如图6。其中,IS曲线是指Inception Score指标,计算公式如下:
Figure PCTCN2022103303-appb-000156
其中,y指感知网络对图像所预测的标签,当边缘分布p(y)与条件分布的散度越大,说明该图像所包含的内容越丰富,图像质量越好。
图1为实施例提供的电子设备的方框示意图,上述方法可以加载在图1提供的电子设备中。
简而言之,本发明公开的基于注意力机制的跨模态材料纹理图像生成方法,主要是用于大规模未配对数据集中触觉生成图像的应用,同时结合注意力机制构造跨模态交互网络,解决传统生成模型只能训练成对样本的局限性,采用普遍使用的Inception Score作为性能评价指标。本发明不仅考虑了样本的模态内相似性,还考虑了不同模态间的相似性,为以触觉生成对应图像的准确性提供了保障。其实现步骤为:(1)选取跨模态数据集(2)设置模型(3)训练模型,包括对触觉加速度和纹理图像样本进行特征提取;为触觉特征和图像特征构造注意力交互网络,将触觉特征映射到跨模态公共子空间,根据类别与分布对各模态的公共表示进行强配对;利用模态间与模态内相似性的损失函数进行跨分布对齐,同时保持各模态的类别一致性;结合均方误差构造对抗式生成模型;采用交替迭代方法训练网络;(4)图像生成。本发明利用注意机制网络,根据不同模态数据间的语义相关性,实现图像、触觉模态数据的强配对和语义融合,因而触觉生成对应图像的质量更优、类别精度更高,可用于3D游戏等多模态服务,提高用户的沉浸式体验。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围内。

Claims (10)

  1. 一种面向跨模态通信系统的图像重建方法,其特征在于,包括以下步骤:
    步骤1、选取跨模态通信系统接收端所接收到的触觉信号和图像数据对,将触觉信号和图像数据对作为训练集;训练集中的每一个触觉信号、图像数据对中的图像数据都带有所属类别的标签信息;
    步骤2、建立基于触觉信号的跨模态图像生成模型,该模型包括图像特征提取模块、基于注意力机制的跨模态语义学习模块和对抗式图像生成模块;其中,
    图像特征提取模块包括卷积神经网络CNN和第一类别对抗网络,用于对训练集中图像数据进行特征提取,得到图像特征;
    跨模态语义学习模块包括一个编码器、基于注意力机制的语义融合网络和第二类别对抗网络,编码器对训练集中的触觉信号进行特征提取,得到触觉特征;而后,触觉特征与图像特征一起输入基于注意力机制的语义融合网络,该网络在与该图像特征具有同标签的触觉特征之间进行相似度计算并经过sigmoid函数的操作,获得与当前图像特征所对应的各触觉特征的权重向量,再基于权重向量对各触觉特征进行加权求和,得到与当前图像特征最为相似的合成触觉特征;接着,第二类别对抗网络在对抗学习的作用下对合成触觉特征进行强化,保持触觉信号的类别特征和分布特征;
    对抗式图像生成模块包括一个生成对抗网络,用于接收到强化后的合成触觉特征后,输出与该合成触觉特征具有同标签的生成图像;
    步骤3、对基于触觉信号的跨模态图像生成模型进行训练,根据图像特征提取模块计算图像特征的模态内损失,根据基于注意力机制的跨模态语义学习模块计算合成触觉特征的模态内损失、合成触觉特征和图像特征之间的模间损失,根据对抗式图像生成模块并结合均方误差计算生成图像的对抗生成损失;将这些计算得到的损失用于更新跨模态图像生成模型的参数;当模型的参数收敛后,保存此时的最优跨模态图像生成模型及参数;
    步骤4、在训练完成后,将跨模态通信系统接收端接收到的触觉信号输入训练好的上述跨模态图像生成模型,输出为目标图像。
  2. 根据权利要求1所述的一种面向跨模态通信系统的图像重建方法,其特征在于,步骤2中图像数据进行特征提取包括以下步骤:
    (2-1)图像数据V经过卷积神经网络CNN获得图像特征v′ (f),CNN包括多个卷积层,每层卷积层后面连接一个池化层;
    (2-2)为v′ (f)构建第一类别对抗网络,该第一类别对抗网络包括网络参数为θ v的类别标签预测器f v(·)和网络参数为α的类别标签鉴别器D 1,其中f v(·)由多个全连接层和一个softmax层组成,f v(·)的输入为图像特征v′ (f),f v(·)的输出为所预测的类别标签v (c)=f v(v′ (f);θ v);类别标签鉴别器D 1由多个依次连接的全连接层组成,最后一层维度为1,D 1用于判别v (c)和图像特征v′ (f)对应的真实标签y v;通过f v(·)与D 1对抗训练,对v′ (f)不断进行优化,最终提取具有类别特性的图像特征
    Figure PCTCN2022103303-appb-100001
    其中,
    Figure PCTCN2022103303-appb-100002
    为第i个图像数据的图像特征,N为图像数据总量。
  3. 根据权利要求2所述的一种面向跨模态通信系统的图像重建方法,其特征在于,第一类别对抗网络的对抗损失如下:
    Figure PCTCN2022103303-appb-100003
    Figure PCTCN2022103303-appb-100004
    其中,
    Figure PCTCN2022103303-appb-100005
    为类别标签鉴别器D 1的对抗损失函数,
    Figure PCTCN2022103303-appb-100006
    Figure PCTCN2022103303-appb-100007
    指对*求期望,D 1(y v;α)指类别标签鉴别器对真实标签y v的判别结果,D 1(v (c);α)指类别标签鉴别器对类别标签预测器输出的v (c)的判别结果,
    Figure PCTCN2022103303-appb-100008
    为类别标签预测器f v(·)的对抗损失函数。
  4. 根据权利要求2所述的一种面向跨模态通信系统的图像重建方法,其特征在于,步骤2中基于注意力机制的跨模态语义学习模块的学习过程具体如下:
    (3-1)触觉信号经过编码器获得触觉特征
    Figure PCTCN2022103303-appb-100009
    其中,
    Figure PCTCN2022103303-appb-100010
    为第j个触觉信号的触觉特征,N为触觉信号的数据总量,编码器包括门循环单元GRU和多个全连接层;
    (3-2)基于注意力机制的语义融合网络匹配触觉特征和(2-2)提取的v (f),每一个
    Figure PCTCN2022103303-appb-100011
    作为查询向量,筛选出与
    Figure PCTCN2022103303-appb-100012
    所属同一类别的合成触觉特征
    Figure PCTCN2022103303-appb-100013
    Figure PCTCN2022103303-appb-100014
    形成触觉-图像特征对,那么与v (f)对应的合成触觉特征为
    Figure PCTCN2022103303-appb-100015
    具体如下:
    3-2-1、将
    Figure PCTCN2022103303-appb-100016
    和触觉特征h (f)输入基于注意力机制的语义融合网络,输出触觉的隐藏层表示向量
    Figure PCTCN2022103303-appb-100017
    为第j个触觉特征
    Figure PCTCN2022103303-appb-100018
    的隐藏层表示向量,其中,隐藏层为单层感知机结构,激活函数为Tanh()函数;具体过程如下:
    Figure PCTCN2022103303-appb-100019
    其中,w和b是基于注意力机制的语义融合网络中隐藏层的网络参数;
    3-2-2、计算
    Figure PCTCN2022103303-appb-100020
    Figure PCTCN2022103303-appb-100021
    的皮尔逊相关系数,作为相似度:
    Figure PCTCN2022103303-appb-100022
    Figure PCTCN2022103303-appb-100023
    其中,Sim i,j
    Figure PCTCN2022103303-appb-100024
    Figure PCTCN2022103303-appb-100025
    的相似度,
    Figure PCTCN2022103303-appb-100026
    分别为
    Figure PCTCN2022103303-appb-100027
    Figure PCTCN2022103303-appb-100028
    的类别标签,||·|| 1为L1范数;I i,j是一个评分函数,用于减少触觉特征的冗余搜索和计算;
    选择与
    Figure PCTCN2022103303-appb-100029
    具有相同类别标签的触觉特征作为参与计算相似度Sim i,j的触觉候选特征;
    3-2-3、使用softmax()函数对相似度Sim i,j进行归一化处理,得到注意力权重系数a i,j;再对触觉候选特征进行加权求和,得到与
    Figure PCTCN2022103303-appb-100030
    所属同一类别的合成触觉特征
    Figure PCTCN2022103303-appb-100031
    a i,j=softmax(Sim i,j)
    Figure PCTCN2022103303-appb-100032
    (3-3)利用配对模态间的语义信息约束图像特征和触觉特征,具体地,对所有图像特征 与触觉特征计算模间损失目标函数:
    Figure PCTCN2022103303-appb-100033
    其中,L cro为图像特征与触觉特征的模间损失,
    Figure PCTCN2022103303-appb-100034
    为第j个不与
    Figure PCTCN2022103303-appb-100035
    配对的合成触觉特征,δ为限制
    Figure PCTCN2022103303-appb-100036
    Figure PCTCN2022103303-appb-100037
    差距大小的阈值,||·|| 2为L2范数;
    (3-4)为
    Figure PCTCN2022103303-appb-100038
    构建第二类别对抗网络,该第二类别对抗包括网络参数为θ h的类别标签预测器f h(·)和网络参数为β的类别标签鉴别器D 2,其中类别标签预测器f h(·)包括多个全连接层和一个softmax层,输入为
    Figure PCTCN2022103303-appb-100039
    输出为所预测的
    Figure PCTCN2022103303-appb-100040
    的类别标签
    Figure PCTCN2022103303-appb-100041
    类别标签鉴别器D 2由多个全连接层依次连接组成,最后一层维度为1,D 2用于判别
    Figure PCTCN2022103303-appb-100042
    Figure PCTCN2022103303-appb-100043
    对应的真实标签y h的真假;通过类别标签预测器f h(·)与类别标签鉴别器D 2对抗训练,对
    Figure PCTCN2022103303-appb-100044
    不断进行优化,最终使得合成触觉特征
    Figure PCTCN2022103303-appb-100045
    具有类别特性。
  5. 根据权利要求4所述的一种面向跨模态通信系统的图像重建方法,其特征在于,第二类别对抗网络的对抗损失如下:
    Figure PCTCN2022103303-appb-100046
    Figure PCTCN2022103303-appb-100047
    其中,
    Figure PCTCN2022103303-appb-100048
    为类别标签鉴别器D 2的对抗损失函数,
    Figure PCTCN2022103303-appb-100049
    Figure PCTCN2022103303-appb-100050
    指对*求期望,D 2(y h;β)指类别标签鉴别器D 2对真实标签y h的判别结果,β为类别标签鉴别器D 2的网络参数,
    Figure PCTCN2022103303-appb-100051
    指类别标签鉴别器D 2对类别标签预测器输出的
    Figure PCTCN2022103303-appb-100052
    的判别结果,
    Figure PCTCN2022103303-appb-100053
    为类别标签预测器f h(·)的对抗损失函数。
  6. 根据权利要求1所述的一种面向跨模态通信系统的图像重建方法,其特征在于,步骤2中对抗式图像生成模块的学习过程包括以下步骤:
    (4-1)采用条件生成对抗网络实现跨模态图像生成;具体地,生成对抗网络包括网络参数为η的图像生成器G和网络参数为γ的图像鉴别器D 3,将
    Figure PCTCN2022103303-appb-100054
    输入图像生成器G,输出对应的生成图像
    Figure PCTCN2022103303-appb-100055
    G(*)为一种描述生成器输出生成图像的过程的函数,并将
    Figure PCTCN2022103303-appb-100056
    与真实图像v组合输入图像鉴别器D 3;图像鉴别器D 3辨别所生成图像组
    Figure PCTCN2022103303-appb-100057
    和真实图像组(v,v)的真假;
    (4-2)结合重构损失与生成对抗网络的对抗生成损失函数来拟合数据分布;最终,图像生成器G的损失函数为:
    Figure PCTCN2022103303-appb-100058
    其中,L G为图像生成器G的生成损失,E[*]为期望。
  7. 根据权利要求6所述的一种面向跨模态通信系统的图像重建方法,其特征在于,(4-1)中,生成对抗网络的对抗生成损失如下:
    Figure PCTCN2022103303-appb-100059
    其中,L(G,D 3)为图像生成器G和图像鉴别器D 3的对抗损失,E v[*]和
    Figure PCTCN2022103303-appb-100060
    指对*求期望,D 3(v,v;γ)为图像鉴别器D 3对真实图像组(v,v)的判别结果,
    Figure PCTCN2022103303-appb-100061
    为图像鉴别器D 3对生成图像组
    Figure PCTCN2022103303-appb-100062
    的判别结果,γ为图像鉴别器D 3的网络参数。
  8. 根据权利要求1所述的一种面向跨模态通信系统的图像重建方法,其特征在于,步骤3中所述的基于触觉信号的跨模态图像生成模型训练过程包括以下步骤:
    (5-1)由步骤1获取训练集:
    Figure PCTCN2022103303-appb-100063
    其中,V,H分别为图像和触觉信号的训练数据,v i为第i个图像数据,
    Figure PCTCN2022103303-appb-100064
    为v i对应的类别标签,h i为第i个触觉信号,
    Figure PCTCN2022103303-appb-100065
    为h i对应的类别标签;
    (5-2)初始化基于触觉信号的跨模态图像生成模型的网络参数{θ v,α},{θ h,η,(w,b),β,γ},并导入各模态数据的特征提取网络的预训练模型参数,模态数据是指触觉信号数据或图像数据;各模态数据的特征提取网络指编码器和图像特征提取模块中的CNN;
    (5-3)利用随机梯度下降法最小化损失函数,迭代训练基于触觉信号的跨模态图像生成模型,直到收敛或迭代次数达到规定的最大次数,最大迭代次数为预设的:
    步骤A、设置D 1,D 2,D 3的学习率μ 1和G的学习率μ 2,迭代次数r=1;
    步骤B、基于梯度下降法,从目标的负梯度方向对各个模块网络的参数进行更新:
    Figure PCTCN2022103303-appb-100066
    Figure PCTCN2022103303-appb-100067
    Figure PCTCN2022103303-appb-100068
    Figure PCTCN2022103303-appb-100069
    Figure PCTCN2022103303-appb-100070
    Figure PCTCN2022103303-appb-100071
    Figure PCTCN2022103303-appb-100072
    其中,
    Figure PCTCN2022103303-appb-100073
    为第一类别对抗网络的对抗损失,
    Figure PCTCN2022103303-appb-100074
    为第二类别对抗网络的对抗损失,L cro(*)为图像特征与触觉特征的模间损失,L G(*)为图像生成器G的损失函数;θ v r+1h r+1,(w r+1,b r+1),α r+1r+1r+1r+1和θ v rh r,(w r,b r),α rrrr分别为第r+1和第r次迭代后的类别标签预测器f v(·),类别标签预测器f h(·),基于注意力机制的语义融合网络的隐藏层参数,类别标签鉴别器D 1,类别标签鉴别器D 2,图像鉴别器D 3和图像生成器G的网络参数集合;隐藏层参数包括权重和偏差;
    Figure PCTCN2022103303-appb-100075
    为导数;
    步骤C、当迭代收敛或迭代次数达到规定的最大次数,输出最优对抗式图像生成模块;否则r=r+1,重复步骤B。
  9. 根据权利要求1所述的一种面向跨模态通信系统的图像重建方法,其特征在于,步骤4中所述的目标图像的生成过程包括以下步骤:
    (6-1)跨模态通信系统接收端接收到的触觉信号
    Figure PCTCN2022103303-appb-100076
    为:
    Figure PCTCN2022103303-appb-100077
    其中,
    Figure PCTCN2022103303-appb-100078
    分别为第k个触觉数据及其类别标签,M为待生成的目标图像总量;
    (6-2)将
    Figure PCTCN2022103303-appb-100079
    中的触觉数据输入编码器,获得触觉特征
    Figure PCTCN2022103303-appb-100080
    再将其输入训练好的最优对抗式图像生成模块,输出即为生成的目标图像
    Figure PCTCN2022103303-appb-100081
    具体过程如下:
    Figure PCTCN2022103303-appb-100082
  10. 一种面向跨模态通信系统的图像重建装置,其特征在于,包括:
    模型建立模块,用于获取图像数据和触觉信号,并建立基于触觉信号的跨模态图像生成模型;
    模型分解模块,用于将跨模态图像生成模型分解为图像特征提取模块、基于注意力机制的跨模态语义学习模块和对抗式图像生成模块,其中,所述图像特征提取模块包含预训练参数θ v,α,用于提取图像数据特征;基于注意力机制的跨模态语义学习模块包含网络参数θ h,(w,b),β,用于图像特征与触觉特征的配对及语义融合;对抗式图像生成模块包含网络参数η,γ,用于触觉特征生成对应图像;
    模型训练求解模块,用于求解所述基于触觉信号的跨模态图像生成模型,得到结果,并在求解过程中自适应更新模型网络参数;
    目标图像获得重建模块,用于获取完整的触觉信号特征,利用对抗式图像生成模块,得到对应的图像,从而恢复存在损坏、丢失、延迟到达问题的图像数据。
PCT/CN2022/103303 2021-07-09 2022-07-01 一种面向跨模态通信系统的图像重建方法及装置 WO2023280065A1 (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US18/002,500 US11748919B2 (en) 2021-07-09 2022-07-01 Method of image reconstruction for cross-modal communication system and device thereof

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110776726.4 2021-07-09
CN202110776726.4A CN113628294B (zh) 2021-07-09 2021-07-09 一种面向跨模态通信系统的图像重建方法及装置

Publications (1)

Publication Number Publication Date
WO2023280065A1 true WO2023280065A1 (zh) 2023-01-12

Family

ID=78379439

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2022/103303 WO2023280065A1 (zh) 2021-07-09 2022-07-01 一种面向跨模态通信系统的图像重建方法及装置

Country Status (3)

Country Link
US (1) US11748919B2 (zh)
CN (1) CN113628294B (zh)
WO (1) WO2023280065A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115691788A (zh) * 2022-10-27 2023-02-03 北京理工大学 一种基于异构数据的双重注意力耦合网络糖尿病分类系统
CN115859175A (zh) * 2023-02-16 2023-03-28 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 基于跨模态生成式学习的液压减震器设备异常检测方法
CN116994070A (zh) * 2023-09-25 2023-11-03 四川大学 基于可度量子空间动态分类器的牙齿图像处理方法及设备
CN117648921A (zh) * 2024-01-29 2024-03-05 山东财经大学 基于成对双层对抗对齐的跨主题作文自动测评方法及系统

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113628294B (zh) 2021-07-09 2023-06-20 南京邮电大学 一种面向跨模态通信系统的图像重建方法及装置
CN114359586B (zh) * 2021-12-01 2022-08-05 合肥工业大学 一种适用于模态缺失的多模态目标检测方法及系统
CN114842384B (zh) * 2022-04-30 2024-05-31 南京邮电大学 一种面向6g的触觉模态信号重建方法
CN115908962B (zh) * 2022-06-13 2023-11-14 北京融合未来技术有限公司 神经网络的训练方法、脉冲信号重构图像生成方法及装置
CN116939320B (zh) * 2023-06-12 2024-06-18 南京邮电大学 一种生成式多模态互利增强视频语义通信方法
CN116502069B (zh) * 2023-06-25 2023-09-12 四川大学 一种基于深度学习的触觉时序信号识别方法
CN116628559B (zh) * 2023-07-20 2023-11-10 南方海洋科学与工程广东省实验室(广州) 水下大数据计算综合实验分类系统、分类模型的训练方法
CN117611924B (zh) * 2024-01-17 2024-04-09 贵州大学 一种基于图文子空间联合学习的植物叶片表型病害分类方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180285695A1 (en) * 2017-03-28 2018-10-04 Siemens Healthcare Gmbh Magnetic Resonance Image Reconstruction System and Method
CN112905822A (zh) * 2021-02-02 2021-06-04 华侨大学 一种基于注意力机制的深度监督跨模态对抗学习方法
CN112949707A (zh) * 2021-02-26 2021-06-11 西安电子科技大学 一种基于多尺度语义信息监督的跨模态人脸图像生成方法
CN113628294A (zh) * 2021-07-09 2021-11-09 南京邮电大学 一种面向跨模态通信系统的图像重建方法及装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5907351A (en) * 1995-10-24 1999-05-25 Lucent Technologies Inc. Method and apparatus for cross-modal predictive coding for talking head sequences
US9880623B2 (en) * 2013-01-24 2018-01-30 Immersion Corporation Friction modulation for three dimensional relief in a haptic device
US10600290B2 (en) * 2016-12-14 2020-03-24 Immersion Corporation Automatic haptic generation based on visual odometry
US10248664B1 (en) * 2018-07-02 2019-04-02 Inception Institute Of Artificial Intelligence Zero-shot sketch-based image retrieval techniques using neural networks for sketch-image recognition and retrieval
CN110516085B (zh) * 2019-07-11 2022-05-17 西安电子科技大学 基于双向注意力的图像文本互检索方法
CN111461203A (zh) * 2020-03-30 2020-07-28 北京百度网讯科技有限公司 跨模态处理方法、装置、电子设备和计算机存储介质
US20220300585A1 (en) * 2021-03-22 2022-09-22 Servicenow, Inc. Cross-Modality Curiosity for Sparse-Reward Tasks
US20230041294A1 (en) * 2021-08-03 2023-02-09 Sony Interactive Entertainment Inc. Augmented reality (ar) pen/hand tracking

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180285695A1 (en) * 2017-03-28 2018-10-04 Siemens Healthcare Gmbh Magnetic Resonance Image Reconstruction System and Method
CN112905822A (zh) * 2021-02-02 2021-06-04 华侨大学 一种基于注意力机制的深度监督跨模态对抗学习方法
CN112949707A (zh) * 2021-02-26 2021-06-11 西安电子科技大学 一种基于多尺度语义信息监督的跨模态人脸图像生成方法
CN113628294A (zh) * 2021-07-09 2021-11-09 南京邮电大学 一种面向跨模态通信系统的图像重建方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
GAO YUN;WEI XIN;ZHOU LIANG: "Preliminary Study on Theory and Key Technology of Cross-Modal Communications", JOURNAL OF COMMUNICATION UNIVERSITY OF CHINA(SCIENCE AND TECHNOLOGY), vol. 28, no. 1, 20 February 2021 (2021-02-20), pages 55 - 63, XP093023093, ISSN: 1673-4793, DOI: 10.16196/j.cnki.issn.1673-4793.2021.01.009 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115691788A (zh) * 2022-10-27 2023-02-03 北京理工大学 一种基于异构数据的双重注意力耦合网络糖尿病分类系统
CN115859175A (zh) * 2023-02-16 2023-03-28 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 基于跨模态生成式学习的液压减震器设备异常检测方法
CN116994070A (zh) * 2023-09-25 2023-11-03 四川大学 基于可度量子空间动态分类器的牙齿图像处理方法及设备
CN116994070B (zh) * 2023-09-25 2023-12-01 四川大学 基于可度量子空间动态分类器的牙齿图像处理方法及设备
CN117648921A (zh) * 2024-01-29 2024-03-05 山东财经大学 基于成对双层对抗对齐的跨主题作文自动测评方法及系统
CN117648921B (zh) * 2024-01-29 2024-05-03 山东财经大学 基于成对双层对抗对齐的跨主题作文自动测评方法及系统

Also Published As

Publication number Publication date
US11748919B2 (en) 2023-09-05
CN113628294A (zh) 2021-11-09
CN113628294B (zh) 2023-06-20
US20230196633A1 (en) 2023-06-22

Similar Documents

Publication Publication Date Title
WO2023280065A1 (zh) 一种面向跨模态通信系统的图像重建方法及装置
CN109472232B (zh) 基于多模态融合机制的视频语义表征方法、系统及介质
Fang et al. A Method for Improving CNN-Based Image Recognition Using DCGAN.
CN109961034B (zh) 基于卷积门控循环神经单元的视频目标检测方法
CN111462282B (zh) 一种场景图生成方法
CN109783666B (zh) 一种基于迭代精细化的图像场景图谱生成方法
WO2020228525A1 (zh) 地点识别及其模型训练的方法和装置以及电子设备
CN111340105A (zh) 一种图像分类模型训练方法、图像分类方法、装置及计算设备
CN109743642B (zh) 基于分层循环神经网络的视频摘要生成方法
WO2020177214A1 (zh) 一种基于文本不同特征空间的双流式视频生成方法
CN113239801B (zh) 基于多尺度特征学习和多级域对齐的跨域动作识别方法
CN104216974A (zh) 基于词汇树分块聚类的无人机航拍图像匹配的方法
CN107563409A (zh) 一种基于区域图像特征关注网络与最近邻排序的描述方法
CN112651940A (zh) 基于双编码器生成式对抗网络的协同视觉显著性检测方法
CN109034953B (zh) 一种电影推荐方法
Gao et al. A hierarchical recurrent approach to predict scene graphs from a visual‐attention‐oriented perspective
WO2023173552A1 (zh) 目标检测模型的建立方法、应用方法、设备、装置及介质
CN114743027B (zh) 弱监督学习引导的协同显著性检测方法
CN115331075A (zh) 一种多模态场景图知识增强的对抗式多模态预训练方法
Ning et al. Deep Spatial/temporal-level feature engineering for Tennis-based action recognition
CN110111365B (zh) 基于深度学习的训练方法和装置以及目标跟踪方法和装置
CN114926742A (zh) 一种基于二阶注意力机制的回环检测及优化方法
US11881020B1 (en) Method for small object detection in drone scene based on deep learning
CN116881416A (zh) 关系推理与跨模态独立匹配网络的实例级跨模态检索方法
CN116756363A (zh) 一种由信息量引导的强相关性无监督跨模态检索方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22836816

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE