WO2023087659A1

WO2023087659A1 - 一种多模态数据处理方法、装置、设备及存储介质

Info

Publication number: WO2023087659A1
Application number: PCT/CN2022/095363
Authority: WO
Inventors: 晁银银; 王斌强; 董刚; 胡克坤; 赵雅倩; 李仁刚
Original assignee: 浪潮(北京)电子信息产业有限公司
Priority date: 2021-11-19
Filing date: 2022-05-26
Publication date: 2023-05-25
Also published as: CN114330488A

Abstract

本申请公开了一种多模态数据处理方法、装置、设备及存储介质，该方法包括：获取目标物体的不同光学模态信息，制作多模态数据集；构建多模态融合网络模型；多模态融合网络模型包括用于提取各模态特征的模态特征提取网络，用于将各模态特征进行合并的模态特征融合网络，以及用于将合并后的目标特征进行分类任务或回归任务的决策网络；利用多模态数据集训练多模态融合网络模型；获取待测物体的不同光学模态信息，并输入至训练完成的多模态融合网络模型中，输出分类结果或回归结果。

Description

一种多模态数据处理方法、装置、设备及存储介质

相关申请的交叉引用

本申请要求于2021年11月19日提交中国专利局，申请号为202111400866.8，申请名称为“一种多模态数据处理方法、装置、设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及多模态信息处理领域，特别是涉及一种多模态数据处理方法、装置、设备及存储介质。

背景技术

人们对世界的体验是多模态的，为了让人工智能更好地理解人们周围的世界，它需要能够解释和推理多模态信息。在多模态机器学习中，由于不同模态之间可能会存在互补的信息，使用多种模态的数据，可以让模型做出更鲁棒的预测。除此之外当其中一种模态数据缺失时，多模态系统仍然可以运行。近年来多模态机器学习快速发展起来，涉及的领域包括视听语音识别、多模态情感识别、医学图像分析以及多媒体事件检测等。

发明人意识到，尽管学术界产业界在多模态融合领域已经取得了诸多进展，但现阶段的研究主要是针对图片、语音和文字这三种模态。针对一些光学模态，例如偏振、频率等，其相关的多模态数据集和多模态数据融合却研究甚少，但光学模态中丰富的目标和环境特征，对目标识别、安防、生物医学等领域都有重要意义。

发明内容

一种多模态数据处理方法，包括：

获取目标物体的不同光学模态信息，制作多模态数据集；

构建多模态融合网络模型；多模态融合网络模型包括用于提取各模态特征的模态特征提取网络，用于将各模态特征进行合并的模态特征融合网络，以及用于将合并后的目标特征进行分类任务或回归任务的决策网络；

利用多模态数据集训练多模态融合网络模型；和

获取待测物体的不同光学模态信息，并输入至训练完成的多模态融合网络模型中，输出分类结果或回归结果。

在其中一个实施例中，在本申请实施例提供的上述多模态数据处理方法中，获取目标物体的不同光学模态信息，包括：

获取目标物体的强度、偏振和频率这三个不同模态中至少两个模态的信息。

在其中一个实施例中，在本申请实施例提供的上述多模态数据处理方法中，获取目标物体的强度、偏振和频率这三个不同模态的信息，包括：

通过分光系统将来自目标物体的反射光分为第一光束和第二光束；第一光束传输至光学微偏振器系统；第二光束传输至傅里叶4f系统；

通过光学微偏振器系统获取强度信息和偏振信息；

同时，通过傅里叶4f系统获取频率信息。

在其中一个实施例中，在本申请实施例提供的上述多模态数据处理方法中，光学微偏振器系统包括第一凸透镜、微偏振片和第一探测器；其中，

第一凸透镜，用于将第一光束会聚到微偏振片上；

微偏振片，用于同时采集强度信息和偏振信息；和

第一探测器，用于将微偏振片采集的强度信息和偏振信息转化为二维矩阵数据。

在其中一个实施例中，在本申请实施例提供的上述多模态数据处理方法中，微偏振片中每个像素单元包括用于采集强度信息的两个增透子单元和用于采集偏振信息的两个线偏振子单元；

两个线偏振子单元呈对角分布；两个增透子单元呈对角分布。

在其中一个实施例中，在本申请实施例提供的上述多模态数据处理方法中，傅里叶4f系统包括第二凸透镜、第三凸透镜、衍射屏和第二探测器；其中，

第二凸透镜，位于目标物体与分光系统之间，用于将来自目标物体的反射光进行会聚，得到平行光并传输至分光系统；

衍射屏，位于分光系统和第三凸透镜之间，用于将第二光束进行衍射，得到衍射光；

第三凸透镜，用于将衍射光会聚到第二探测器上；和

第二探测器，用于采集频谱信号。

在其中一个实施例中，在本申请实施例提供的上述多模态数据处理方法中，模态特征提取网络包括多个模态特征提取子网络；各模态特征提取子网络与各模态一一对应。

在其中一个实施例中，在本申请实施例提供的上述多模态数据处理方法中，各模态特征提取子网络的输入为二维矩阵形式的多模态数据集，输出为模态嵌入向量；和

模态特征融合网络的输入为模态嵌入向量，输出为通过计算三重笛卡尔乘积得到的融合模态；和

决策网络的输入为融合模态，输出为完成分类任务或回归任务后的结果。

本申请实施例还提供了一种多模态数据处理装置，包括：

多模态信息采集模块，用于获取目标物体的不同光学模态信息；还用于获取待测物体的不同光学模态信息；

数据集制作模块，用于根据目标物体的不同光学模态信息，制作多模态数据集；

模型构建模块，用于构建多模态融合网络模型；多模态融合网络模型包括用于提取各模态特征的模态特征提取网络，用于将各模态特征进行合并的模态特征融合网络，以及用于将合并后的目标特征进行分类任务或回归任务的决策网络；

模型训练模块，用于利用多模态数据集训练多模态融合网络模型；和

模型推理模块，用于将待测物体的不同光学模态信息输入至训练完成的多模态融合网络模型中，输出分类结果或回归结果。

在其中一个实施例中，在本申请实施例提供的上述多模态数据处理装置中，多模态信息采集模块，具体用于获取目标物体的强度、偏振和频率这三个不同模态中至少两个模态的信息。

在其中一个实施例中，在本申请实施例提供的上述多模态数据处理装置中，多模态信息采集模块，包括：分光系统、光学微偏振器系统和傅里叶4f系统；

分光系统，用于将来自目标物体的反射光分为第一光束和第二光束；第一光束传输至光学微偏振器系统；第二光束传输至傅里叶4f系统；

光学微偏振器系统，用于获取强度信息和偏振信息；和

傅里叶4f系统，用于获取频率信息。

在其中一个实施例中，在本申请实施例提供的上述多模态数据处理装置中，光学微偏振器系统包括第一凸透镜、微偏振片和第一探测器；其中，

第一凸透镜，用于将第一光束会聚到微偏振片上；

微偏振片，用于同时采集强度信息和偏振信息；和

在其中一个实施例中，在本申请实施例提供的上述多模态数据处理装置中，微偏振片中每个像素单元包括用于采集强度信息的两个增透子单元和用于采集偏振信息的两个线偏振子单元；

在其中一个实施例中，在本申请实施例提供的上述多模态数据处理装置中，傅里叶4f系统包括第二凸透镜、第三凸透镜、衍射屏和第二探测器；其中，

第三凸透镜，用于将衍射光会聚到第二探测器上；和

第二探测器，用于采集频谱信号。

本申请实施例还提供了一种多模态数据处理设备，包括存储器及一个或多个处理器，存储器中储存有计算机可读指令，所述计算机可读指令被所述一个或多个处理器执行时，使得所述一个或多个处理器执行上述任一项多模态数据处理方法的步骤。

本申请实施例还提供了一个或多个存储有计算机可读指令的非易失性计算机可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行上述任一项多模态数据处理方法的步骤。

本申请的一个或多个实施例的细节在下面的附图和描述中提出。本申请的其它特征和优点将从说明书、附图以及权利要求书变得明显。

附图说明

为了更清楚地说明本申请实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请根据一个或多个实施例提供的多模态数据处理方法的流程图；

图2为本申请根据一个或多个实施例提供的多模态信息采集模块的结构示意图；

图3为本申请根据一个或多个实施例提供的微偏振片中每个像素单元的结构示意图；

图4为现有的傅里叶4f系统的结构示意图；

图5为本申请根据一个或多个实施例提供的傅里叶4f系统的结构示意图；

图6为本申请根据一个或多个实施例提供的多模态融合网络模型的结构示意图；

图7为本申请根据一个或多个实施例提供的多模态张量融合的示意图；

图8为本申请根据一个或多个实施例提供的多模态数据处理装置的结构示意图；

图9为本申请根据一个或多个实施例提供的计算机设备的内部结构示意图；

图10为本申请根据一个或多个实施例提供的计算机设备的内部结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请提供一种多模态数据处理方法，如图1所示，以该方法应用于计算机设备为例进行说明，该方法包括以下步骤：

S101、获取目标物体的不同光学模态信息，制作多模态数据集；

S102、构建多模态融合网络模型；多模态融合网络模型包括用于提取各模态特征的模态特征提取网络，用于将各模态特征进行合并的模态特征融合网络，以及用于将合并后的目标特征进行分类任务或回归任务的决策网络；

具体地，构建基于注意力机制的模态特征提取网络完成各模态特征提取，采用基于笛卡尔积的模态特征融合网络合并多模态信息，最后利用决策网络完成分类和回归任务；

S103、利用多模态数据集训练多模态融合网络模型；

S104、获取待测物体的不同光学模态信息，并输入至训练完成的多模态融合网络模型中，输出分类结果或回归结果。

在本申请实施例提供的上述多模态数据处理方法中，主要包括获取物体的不同光学模态信息和基于神经网络的多模态信息融合两大部分，这样可以获取物体的各光学模态的丰富特征以及不同光学模态之间的内在关系，并实现多模态信息融合，将丰富目标特征高效完成分类或回归任务，提升了网络判别精度和模型鲁棒性，进而能够促进多模态人工智能信息提取和融合的发展，提升在光信息和多模态人工智能的结合应用领域的竞争力。

在具体实施时，在本申请实施例提供的上述多模态数据处理方法中，步骤S101获取目标物体的不同光学模态信息，具体可以包括：获取目标物体的强度、偏振和频率这三个不同模态中至少两个模态的信息。在实际应用中，步骤S101可以只获取目标物体的强度、偏振和频率中至少两个模态的信息，也可以获取目标物体除了强度、偏振和频率之外的其它至少两个模态的信息，在此不做赘述。

根据目标物体的强度、偏振和频率这三个不同模态中至少两个模态的信息，可用来制作多模态数据集。这些模态中丰富的目标和环境特征，均对目标识别、安防、生物医学等领域有着重要意义。

具体地，强度模态是光谱辐射强度测量，主要获取场景中的不同材料和物体的分布，得到的是传统意义上的光学图像。

偏振模态是测量光场矢量信息，与光谱辐射强度图像具有很大的不相关性，可以在雾霾天气等复杂环境下获取目标表面特征、形状、阴影和粗糙度，在大气环境检测、生物医学诊断和自动驾驶等领域具有广泛应用。加入偏振模态，不但提升辨别目标的概率，还能够增大探测精度。

频率模态是获取图像的频率分布和变化。频谱中的低频成分表征空间域内分布函数中变化缓慢的部分和粗的轮廓结构；频谱中的高频成分表征图像中急剧变化的部分和细节。通过获取频率模态可以提取到目标物体更多的细节特征。

在具体实施时，在本申请实施例提供的上述多模态数据处理方法中，上述步骤中获取目标物体的强度、偏振和频率这三个不同模态的信息，具体可以包括：首先，通过分光系统将来自目标物体的反射光分为第一光束和第二光束；第一光束传输至光学微偏振器系统；第二光束传输至傅里叶4f系统；然后，通过光学微偏振器系统获取强度信息和偏振信息；同时，通过傅里叶4f系统获取频率信息。

需要说明的是，上述步骤可以由多模态信息采集模块来执行，该多模态信息采集模块包括分光系统、光学微偏振器系统和傅里叶4f系统，它不但可以同时提取三种光学多模态信息，构建光学多模态数据集，还可以解决不同模态之间的对齐问题。

在实际应用中，如图2所示，分光系统可以选择分光棱镜1来进行分光；通过分光棱镜1将目标物体反射出的光通量一分为二，一部分输入到微偏振器系统中获取强度信息a和偏振信息b，另一部分输入到傅里叶4f系统中获取频率信息c。对于分光系统的具体类型设置，可以根据实际情况而定，在此不做限定。

在具体实施时，在本申请实施例提供的上述多模态数据处理方法中，如图2所示，光学微偏振器系统可以包括第一凸透镜2、微偏振片3和第一探测器4；其中，

第一凸透镜2，用于将第一光束会聚到微偏振片3上；

微偏振片3，用于同时采集强度信息a和偏振信息b；如图3所示，微偏振片3中每个像素单元包括2×2排列的四个子单元，具体包括用于采集强度信息a的两个增透子单元31和用于采集偏振信息b的两个线偏振子单元32；两个线偏振子单元31呈对角分布；两个增透子单元32呈对角分布。

第一探测器4，用于将微偏振片3采集的强度信息a和偏振信息b转化为二维矩阵数据。

具体地，如图2所示，第一凸透镜2将分光棱镜1的出射光会聚至微偏振片3，光束经过微偏振片3后被第一探测器4采集同时生成强度信息a和偏振信号b。微偏振片3中的每个像素单元包括四个子单元，对应第一探测器4的四个像素点，其中包括两个增透子单元31和两个线偏振子单元32，呈对角分布。增透子单元31和线偏振子单元32的对角分布，可以让整个第一探测器4均匀的采集偏振光和自然光。微偏振片3的存在虽然会将像素分辨率降低一半，但所获取的不同模态信息中包含的目标特征则可以大大提升后续模型精度。线偏振子单元32是通过亚波长金属线栅的起偏原理产生线偏振光，增透子单元31是通过在基底上蒸镀特定波段的增透膜来提高光的透过率，添加增透膜在一定程度上弥补了偏振图像和强度图像像素分辨率的降低。微偏振片3可以通过纳米压印或者电子束光刻等工艺制作。由于微偏振片3的每个单元需要与第一探测器4的像素对准，可将微偏振片3和第一探测器4集成在同一个基板上。最后将第一探测器4转化得到的二维矩阵数据传输至电脑，再通过电脑将二维矩阵数据拆分为对应强度模态和偏振模态的二维矩阵数据。

在具体实施时，在本申请实施例提供的上述多模态数据处理方法中，如图2所示，傅里叶4f系统可以包括第二凸透镜5、第三凸透镜6、衍射屏7和第二探测器8；其中，

第二凸透镜5，位于目标物体与分光系统1之间，用于将来自目标物体的反射光进行会聚，得到平行光并传输至分光系统1；这样可以保证不同模态图像的同源性，首先通过第二凸透镜5将目标物体的光通量会聚出射平行光，再通过分光棱镜1将输入的光通量一分为二生成透射光和反射光，分别传递至光学微偏振器系统和傅里叶4f系统；

衍射屏7，位于分光系统和第三凸透镜6之间，用于将第二光束进行衍射，得到衍射光；

第三凸透镜6，用于将衍射光会聚到第二探测器8上；

第二探测器8，用于采集频谱信号。

在实际应用中，如图4所示，傅里叶4f系统是由两个焦距均为f的凸透镜组成的“4f系统”，能够实现级联的两个傅里叶变换。搭载目标物体信息的平面波在透镜后焦面上的分布正比于样品分布的傅里叶变换，在第二个透镜的后焦面上又逆傅里叶变换，还原为原样品的清晰的像。而傅里叶4f系统有多个衍射系统和应用场景，因此在本申请的具体实施例中，采用傅里叶4f系统的衍生系统——傅里叶频谱分析器，即夫琅禾费衍射系统来采集目标物体的频率信息。如图5所示，本申请提供的傅里叶4f系统(即夫琅禾费衍射系统)包括第二凸透镜5、第三凸透镜6、衍射屏7和第二探测器8，衍射屏7可以是狭缝或者窗口，第二凸透镜5将来自目标物体的反射光会聚，得到的平行光入射到衍射屏7上，第三凸透镜6再将衍射光会聚得到频谱图像。在频谱面上放置第二探测器8即可采集频谱模态信号。此系统在物理上实现了傅里叶变换，可以在频域里考查光学系统对图像频谱做出的反应，以此对图像所包含的信息进行处理。

需要说明的是，第二凸透镜5、第三凸透镜6均为共焦凸透镜。根据傅立叶光学，设置的特定光学透镜对波场应用正向或反向傅立叶变换，傅里叶变换可提取成像物体的全局特征。由于在双透镜的共焦面上的光场分布等于目标物体强度分布的傅里叶变换，因此能够在这个面上进行各种操作，通过放置各种调制或者滤波器，可以实现很多功能，例如阿贝波特空间滤波。

在具体实施时，在本申请实施例提供的上述多模态数据处理方法中，如图6所示，模态特征提取网络包括多个模态特征提取子网络；各模态特征提取子网络与各模态一一对应。各模态特征提取子网络的输入为二维矩阵形式的多模态数据集，即第一探测器和第二探测器采集到的强度、偏振和频率三种模态信号，输出为模态嵌入向量。各模态特征提取子网络提取网络的结构具有一致性，包括输入层、flatten层、全连接层和注意力层，但各个子网络的输入和权重参数是不共享的；其中，注意力层包括线性映射、ReLU激活和归一化层。

需要说明的是，flatten层是用来将输入“压平”，即把多维的输入一维化。ReLU(Rectified Linear Unit，修正线性单元)是人工神经网络中常用的激活函数。

以强度模态为例，如图6所示，网络输入层为强度模态的二维矩阵，假设为I _64*64(输入层的数据大小与探测器的像素数有关)，采用flatten层将其转化为一维向量I ₄₀₉₆输入到全连接层。再将全连接层的输出I ₁₂₈，输入到注意力层。注意力层包括线性映射、ReLU激活和归一化层，其中ReLU层含有128个单元，这样保证了注意力层的输出与输入具有相同维度，对应的归一化层输出128个权重W _I。最后将输出的权重向量W _I与I ₁₂₈对应点相乘，得到模态特征提取网络的输出：

z ^I∈R ¹²⁸

类似的，得到偏振和频率模态的输出依次为z ^P，z ^f∈R ¹²⁸。

在具体实施时，在本申请实施例提供的上述多模态数据处理方法中，模态特征融合网络的输入为模态嵌入向量，输出为通过计算三重笛卡尔乘积得到的融合模态，即模态特征融合网络是提取不同模态之间的内在关系，将多个模态输入转换为一个张量(即三维矩阵)输出。在计算三重笛卡尔乘积时，由单模态计算出双模态和三模态。

为了提升网络的通用性和灵活性，若探测器的像素数或者特征提取网络的神经元个数不一致，导致输出矢量大小不同时，可以通过给每个模态矢量添加常数C，来补足长度，例如C可以是0或者1。

每个神经元的坐标(z ^I、z ^P和z ^f)可以看作是由强度、偏振和频率的单模态输出矢量定义的三重笛卡尔空间中的一个点。这个定义在数学上等价于强度嵌入矢量z ^I、偏振嵌入矢量z ^P和频率嵌入矢量z ^f之间的可微外积：

其中，

代表向量之间的外积，z ^I、z ^P和z ^f是来自模态特征提取网络的单模态输出向量。具体的，三个z ^I、z ^P和z ^f∈R ¹²⁸表示单模态，三个

和

表示获取的双模态，一个

得到三模态的相互作用。最后，如图7所示，七个不同语义子区域的三维立方体通过拼接，可得到z ^m∈R ^129*129*129。

需要说明的是，虽然模态融合是计算笛卡尔积，没有可学习的参数，但其过拟合的机会很低，因为张量融合的输出神经元易于解释，在语义上非常有意义。因此，网络的后续层很容易解码出有意义的信息。

在具体实施时，在本申请实施例提供的上述多模态数据处理方法中，决策网络的输入为融合模态，输出为完成分类任务或回归任务后的结果；决策网络包括flatten层、两个ReLU层和输出层。决策网络是根据不同的任务设置不同的网络输出层和损失函数。在模态特征融合网络之后，每个目标物的特征数据可以表示为多模态张量z ^m。

具体地，将z ^m输入到flatten层得到一维矢量，再输入到ReLU层。ReLU层包括线性映射运算和ReLU非线性激活函数运算。最后网络的输出层softmax层或者sigmoid层，分别完成分类或者回归任务。需要说明的是，softmax为归一化指数函数；sigmoid被用作神经网络的激活函数，将变量映射到0和1之间。当输出层为softmax层时，决策网络的损失函数可以为分类交叉熵损失函数，来用于图片分类；当输出层为sigmoid层时，决策网络的损失函数可以为平均误差损失函数，来完成回归任务。

需要注意的是，本申请利用简单和紧凑的光学系统不但可以同时提取三种光学多模态信息，构建光学多模态数据集，还可以解决不同模态之间的对齐问题，再利用基于注意力机制和笛卡尔积的多模态数据融合网络提取各模态的不同特征，并且学习不同模态之间的内在关系，可以大大提升网络判别精度和模型鲁棒性。除此之外，所使用的推断网络支持不同的输出层，可灵活实现分类或者回归等多种任务，进而为后续的应用提供多种可能。

基于同一申请构思，本申请实施例还提供了一种多模态数据处理装置，由于该装置解决问题的原理与前述一种多模态数据处理方法相似，因此该装置的实施可以参见多模态数据处理方法的实施，重复之处不再赘述。

在具体实施时，本申请实施例提供的多模态数据处理装置，如图8所示，具体包括：

多模态信息采集模块11，用于获取目标物体的不同光学模态信息；还用于获取待测物体的不同光学模态信息；

数据集制作模块12，用于根据目标物体的不同光学模态信息，制作多模态数据集；

模型构建模块13，用于构建多模态融合网络模型；多模态融合网络模型包括用于提取各模态特征的模态特征提取网络，用于将各模态特征进行合并的模态特征融合网络，以及用于将合并后的目标特征进行分类任务或回归任务的决策网络；

模型训练模块14，用于利用多模态数据集训练多模态融合网络模型；

模型推理模块15，用于将待测物体的不同光学模态信息输入至训练完成的多模态融合网络模型中，输出分类结果或回归结果。

在本申请实施例提供的上述多模态数据处理装置中，可以通过上述五个模块的相互作用，获取物体的各光学模态的丰富特征以及不同光学模态之间的内在关系，并实现多模态信息融合，将丰富目标特征高效完成分类或回归任务，进而能够促进多模态人工智能信息提取和融合的发展，提升在光信息和多模态人工智能的结合应用领域的竞争力。

在具体实施时，在本申请实施例提供的上述多模态数据处理装置中，多模态信息采集模块11，具体可以用于获取目标物体的强度、偏振和频率这三个不同模态中至少两个模态的信息。

在具体实施时，在本申请实施例提供的上述多模态数据处理装置中，为了结构简单且紧凑，该多模态信息采集模块可以包括：分光系统(如分光棱镜)、光学微偏振器系统和傅里叶4f系统；

光学微偏振器系统，用于获取强度信息和偏振信息；

傅里叶4f系统，用于获取频率信息。

在具体实施时，在本申请实施例提供的上述多模态数据处理装置中，如图2所示，光学微偏振器系统可以包括第一凸透镜2、微偏振片3和第一探测器4；其中，

第一凸透镜2，用于将第一光束会聚到微偏振片3上；

在具体实施时，在本申请实施例提供的上述多模态数据处理装置中，如图2所示，傅里叶4f系统可以包括第二凸透镜5、第三凸透镜6、衍射屏7和第二探测器8；其中，

第三凸透镜6，用于将衍射光会聚到第二探测器8上；

第二探测器8，用于采集频谱信号。

关于上述各个部件更加具体的工作过程可以参考前述实施例公开的相应内容，在此不再进行赘述。

相应地，本申请实施例还公开了一种多模态数据处理设备，该多模态数据处理设备可以是计算机设备，该计算机设备可以是服务器，其内部结构图可以如图9所示，该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机可读指令和数据库。该内存储器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的数据库用于存储多模态融合网络模型。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种多模态数据处理方法。

在一个实施例中，本申请实施例公开的多模态数据处理设备，该多模态数据处理设备可以是计算机设备，该计算机设备可以是终端，其内部结构图可以如图10所示，该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机可读指令。该内存储器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种多模态数据处理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

进一步地，本申请还公开了一种非易失性计算机可读存储介质，该非易失性计算机可读存储介质存储有计算机可读指令，该计算机可读指令被一个或多个处理器执行时可实现上述任意一个实施例的一种多模态数据处理方法的步骤。本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置、设备、存储介质而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

综上，本申请实施例提供的一种多模态数据处理方法，包括：获取目标物体的不同光学模态信息，制作多模态数据集；构建多模态融合网络模型；多模态融合网络模型包括用于提取各模态特征的模态特征提取网络，用于将各模态特征进行合并的模态特征融合网络，以及用于将合并后的目标特征进行分类任务或回归任务的决策网络；利用多模态数据集训练多模态融合网络模型；获取待测物体的不同光学模态信息，并输入至训练完成的多模态融合网络模型中，输出分类结果或回归结果。上述多模态数据处理方法主要包括获取物体的不同光学模态信息和基于神经网络的多模态信息融合两大部分，这样可以获取物体的各光学模态的丰富特征以及不同光学模态之间的内在关系，并实现多模态信息融合，将丰富目标特征高效完成分类或回归任务，进而能够促进多模态人工智能信息提取和融合的发展，提升在光信息和多模态人工智能的结合应用领域的竞争力。此外，本申请还针对多模态数据处理方法提供了相应的装置、设备及计算机可读存储介质，进一步使得上述方法更具有实用性，该装置、设备及计算机可读存储介质具有相应的优点。

其中，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一非易失性计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种多模态数据处理方法，其特征在于，包括：

获取目标物体的不同光学模态信息，制作多模态数据集；

构建多模态融合网络模型；所述多模态融合网络模型包括用于提取各模态特征的模态特征提取网络，用于将各模态特征进行合并的模态特征融合网络，以及用于将合并后的目标特征进行分类任务或回归任务的决策网络；

利用所述多模态数据集训练所述多模态融合网络模型；和

获取待测物体的不同光学模态信息，并输入至训练完成的所述多模态融合网络模型中，输出分类结果或回归结果。
根据权利要求1所述的多模态数据处理方法，其特征在于，所述获取目标物体的不同光学模态信息，包括：

获取目标物体的强度、偏振和频率这三个不同模态中至少两个模态的信息。
根据权利要求2所述的多模态数据处理方法，其特征在于，所述获取目标物体的强度、偏振和频率这三个不同模态的信息，包括：

通过分光系统将来自目标物体的反射光分为第一光束和第二光束；所述第一光束传输至光学微偏振器系统；所述第二光束传输至傅里叶4f系统；

通过所述光学微偏振器系统获取强度信息和偏振信息；

同时，通过所述傅里叶4f系统获取频率信息。
根据权利要求3所述的多模态数据处理方法，其特征在于，所述光学微偏振器系统包括第一凸透镜、微偏振片和第一探测器；其中，

所述第一凸透镜，用于将所述第一光束会聚到所述微偏振片上；

所述微偏振片，用于同时采集强度信息和偏振信息；和

所述第一探测器，用于将所述微偏振片采集的强度信息和偏振信息转化为二维矩阵数据。
根据权利要求4所述的多模态数据处理方法，其特征在于，所述微偏振片中每个像素单元包括用于采集强度信息的两个增透子单元和用于采集偏振信息的两个线偏振子单元；

两个所述线偏振子单元呈对角分布；两个所述增透子单元呈对角分布。
根据权利要求3所述的多模态数据处理方法，其特征在于，所述傅里叶4f系统包括第二凸透镜、第三凸透镜、衍射屏和第二探测器；其中，

所述第二凸透镜，位于目标物体与所述分光系统之间，用于将来自目标物体的反射光进行会聚，得到平行光并传输至所述分光系统；

所述衍射屏，位于所述分光系统和所述第三凸透镜之间，用于将所述第二光束进行衍射，得到衍射光；

所述第三凸透镜，用于将所述衍射光会聚到所述第二探测器上；和

所述第二探测器，用于采集频谱信号。
根据权利要求1所述的多模态数据处理方法，其特征在于，所述模态特征提取网络包括多个模态特征提取子网络；各所述模态特征提取子网络与各模态一一对应。
根据权利要求7所述的多模态数据处理方法，其特征在于，各所述模态特征提取子网络的输入为二维矩阵形式的多模态数据集，输出为模态嵌入向量；

所述模态特征融合网络的输入为所述模态嵌入向量，输出为通过计算三重笛卡尔乘积得到的融合模态；和

所述决策网络的输入为所述融合模态，输出为完成分类任务或回归任务后的结果。
一种多模态数据处理装置，其特征在于，包括：

多模态信息采集模块，用于获取目标物体的不同光学模态信息；还用于获取待测物体的不同光学模态信息；

数据集制作模块，用于根据目标物体的不同光学模态信息，制作多模态数据集；

模型构建模块，用于构建多模态融合网络模型；所述多模态融合网络模型包括用于提取各模态特征的模态特征提取网络，用于将各模态特征进行合并的模态特征融合网络，以及用于将合并后的目标特征进行分类任务或回归任务的决策网络；

模型训练模块，用于利用所述多模态数据集训练所述多模态融合网络模型；和

模型推理模块，用于将待测物体的不同光学模态信息输入至训练完成的所述多模态融合网络模型中，输出分类结果或回归结果。
根据权利要求9所述的多模态数据处理装置，其特征在于，所述多模态信息采集模块，具体用于获取目标物体的强度、偏振和频率这三个不同模态中至少两个模态的信息。
根据权利要求10所述的多模态数据处理装置，其特征在于，所述多模态信息采集模块，包括：分光系统、光学微偏振器系统和傅里叶4f系统；

所述分光系统，用于将来自目标物体的反射光分为第一光束和第二光束；所述第一光束传输至光学微偏振器系统；所述第二光束传输至傅里叶4f系统；

所述光学微偏振器系统，用于获取强度信息和偏振信息；和

所述傅里叶4f系统，用于获取频率信息。
根据权利要求11所述的多模态数据处理装置，其特征在于，所述光学微偏振器系统包括第一凸透镜、微偏振片和第一探测器；其中，

所述第一凸透镜，用于将所述第一光束会聚到所述微偏振片上；

所述微偏振片，用于同时采集强度信息和偏振信息；和

所述第一探测器，用于将所述微偏振片采集的强度信息和偏振信息转化为二维矩阵数据。
根据权利要求12所述的多模态数据处理装置，其特征在于，所述微偏振片中每个像素单元包括用于采集强度信息的两个增透子单元和用于采集偏振信息的两个线偏振子单元；

两个所述线偏振子单元呈对角分布；两个所述增透子单元呈对角分布。
根据权利要求11所述的多模态数据处理装置，其特征在于，所述傅里叶4f系统包括第二凸透镜、第三凸透镜、衍射屏和第二探测器；其中，

所述第二凸透镜，位于目标物体与所述分光系统之间，用于将来自目标物体的反射光进行会聚，得到平行光并传输至所述分光系统；

所述衍射屏，位于所述分光系统和所述第三凸透镜之间，用于将所述第二光束进行衍射，得到衍射光；

所述第三凸透镜，用于将所述衍射光会聚到所述第二探测器上；和

所述第二探测器，用于采集频谱信号。
一种多模态数据处理设备，其特征在于，包括存储器及一个或多个处理器，所述存储器中储存有计算机可读指令，所述计算机可读指令被所述一个或多个处理器执行时，使得所述一个或多个处理器执行如权利要求1-8任意一项所述的方法的步骤。16、一个或多个存储有计算机可读指令的非易失性计算机可读存储介质，其特征在于，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如权利要求1-8任意一项所述的方法的步骤。