WO2023165361A1

WO2023165361A1 - 一种数据处理方法及相关设备

Info

Publication number: WO2023165361A1
Application number: PCT/CN2023/077191
Authority: WO
Inventors: 陈醒濠; 王一凯; 王秀东; 王云鹤
Original assignee: 华为技术有限公司
Priority date: 2022-03-02
Filing date: 2023-02-20
Publication date: 2023-09-07
Also published as: CN114897039A

Abstract

本申请实施例公开了一种数据处理方法，该方法应用于多模态融合场景，方法包括：获取第一数据与第二数据，第一数据与第二数据的模态不同；获取第一数据的第一特征集合与第二数据的第二特征集合；使用第二特征集合中的第二目标特征替换第一特征集合中的第一目标特征，得到第三特征集合，第二目标特征与第一目标特征对应；基于第三特征集合与第二特征集合获取数据特征，数据特征用于实现计算机视觉任务。通过使用不同模态数据之间的特征进行替换，可以高效融合不同模态数据的信息，使得获取的数据特征具有多模态数据的特性，提高数据特征的表达能力。

Description

一种数据处理方法及相关设备

本申请要求于2022年3月2日提交中国专利局、申请号为202210203516.0、发明名称为“一种数据处理方法及相关设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及人工智能领域，尤其涉及一种数据处理方法及相关设备。

背景技术

人工智能(artificial intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能领域的研究包括机器人，自然语言处理，计算机视觉，决策与推理，人机交互，推荐与搜索，AI基础理论等。

对于文本、图片、视音频等不同模态数据在不同程度上具有不同层次的知识表达性，需要研究不同模态信息的特征表示和学习方法，实现多模态数据的协同表示。进入深度学习时代后，多模态特征融合的技术更加重要。例如，自动驾驶车辆的感知系统得到了大幅提升。为了获得更加鲁棒和准确的感知结果，一辆具备辅助驾驶或自动驾驶功能的车辆，通常需要配备不同的传感器，在不同的工况下互相补充。典型的传感器模态包括：摄像头、雷达、激光雷达、高精地图等。

目前，多模态融合采用的策略是将不同模态的输入拼合起来，输入到同一个transformer结构中，得到最终的输出。

然而，上述多模态融合采用的策略只是简单的对输入进行拼合，并不适用于多模态融合的所有场景。

发明内容

本申请实施例提供了一种数据处理方法及相关设备。通过使用不同模态数据之间的特征进行替换，可以高效融合不同模态数据的信息，使得获取的数据特征具有多模态数据的特性，提高数据特征的表达能力。

本申请实施例第一方面提供了一种数据处理方法，该方法应用于多模态融合场景，方法包括：获取第一数据与第二数据，第一数据与第二数据的模态不同；获取第一数据的第一特征集合与第二数据的第二特征集合；使用第二特征集合中的第二目标特征替换第一特征集合中的第一目标特征，得到第三特征集合，第二目标特征与第一目标特征对应；基于第三特征集合与第二特征集合获取数据特征，数据特征用于实现计算机视觉任务。其中，第二目标特征与第一目标特征的对应关系可以根据第一数据与第二数据的空间关系、语义关系等所确定，也可以根据特征在特征集合中的位置所确定等，对具体如何确定不同特征集合中特征对应关系的方式此处不做限定。

本申请实施例中，通过使用不同模态数据之间的特征进行替换，可以高效融合不同模态数据的信息，使得获取的数据特征具有多模态数据的特性，提高数据特征的表达能力。

可选地，在第一方面的一种可能的实现方式中，上述步骤：基于第三特征集合与第二特征集合获取数据特征，包括：使用第一特征集合中的第三目标特征替换第二特征集合中的第四目标特征，得到第四特征集合，第三目标特征与第四目标特征对应；基于第三特征集合与第四特征集合获取数据特征。

该种可能的实现方式中，不仅使用第二目标特征替换第一目标特征，还可以使用第三目标特征替换第四目标特征，实现第一特征集合与第二特征集合之间特征的互换。可以使得第三特征集合具有第二特征集合对应的模态数据的特征，还可以使得第四特征集合具有第一特征集合对应的模态数据的特征，进而提升后续基于第三特征集合与第四特征集合生成的数据特征的表达能力，提升后续得到计算机视觉任务结果的准确度和/或精确度。

可选地，在第一方面的一种可能的实现方式中，上述步骤：使用第二特征集合中的第二目标特征替换第一特征集合中的第一目标特征之前，方法还包括：获取第一特征集合的第一分值集合，第一特征集合中的第一特征与第一分值集合中的第一分值一一对应；获取第二特征集合的第二分值集合，第二特征集合中的第二特征与第二分值集合中的第二分值一一对应；基于第一分值集合和/或第二分值集合确定第二目标特征。

该种可能的实现方式中，通过引入特征的分值来确定第二目标特征或第一目标特征，该分值可以是评判特征重要程度的指标(例如越大越好)，也可以是用于评估特征无效性的指标(例如分值越小越好)等，通过该种方式可以将一个模态数据中不重要的特征被另一个模态数据中重要的特征进行替换，进而提升被替换特征所在的特征集合对于模态数据的表达。

可选地，在第一方面的一种可能的实现方式中，上述步骤：获取第一特征集合的第一分值集合，包括：基于打分网络对第一特征集合中的各个特征进行评估，得到第一分值集合，打分网络用于评估特征的重要性；获取第二特征集合的第二分值集合，包括：基于打分网络对第二特征集合中的各个特征进行评估，得到第二分值集合。

该种可能的实现方式中，通过引入打分网络对特征的重要性进行评估，进而使得后续确定的第二目标特征与第一目标特征更加合理。

可选地，在第一方面的一种可能的实现方式中，上述打分网络的输出值服从稀疏分布。即可以理解为打分网络的输出值更加稀疏，使得某些特征的分值与另外一些特征的分值差别较大，进而确定哪些特征是有用的或无用的。例如，打分网络在训练过程中可以是使用L1范数进行训练。

该种可能的实现方式中，使得某些特征的分值与另外一些特征的分值差别较大，进而确定哪些特征是有用的或无用的。

可选地，在第一方面的一种可能的实现方式中，上述步骤：获取第一特征集合的第一分值集合，包括：对第一特征集合中的各个第一特征进行数学运算，得到第一分值集合，数学运算是基于各个第一特征本身进行的运算，数学运算包括求秩运算或求模运算；获取第二特征集合的第二分值集合，包括：对第二特征集合中的各个第二特征进行数学运算，得到第二分值集合。

该种可能的实现方式中，通过特征本身的数学运算，减少引入判断分值的其他结构，简化整体的网络结构。

可选地，在第一方面的一种可能的实现方式中，上述步骤：获取第一数据的第一特征集合与第二数据的第二特征集合，包括：基于神经网络获取第一特征集合与第二特征集合，神经网络包括注意力网络、多层感知机、池化层或卷积层。

该种可能的实现方式中，第一特征集合与第二特征集合是基于神经网络获取的，并可以适用于注意力网络、多层感知机、池化层或卷积层等场景。

可选地，在第一方面的一种可能的实现方式中，上述步骤：基于神经网络获取第一特征集合与第二特征集合，包括：拆分第一数据得到多个第一子数据；拆分第二数据得到多个第二子数据；将多个第一子数据与第二子数据输入神经网络，得到第一特征集合与第二特征集合。

该种可能的实现方式中，通过对模态数据的拆分获取神经网络的输入，使得后续得到特征集合中特征的数量与拆分的数量相关，进而控制后续的计算过程。

可选地，在第一方面的一种可能的实现方式中，上述步骤：使用第二特征集合中的第二目标特征替换第一特征集合中的第一目标特征，包括：基于残差位置编码使用第二目标特征替换第一目标特征，残差位置编码用于确定第一特征集合与第二特征集合中各个特征所在的位置。

该种可能的实现方式中，通过残差位置编码确定替换特征的位置，进而保证替换特征时不改变特征在原特征集合中的位置。

可选地，在第一方面的一种可能的实现方式中，上述的神经网络还包括第一网络层，第一网络层的结构与神经网络相关。

该种可能的实现方式中，第一特征集合与第二特征集合可以是第一网络层的输出，即无论第一特征集合与第二特征集合属于神经网络中的什么位置，都可以通过不同模态数据的特征之间的替换来提升后续数据特征的表达能力。

可选地，在第一方面的一种可能的实现方式中，上述步骤还包括：将数据特征输入第二网络层获取计算机视觉任务的结果，第二网络层与计算机视觉任务相关。

该种可能的实现方式中，数据特征可以通过第二网络层得到计算机视觉任务的结果，由于数据特征是经过不同模态数据之间的特征替换，从而使得该结果更加准确。

可选地，在第一方面的一种可能的实现方式中，上述的计算机视觉任务为分类任务，第二网络层为全连接层；或者计算机视觉任务为分割任务或检测任务，第二网络层为卷积神经网络层或上采样层。

该种可能的实现方式中，该方法可以应用于不同场景的计算机视觉任务，可以准确的完成检测任务、分割任务、分类任务等。

本申请实施例第二方面提供了一种数据处理设备，数据处理设备应用于多模态融合场景，数据处理设备包括：获取单元，用于获取第一数据与第二数据，第一数据与第二数据的模态不同；获取单元，还用于获取第一数据的第一特征集合与第二数据的第二特征集合；替换单元，用于使用第二特征集合中的第二目标特征替换第一特征集合中的第一目标特征，得到第三特征集合，第二目标特征与第一目标特征对应；获取单元，用于基于第三特征集合与第二特征集合获取数据特征，数据特征用于实现计算机视觉任务。

可选地，在第二方面的一种可能的实现方式中，上述的获取单元，具体用于使用第一特征集合中的第三目标特征替换第二特征集合中的第四目标特征，得到第四特征集合，第三目标特征与第四目标特征对应；获取单元，具体用于基于第三特征集合与第四特征集合获取数据特征。

可选地，在第二方面的一种可能的实现方式中，上述的获取单元，还用于获取第一特征集合的第一分值集合，第一特征集合中的第一特征与第一分值集合中的第一分值一一对应；获取单元，还用于获取第二特征集合的第二分值集合，第二特征集合中的第二特征与第二分值集合中的第二分值一一对应；数据处理设备还包括：确定单元，用于基于第一分值集合和/或第二分值集合确定第二目标特征。

可选地，在第二方面的一种可能的实现方式中，上述的获取单元，具体用于基于打分网络对第一特征集合中的各个特征进行评估，得到第一分值集合，打分网络用于评估特征的重要性；获取单元，具体用于基于打分网络对第二特征集合中的各个特征进行评估，得到第二分值集合。

可选地，在第二方面的一种可能的实现方式中，上述打分网络的输出值服从稀疏分布。

可选地，在第二方面的一种可能的实现方式中，上述的获取单元，具体用于对第一特征集合中的各个第一特征进行数学运算，得到第一分值集合，数学运算是基于各个第一特征本身进行的运算，数学运算包括求秩运算或求模运算；获取单元，具体用于对第二特征集合中的各个第二特征进行数学运算，得到第二分值集合。

可选地，在第二方面的一种可能的实现方式中，上述的获取单元，具体用于基于神经网络获取第一特征集合与第二特征集合，神经网络包括注意力网络、多层感知机、池化层或卷积层。

可选地，在第二方面的一种可能的实现方式中，上述的获取单元，具体用于拆分第一数据得到多个第一子数据；获取单元，具体用于拆分第二数据得到多个第二子数据；获取单元，具体用于将多个第一子数据与第二子数据输入神经网络，得到第一特征集合与第二特征集合。

可选地，在第二方面的一种可能的实现方式中，上述的替换单元，具体用于基于残差位置编码使用第二目标特征替换第一目标特征，残差位置编码用于确定第一特征集合与第二特征集合中各个特征所在的位置。

可选地，在第二方面的一种可能的实现方式中，上述的神经网络还包括第一网络层，第一网络层的结构与神经网络相关。

可选地，在第二方面的一种可能的实现方式中，上述的获取单元，还用于将数据特征输入第二网络层获取计算机视觉任务的结果，第二网络层与计算机视觉任务相关。

可选地，在第二方面的一种可能的实现方式中，上述的计算机视觉任务为分类任务，第二网络层为全连接层；或者计算机视觉任务为分割任务或检测任务，第二网络层为卷积神经网络层或上采样层。

本申请实施例第三方面提供了一种数据处理设备，包括：处理器，处理器与存储器耦合，存储器用于存储程序或指令，当程序或指令被处理器执行时，使得该数据处理设备实现上述第一方面或第一方面的任意可能的实现方式中的方法。

本申请实施例第四方面提供了一种计算机可读介质，其上存储有计算机程序或指令，当计算机程序或指令在计算机上运行时，使得计算机执行前述第一方面或第一方面的任意可能的实现方式中的方法。

本申请实施例第五方面提供了一种计算机程序产品，该计算机程序产品在计算机上执行时，使得计算机执行前述第一方面或第一方面的任意可能的实现方式中的方法。

其中，第二、第三、第四、第五方面或者其中任一种可能实现方式所带来的技术效果可参见第一方面或第一方面不同可能实现方式所带来的技术效果，此处不再赘述。

从以上技术方案可以看出，本申请实施例具有以下优点：通过使用不同模态数据之间的特征进行替换，可以高效融合不同模态数据的信息，使得获取的数据特征具有多模态数据的特性，提高数据特征的表达能力。

附图说明

图1为本申请实施例提供的系统架构的结构示意图；

图2为本申请实施例提供的一种芯片硬件结构示意图；

图3A为本申请实施例提供的数据处理系统的一个结构示意图；

图3B为本申请实施例提供的数据处理系统的另一结构示意图；

图4为本申请实施例提供的数据处理方法一个流程示意图；

图5A为本申请实施例提供的第一数据的一种示例图；

图5B为本申请实施例提供的第二数据的一种示例图；

图6A为本申请实施例提供的第一数据的另一种示例图；

图6B为本申请实施例提供的第二数据的另一种示例图；

图7A为本申请实施例提供的第一数据的一种示例图；

图7B为本申请实施例提供的第二数据的一种示例图；

图8A为本申请实施例提供的第一数据的另一种示例图；

图8B为本申请实施例提供的第二数据的另一种示例图；

图9为本申请实施例提供的神经网络的几种示例图；

图10A为本申请实施例提供的特征集合在神经网络中位置的一种示例图；

图10B为本申请实施例提供的特征集合在神经网络中位置的另一种示例图；

图11为本申请实施例提供的数据处理方法一种示例流程图；

图12为本申请实施例提供的数据处理方法另一种示例流程图；

图13为本申请实施例提供的数据处理设备的一个结构示意图；

图14为本申请实施例提供的数据处理设备的另一个结构示意图。

具体实施方式

多模态融合(Multimodal Fusion)负责联合多个模态的信息，进行目标预测(分类或者回归)，属于MMML最早的研究方向之一，也是目前应用最广的方向，它还存在其他常见的别名，例如多源信息融合(Multi-source Information Fusion)、多传感器融合(Multi-sensor Fusion)。进入深度学习时代后，多模态特征融合的技术更加重要。例如，自动驾驶车辆的感知系统得到了大幅提升。为了获得更加鲁棒和准确的感知结果，一辆具备辅助驾驶或自动驾驶功能的车辆，通常需要配备不同的传感器，在不同的工况下互相补充。典型的传感器模态包括：摄像头、雷达、激光雷达、高精地图等。目前，多模态融合采用的策略是将不同模态的输入拼合起来，输入到同一个transformer结构中，得到最终的输出。

为了解决上述技术问题，本申请实施例提供一种数据处理方法，一方面，通过将transformer结构应用于车道线检测任务上，可以有效地建模车道线之间的长程联系。另一方面，通过在车道线检测的过程中增加图像中对象的检测框位置信息，可以提升对场景的感知能力。减少由于车道线被车辆遮挡场景下的误判。下面将结合附图对本申请实施例的数据处理方法及相关设备进行详细的介绍。

为了便于理解，下面先对本申请实施例主要涉及的相关术语和概念进行介绍。

1、神经网络

神经网络可以是由神经单元组成的，神经单元可以是指以X_s和截距1为输入的运算单元，该运算单元的输出可以为：

其中，s＝1、2、……n，n为大于1的自然数，W_s为X_s的权重，b为神经单元的偏置。f为神经单元的激活函数(activation functions)，用于将非线性特性引入神经网络中，来将神经单元中的输入信号转换为输出信号。该激活函数的输出信号可以作为下一层卷积层的输入。激活函数可以是Relu函数。神经网络是将许多个上述单一的神经单元联结在一起形成的网络，即一个神经单元的输出可以是另一个神经单元的输入。每个神经单元的输入可以与前一层的局部接受域相连，来提取局部接受域的特征，局部接受域可以是由若干个神经单元组成的区域。

神经网络中的每一层的工作可以用数学表达式y＝a(Wx+b)来描述：从物理层面神经网络中的每一层的工作可以理解为通过五种对输入空间(输入向量的集合)的操作，完成输入空间到输出空间的变换(即矩阵的行空间到列空间)，这五种操作包括：1、升维/降维；2、放大/缩小；3、旋转；4、平移；5、“弯曲”。其中1、2、3的操作由Wx完成，4的操作由+b完成，5的操作则由a()来实现。这里之所以用“空间”二字来表述是因为被分类的对象并不是单个事物，而是一类事物，空间是指这类事物所有个体的集合。其中，W是权重向量，该向量中的每一个值表示该层神经网络中的一个神经元的权重值。该向量W决定着上文的输入空间到输出空间的空间变换，即每一层的权重W控制着如何变换空间。训练神经网络的目的，也就是最终得到训练好的神经网络的所有层的权重矩阵(由很多层的向量W形成的权重矩阵)。因此，神经网络的训练过程本质上就是学习控制空间变换的方式，更具体的就是学习权重矩阵。

2、卷积神经网络

卷积神经网络(convolutional neuron network，CNN)是一种带有卷积结构的深度神经网络。卷积神经网络包含了一个由卷积层和子采样层构成的特征抽取器。该特征抽取器可以看作是滤波器，卷积过程可以看作是使同一个可训练的滤波器与一个输入的图像或者卷积特征平面(feature map)做卷积。卷积层是指卷积神经网络中对输入信号进行卷积处理的神经元层。在卷积神经网络的卷积层中，一个神经元可以只与部分邻层神经元连接。一个卷积层中，通常包含若干个特征平面，每个特征平面可以由一些矩形排列的神经单元组成。同一特征平面的神经单元共享权重，这里共享的权重就是卷积核。共享权重可以理解为提取图像信息的方式与位置无关。这其中隐含的原理是：图像的某一部分的统计信息与其他部分是一样的。即意味着在某一部分学习的图像信息也能用在另一部分上。所以对于图像上的所有位置，都能使用同样的学习得到的图像信息。在同一卷积层中，可以使用多个卷积核来提取不同的图像信息，一般地，卷积核数量越多，卷积操作反映的图像信息越丰富。

卷积核可以以随机大小的矩阵的形式初始化，在卷积神经网络的训练过程中卷积核可以通过学习得到合理的权重。另外，共享权重带来的直接好处是减少卷积神经网络各层之间的连接，同时又降低了过拟合的风险。

3、transformer

transformer结构是一种包含编码器与解码器的特征提取网络(类别于卷积神经网络)。

编码器：通过自注意力的方式在全局感受野下进行特征学习，例如像素点的特征。

解码器：通过自注意力与交叉注意力来学习所需模块的特征，例如输出框的特征。

下面对注意力(也可以称为注意力机制)进行描述：

注意力机制可以快速提取稀疏数据的重要特征。注意力机制是发生在编码器和解码器之间，也可以说是发生在输入句子和生成句子之间。而自注意力模型中的自注意力机制则发生在输入序列内部，或者输出序列内部，可以抽取到同一个句子内间隔较远的单词之间的联系，比如句法特征(短语结构)。自注意力机制通过QKV提供了一种有效的捕捉全局上下文信息的建模方式。假定输入为Q(query)，以键值对(K，V)形式存储上下文。那么注意力机制其实是query到一系列键值对(key,value)上的映射函数。attention函数的本质可以被描述为一个查询(query)到一系列(键key-值value)对的映射。attention本质上是为序列中每个元素都分配一个权重系数，这也可以理解为软寻址。如果序列中每一个元素都以(K，V)形式存储，那么attention则通过计算Q和K的相似度来完成寻址。Q和K计算出来的相似度反映了取出来的V值的重要程度，即权重，然后加权求和就得到最后的特征值。

注意力的计算主要分为三步，第一步是将query和每个key进行相似度计算得到权重，常用的相似度函数有点积，拼接，感知机等；然后第二步一般是使用一个softmax函数(一方面可以进行归一化，得到所有权重系数之和为1的概率分布。另一方面可以用softmax函数的特性突出重要元素的权重)对这些权重进行归一化；最后将权重和相应的键值value进行加权求和得到最后的特征值。具体计算公式可以如下：

其中，d为QK矩阵的维度。

另外，注意力包括自注意力与交叉注意力，自注意可以理解为是特殊的注意力，即QKV的输入一致。而交叉注意力中的QKV的输入不一致。注意力是利用特征之间的相似程度(例如内积)作为权重来集成被查询特征作为当前特征的更新值。自注意力是基于特征图本身的关注而提取的注意力。

对于卷积而言，卷积核的设置限制了感受野的大小，导致网络往往需要多层的堆叠才能关注到整个特征图。而自注意的优势就是它的关注是全局的，它能通过简单的查询与赋值就能获取到特征图的全局空间信息。自注意力在查询、键、值(query key value，QKV)模型中的特殊点在于QKV对应的输入是一致的。后续会对QKV模型进行描述。

4、前馈神经网络

前馈神经网络(feedforward neural network，FNN)是最早发明的简单人工神经网络。在前馈神经网络中，各神经元分别属于不同的层。每一层的神经元可以接收前一层神经元的信号，并产生信号输出到下一层。第0层称为输入层，最后一层称为输出层，其它中间层称为隐藏层。整个网络中无反馈，信号从输入层向输出层单向传播。

5、多层感知器(multilayer perceptron，MLP)

多层感知器，也可以称为多层感知机，是一种前馈人工神经网络模型，其将输入映射到单一的输出的上。

6、损失函数

在训练深度神经网络的过程中，因为希望深度神经网络的输出尽可能的接近真正想要预测的值，所以可以通过比较当前网络的预测值和真正想要的目标值，再根据两者之间的差异情况来更新每一层神经网络的权重向量(当然，在第一次更新之前通常会有初始化的过程，即为深度神经网络中的各层预先配置参数)，比如，如果网络的预测值高了，就调整权重向量让它预测低一些，不断的调整，直到神经网络能够预测出真正想要的目标值。因此，就需要预先定义“如何比较预测值和目标值之间的差异”，这便是损失函数(loss function)或目标函数(objective function)，它们是用于衡量预测值和目标值的差异的重要方程。其中，以损失函数举例，损失函数的输出值(loss)越高表示差异越大，那么深度神经网络的训练就变成了尽可能缩小这个loss的过程。

7、上采样

在应用在计算机视觉的深度学习领域，由于输入图像通过卷积神经网络(CNN)提取特征后，输出的尺寸往往会变小，而有时我们需要将图像恢复到原来的尺寸以便进行进一步的计算(例如:图像的语义分割)，这个采用扩大图像尺寸，实现图像由小分辨率到大分辨率的映射的操作，叫做上采样(Upsample)。

其中，上采样有3种常见的方法：双线性插值(bilinear)、反卷积(Transposed Convolution)以及反池化(Unpooling)。

8、模态、多模态、多模态数据、多模态融合

一般来说，模态是指事物发生或存在的方式，多模态是指两个或者两个以上的模态的各种形式的组合。

对每一种信息的来源或者形式，都可以称为一种模态(Modality)，目前研究领域中主要是对图像，文本，语音等模态的处理。

上述中的模态也可以理解为是“感官”，即生物凭借感知器官与经验来接收信息的通道，例如：人类有视觉、听觉、触觉、味觉和嗅觉等等模态。多模态可以理解为是多种感官进行融合，例如，人类可以通过声音、肢体语言、信息载体(例如文字、图片、音频、视频等)、环境等多个通道与智能设备进行交流，智能设备融合多模态信息后作出对人类的意图判断，并通过文字、声音、灯带等多种方式反馈给人类。

多模态数据是指多个模态不同的数据，模态可以包括文本、图像、音视频等。可以理解的是，在某些场景下，不同结构的图像也可以称为不同模态，例如，RGB图像与深度图像为不同模态的数据。不同结构的文本也可以称为不同模态，例如，中文与英文为不同模态的数据。不同格式的音频也可以称为不同模态，例如，波形声音文件(MAV)与音频视频交错格式(audio video interleaved，AVI)为不同模态的数据等等。

深度学习中的多模态融合指机器从文本、图像、语音、视频等多个领域获取信息，实现信息转换和融合，从而提升模型性能的技术。之所以要对模态进行融合，是因为不同模态的表现方式不一样，看待事物的角度也会不一样，所以存在一些交叉(所以存在信息冗余)，互补(所以比单特征更优秀)的现象，甚至模态间可能还存在多种不同的信息交互，如果能合理的处理多模态信息，就能得到丰富特征信息。

下面介绍本申请实施例提供的系统架构。

参见附图1，本发明实施例提供了一种系统架构100。如系统架构100所示，数据采集设备160用于采集训练数据，本申请实施例中训练数据包括：多个不同模态的数据。其中，模态可以是指文本、图像、视音频。例如：训练数据可以包括RGB图像+深度图像，也可以包括RGB图像与点云数据等等。并将训练数据存入数据库130，训练设备120基于数据库130中维护的训练数据训练得到目标模型/规则101。下面将更详细地描述训练设备120如何基于训练数据得到目标模型/规则101，该目标模型/规则101能够用于实现本申请实施例提供的数据处理方法所应用的计算机视觉任务。该计算机视觉任务可以包括：分类任务、分割任务、检测任务或图像生成任务等。本申请实施例中的目标模型/规则101具体可以包括自注意力网络、多层感知机、池化层等。需要说明的是，在实际的应用中，数据库130中维护的训练数据不一定都来自于数据采集设备160的采集，也有可能是从其他设备接收得到的。另外需要说明的是，训练设备120也不一定完全基于数据库130维护的训练数据进行目标模型/规则101的训练，也有可能从云端或其他地方获取训练数据进行模型训练，上述描述不应该作为对本申请实施例的限定。

根据训练设备120训练得到的目标模型/规则101可以应用于不同的系统或设备中，如应用于图1所示的执行设备110，执行设备110可以是终端，如手机终端，平板电脑，笔记本电脑，增强现实(augmented reality，AR)设备/虚拟现实(virtual reality，VR)设备，车载终端等。当然，执行设备110还可以是服务器或者云端等。在附图1中，执行设备110 配置有I/O接口112，用于与外部设备进行数据交互，用户可以通过客户设备140向I/O接口112输入数据，输入数据在本申请实施例中可以包括：待检测图像。另外该输入数据可以是用户输入的，也可以是用户通过拍摄设备上传的，当然还可以来自数据库，具体此处不做限定。

预处理模块113用于根据I/O接口112接收到的输入数据进行预处理，在本申请实施例中，预处理模块113可以用于对输入数据进行拆分得到子数据集合。例如：输入图像为图像，预处理模块113用于随图像进行拆分得到多个图像块。

在执行设备110对输入数据进行预处理，或者在执行设备110的计算模块111执行计算等相关的处理过程中，执行设备110可以调用数据存储系统150中的数据、代码等以用于相应的处理，也可以将相应处理得到的数据、指令等存入数据存储系统150中。

最后，I/O接口112将处理结果，如得到的上述目标任务对应的结果返回给客户设备140，从而提供给用户。

值得说明的是，训练设备120可以针对不同的目标或称不同的任务，基于不同的训练数据生成相应的目标模型/规则101，该相应的目标模型/规则101即可以用于实现上述目标或完成上述任务，从而为用户提供所需的结果。

在附图1中所示情况下，用户可以手动给定输入数据，该手动给定可以通过I/O接口112提供的界面进行操作。另一种情况下，客户设备140可以自动地向I/O接口112发送输入数据，如果要求客户设备140自动发送输入数据需要获得用户的授权，则用户可以在客户设备140中设置相应权限。用户可以在客户设备140查看执行设备110输出的结果，具体的呈现形式可以是显示、声音、动作等具体方式。客户设备140也可以作为数据采集端，采集如图所示输入I/O接口112的输入数据及输出I/O接口112的输出结果作为新的样本数据，并存入数据库130。当然，也可以不经过客户设备140进行采集，而是由I/O接口112直接将如图所示输入I/O接口112的输入数据及输出I/O接口112的输出结果，作为新的样本数据存入数据库130。

值得注意的是，附图1仅是本发明实施例提供的一种系统架构的示意图，图中所示设备、器件、模块等之间的位置关系不构成任何限制，例如，在附图1中，数据存储系统150相对执行设备110是外部存储器，在其它情况下，也可以将数据存储系统150置于执行设备110中。

如图1所示，根据训练设备120训练得到目标模型/规则101，本申请实施例中的目标模型/规则101具体可以为目标神经网络。

下面介绍本申请实施例提供的一种芯片硬件结构。

图2为本发明实施例提供的一种芯片硬件结构，该芯片包括神经网络处理器20。该芯片可以被设置在如图1所示的执行设备110中，用以完成计算模块111的计算工作。该芯片也可以被设置在如图1所示的训练设备120中，用以完成训练设备120的训练工作并输出目标模型/规则101。

神经网络处理器20可以是神经网络处理器(neural-network processing unit，NPU)，张量处理器(tensor processing unit，TPU)，或者图形处理器(graphics processing unit，GPU)等一切适合用于大规模异或运算处理的处理器。以NPU为例：神经网络处理器20作为协处理器挂载到主中央处理器(central processing unit，CPU)(host CPU)上，由主CPU分配任务。NPU的核心部分为运算电路203，控制器204控制运算电路203提取存储器(权重存储器或输入存储器)中的数据并进行运算。

在一些实现中，运算电路203内部包括多个处理单元(process engine，PE)。在一些实现中，运算电路203是二维脉动阵列。运算电路203还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中，运算电路203是通用的矩阵处理器。

举例来说，假设有输入矩阵A，权重矩阵B，输出矩阵C。运算电路203从权重存储器202中取矩阵B相应的数据，并缓存在运算电路中每一个PE上。运算电路从输入存储器201中取矩阵A数据与矩阵B进行矩阵运算，得到的矩阵的部分结果或最终结果，保存在累加器208中。

向量计算单元207可以对运算电路的输出做进一步处理，如向量乘，向量加，指数运算，对数运算，大小比较等等。例如，向量计算单元207可以用于神经网络中非卷积/非FC层的网络计算，如池化(Pooling)，批归一化(Batch Normalization)，局部响应归一化(Local Response Normalization)等。

在一些实现中，向量计算单元能207将经处理的输出的向量存储到统一缓存器206。例如，向量计算单元207可以将非线性函数应用到运算电路203的输出，例如累加值的向量，用以生成激活值。在一些实现中，向量计算单元207生成归一化的值、合并值，或二者均有。在一些实现中，处理过的输出的向量能够用作到运算电路203的激活输入，例如用于在神经网络中的后续层中的使用。

统一存储器206用于存放输入数据以及输出数据。

权重数据直接通过存储单元访问控制器205(direct memory access controller，DMAC)将外部存储器中的输入数据搬运到输入存储器201和/或统一存储器206、将外部存储器中的权重数据存入权重存储器202，以及将统一存储器206中的数据存入外部存储器。

总线接口单元(bus interface unit，BIU)210，用于通过总线实现主CPU、DMAC和取指存储器209之间进行交互。

与控制器204连接的取指存储器(instruction fetch buffer)209，用于存储控制器204使用的指令。

控制器204，用于调用指存储器209中缓存的指令，实现控制该运算加速器的工作过程。

一般地，统一存储器206，输入存储器201，权重存储器202以及取指存储器209均为片上(On-Chip)存储器，外部存储器为该NPU外部的存储器，该外部存储器可以为双倍数据率同步动态随机存储器(double data rate synchronous dynamic random access memory，简称DDR SDRAM)、高带宽存储器(high bandwidth memory，HBM)或其他可读可写的存储器。

接下来介绍几种本申请的应用场景。

图3A为本申请实施例提供的数据处理系统的一个结构示意图，该数据处理系统包括终端设备(图3A中仅以终端设备是手机为例)以及数据处理设备。可以理解的是，终端设备除了可以是手机之外，还可以是平板电脑(pad)、便携式游戏机、掌上电脑(personal digital assistant，PDA)、笔记本电脑、超级移动个人计算机(ultra mobile personal computer，UMPC)、手持计算机、上网本、车载媒体播放设备、可穿戴电子设备、虚拟现实(virtual reality，VR)终端设备、增强现实(augmented reality，AR)、车辆、车载终端、飞机终端、智能机器人等终端设备。终端设备为数据处理的发起端，作为数据处理请求的发起方，通常由用户通过终端设备发起请求。

上述数据处理设备可以是云服务器、网络服务器、应用服务器以及管理服务器等具有数据处理功能的设备或服务器。数据处理设备通过交互接口接收来自终端设备的数据处理请求，再通过存储数据的存储器以及数据处理的处理器环节进行机器学习，深度学习，搜索，推理，决策等方式的数据处理。数据处理设备中的存储器可以是一个统称，包括本地存储以及存储历史数据的数据库，数据库可以在数据处理设备上，也可以在其它网络服务器上。

在图3A所示的数据处理系统中，终端设备可以接收用户的指令，例如终端设备可以获取用户输入/选择的多个数据(例如：终端设备通过终端设备采集的图像、文本、音频等)，然后向数据处理设备发起请求，使得数据处理设备针对终端设备得到的该多个数据执行数据处理应用(例如，分类、分割、检测、图像生成等的计算机视觉任务)，从而得到针对多个数据的对应的处理结果。示例性的，终端设备可以获取用户输入的多张图像，然后向数据处理设备发起图像检测请求，使得数据处理设备对该图像进行检测，从而得到图像的检测结果，并显示图像的检测结果，以供用户观看和使用。

在图3A中，数据处理设备可以执行本申请实施例的数据处理方法。

图3B为本申请实施例提供的数据处理系统的另一结构示意图，在图3B中，终端设备(图3B中仅以终端设备是手机为例)直接作为数据处理设备，该终端设备能够直接获取多个数据(例如：数据是图像、文本、音频等)，并直接由终端设备本身的硬件进行处理，具体过程与图3A相似，可参考上面的描述，在此不再赘述。

可选地，在图3B所示的数据处理系统中，终端设备可以接收用户的指令，例如终端设备可以获取用户在终端设备中所选择的多张图像，然后再由终端设备自身针对该图像执行数据处理应用(例如，分类、分割、检测、图像生成等的计算机视觉任务)，从而得到针对该图像的对应的处理结果，并显示处理结果，以供用户观看和使用。

可选地，在图3B所示的数据处理系统中，终端设备可以实时或周期性的采集图像，然后再由终端设备自身针对该图像执行数据处理应用(例如，分类、分割、检测、图像生成等计算机视觉任务)，从而得到针对该图像的对应的处理结果，并根据处理结果实现功能(分类功能、分割功能、检测功能、图像生成功能等等)。

在图3B中，终端设备自身就可以执行本申请实施例的数据处理方法。

上述图3A和图3B中的终端设备具体可以是图1中的客户设备140或执行设备110，图3A中的数据处理设备具体可以是图1中的执行设备110，其中，数据存储系统150可以存储执行设备110的待处理数据，数据存储系统150可以集成在执行设备110上，也可以设置在云上或其它网络服务器上。

图3A和图3B中的处理器可以通过神经网络模型或者其它模型(例如注意力模型、MLP等)进行数据训练/机器学习/深度学习，并利用数据最终训练或者学习得到的模型针对多个数据执行数据处理应用，从而得到相应的处理结果。

下面对本申请实施例提供的数据处理方法进行描述。该方法可以由数据处理设备执行，也可以由数据处理设备的部件(例如处理器、芯片、或芯片系统等)执行。该数据处理设备可以是云端设备(如前述图3A所示)，也可以是终端设备(例如图3B所示的手机)。当然，该方法也可以是由云端设备和终端设备构成的系统执行(如前述图3A所示)。可选地，该方法可以由数据处理设备中的CPU处理，也可以由CPU和GPU共同处理，也可以不用GPU，而使用其他适合用于神经网络计算的处理器，本申请不做限制。

上述的终端设备可以是手机、平板电脑(pad)、便携式游戏机、掌上电脑(personal digital assistant，PDA)、笔记本电脑、超级移动个人计算机(ultra mobile personal computer，UMPC)、手持计算机、上网本、车载媒体播放设备、可穿戴电子设备、虚拟现实(virtual reality，VR)终端设备、增强现实(augmented reality，AR)终端设备等数显产品。

本申请实施例提供的方法所适用的应用场景主要是多模态融合场景，具体可以应用于分类场景、分割场景、检测场景、图像生成场景等计算机视觉任务，或者可应用于语义分割、室内场景感知、室外驾驶等。另外，本申请实施例所涉及的数据可以是指文本、图像、音视频等，为了方便描述，本文仅以数据是图像为例进行示例性说明。

请参阅图4，本申请实施例提供的数据处理方法的一个流程示意图，该方法可以包括步骤401至步骤404。下面对步骤401至步骤404进行详细说明。

步骤401，获取第一数据与第二数据。

本申请实施例中，数据处理设备获取第一数据与第二数据的方式有多种方式，可以是通过采集/拍摄的方式，也可以是通过接收其他设备发送的方式，还可以是从数据库中选取的方式等，具体此处不做限定。

可选地，若应用于自动驾驶场景，数据处理设备可以是车辆，第一数据与第二数据可以是车辆实时采集的数据，也可以是周期性采集的数据，具体此处不做限定。

本申请实施例中，仅以第一数据与第二数据是与图像相关的数据为例进行示例性描述，在实际应用中，第一数据与第二数据还可以是与文本、音视频等相关的数据，具体此处不做限定。

本申请实施例中由于第一数据与第二数据之间的关系，可以分为多种情况，下面分别描述：

第一种，第一数据与第二数据属于同构多模态数据。

其中，同构多模态数据是指第一数据所属的模态的呈现方式与第二数据所属的模态的呈现方式相同，例如，第一数据为RGB图像，第二图像为深度图像，第一数据与第二数据的呈现方式都为图像。

可选地，第一数据与第二数据是图像数据，或者第一数据与第二数据是文本数据，或者第一数据与第二数据为音频数据等等，具体此处不做限定。

示例1，第一数据是如图5A所示的RGB图像，第二图像是如图5B所示的深度图像。该示例1可以应用于云服务场景(例如语义分割场景)，数据处理设备可以是智能摄像头、智能机器人等。

第二种，第一数据与第二数据属于异构多模态数据。

其中，异构多模态数据是指第一数据所属的多模态与第二数据所属的多模态不同。

可选地，第一数据是图像数据，第二数据是点云数据。或者第一数据是文本数据，第二数据是音频数据等等，具体此处不做限定。

示例2，第一数据是如图6A所示的RGB图像，第二图像是如图6B所示的点云数据。该示例2可以应用于自动驾驶场景(例如智能感知场景)，数据处理设备可以是智能汽车等。

步骤402，获取第一数据的第一特征集合与第二数据的第二特征集合。

数据处理设备获取第一数据与第二数据之后，可以获取第一数据的第一特征集合与第二数据的第二特征集合。

可选地，拆分第一数据得到多个第一子数据。拆分第二数据得到多个第二子数据。并基于多个第一子数据得到第一特征集合，基于多个第二子数据得到第二特征集合。

可选地，拆分第一数据的数量与第一特征集合中特征的数量有关。例如，拆分第一数据的数量与第一特征集合中特征的数量相同等。同理，拆分第二数据的数量与第二特征集合中特征的数量有关。例如，拆分第二数据的数量与第二特征集合中特征的数量相同等。

本申请实施例中，拆分数据(包括第一数据/第二数据)的规则可以根据实际需要设置，例如，拆分规则是对数据的整体/部分进行均匀等分、不均匀等分等，具体此处不做限定。

示例性的，延续前述示例1的举例，如图5A的第一数据的拆分以及多个第一子数据可以如图7A所示。如图5B的第二数据的拆分以及多个第二子数据可以如图7B所示。

示例性的，延续前述示例2的举例，如图6A的第一数据的拆分以及多个第一子数据可以如图8A所示。如图6B的第二数据的拆分以及多个第二子数据可以如图8B所示。其中，如图8B所示，在第二数据为点云数据的情况下，可以对第二数据进行采样得到采样点，再将采样点作为第二子数据。

可选地，获取多个第一子数据与多个第二子数据之后，可以基于多个第一子数据获取第一特征集合，基于多个第二子数据获取第二特征集合。具体的，基于神经网络获取多个第一子数据的第一特征集合，基于神经网络获取多个第二子数据的第二特征集合。其中，多个第一子数据与第一特征集合中特征的个数可以一一对应，多个第二子数据与第二特征集合中特征的个数可以一一对应。当然，在实际应用中，也可以设置一个特征对应多个子数据，还可以设置多个特征对应一个子数据，具体此处不做限定。

上述中的神经网络可以包括注意力网络、多层感知机(multi-layer perceptron，MLP)、池化层等，具体此处不做限定。

示例性的，神经网络的三种结构示例可以如图9所示，可以理解的是，神经网络也可以只包括注意力网络、多层感知机、池化层或卷积层等。换句话说，对于第一特征集合与第二特征集合在神经网络中的位置不做限定，以神经网络包括注意力网络与第一网络层为例，第一特征集合与第二特征集合可以是注意力网络的输出(如图10A所示)，也可以是第一网络层的输出(如图10B所示)等等(例如，第一特征集合与第二特征集合可以是输入注意力网络的特征)，具体此处不做限定。另外，为了方便后续举例描述，注意力网络可以包括L个子模块，或者理解为注意力网络是L层结构的网络，其中，每层的结构相同。

步骤403，使用第二特征集合中的第二目标特征替换第一特征集合中的第一目标特征。

数据处理设备获取第一特征集合与第二特征集合之后，可以使用第二特征集合中的第二目标特征替换第一特征集合中的第一目标特征，得到第三特征集合。其中，第二目标特征与第一目标特征对应。第二目标特征与第一目标特征的对应关系可以根据第一数据与第二数据的空间关系、语义关系等所确定，也可以根据特征在特征集合中的位置所确定等，对具体如何确定不同特征集合中的对应关系此处不做限定。

可选地，数据处理设备获取第一特征集合与第二特征集合之后，可以先获取第一特征集合的第一分值集合与第二特征集合的第二分值集合，并使用第一分值集合和/或第二分值集合确定第一目标特征与第二目标特征，再使用第二目标特征替换第一特征集合中的第一目标特征，得到第三特征集合。

下面先对获取特征集合的分值集合进行描述，其中，分值集合包括多个分值，分值可以用于评估特征的重要性(越大越好)，也可以用于评估特征的无效性(越小越好)等等。另外，分值集合中分值的数量可以与特征集合中的特征一一对应。当然，也可以对特征进行不同纬度的打分，该种方式下，一个特征可能对应多个分值。此处对特征对应分值的数量不做限定，即可以是一个，也可以是多个。为了方便后续描述，本申请实施例仅以一个特征对应一个打分进行示例性说明。

本申请实施例中获取特征集合的分值集合的方式有很多，下面分别描述：

1，基于打分网络获取特征集合对应的分值集合。

该种方式下，可以引入打分网络，该打分网络可以用于评估特征的重要性。

可选地，基于打分网络对第一特征集合中的各个特征进行评估，得到第一分值集合。基于打分网络对第二特征集合中的各个特征进行评估，得到第二分值集合。具体的，将第一特征集合中的各特征输入打分网络，得到第一分值集合。将第二特征集合中的各特征输入打分网络，得到第二分值集合。

另外，为了保证打分网络的输出值服从稀疏分布。即可以理解为打分网络的输出值更加稀疏，使得某些特征的分值与另外一些特征的分值差别较大，进而确定哪些特征是有用的或无用的。打分网络在训练过程中可以是使用L1范数进行训练。

2，基于特征集合中各特征的数学运算获取特征集合对应的分值集合。

其中，上述的数学运算可以理解为是对特征本身的数学运算，可以包括求秩运算(例如特征为矩阵形式)、求模运算(例如特征为向量形式)等，具体此处不做限定。

可选地，在第一特征集合与第二特征集合中特征的表现形式是矩阵的情况下，可以通过对特征矩阵进行求秩运算，进而得到分值集合。具体的，对第一特征集合中的各特征矩阵进行求秩运算，得到第一分值集合。对第二特征集合中的各特征矩阵进行求秩运算，得到第二分值集合。

可选地，在第一特征集合与第二特征集合中特征的表现形式是向量的情况下，可以通过对特征向量进行求模运算，进而得到分值集合。具体的，对第一特征集合中的各特征向量进行求模运算，得到第一分值集合。对第二特征集合中的各特征向量进行求模运算，得到第二分值集合。

可以理解的是，上述两种获取特征集合对应的分值集合的方式只是举例，在实际应用中，还可以有其他方式获取分值集合，具体此处不做限定。

数据处理设备获取特征集合对应的分值集合之后，可以基于第一分值集合和/或第二分值集合确定第一目标特征与第二目标特征，再使用第二目标特征替换第一目标特征。

其中，第二目标特征与第一目标特征的对应关系可以是根据第一预设规则等方式进行确定，具体此处不做限定。换句话说，确定了第二目标特征就相当于确定了第一目标特征，或者确定了第一目标特征就相当于确定了第二目标特征。因此，可以基于第一分值集合和/或第二分值集合确定第一目标特征与第二目标特征。如前所述，第二目标特征与第一目标特征的对应关系可以根据第一数据与第二数据的空间关系、语义关系等所确定，也可以根据特征在特征集合中的位置所确定等，对具体如何确定不同特征集合中的对应关系此处不做限定。换句话说，第一预设规则可以与多模态数据之间的空间关系、语义关系等相关。

可选地，数据处理设备可以基于第一分值集合与第二预设规则确定第一特征集合中的第一目标特征。再确定第一目标特征之后，根据第一预设规则可以再确定与第一目标特征对应的第二目标特征。

可选地，数据处理设备可以基于第二分值集合与第二预设规则确定第二特征集合中的第二目标特征。再确定第二目标特征之后，根据第一预设规则可以再确定与第二目标特征对应的第一目标特征。

下面对上述所提到的第一预设规则与第二预设规则分别进行描述。

上述的第一预设规则具体用于确定第一特征集合中第一特征与第二特征集合中第二特征的对应关系。该关系可以是一对一，也可以一对多或多对一，具体此处不做限定。第一预设规则可以根据实际需要设置。例如，第一预设规则包括：第一特征集合中第一个位置的特征与第二特征集合中的第二个位置的特征对应。又例如，第一预设规则包括：第一特征集合中第一个位置的特征与第二特征集合中第一个位置的特征对应等等，在实际应用中，第一预设规则还可以是其他情况，此处不做限定。其中，第一特征集合中特征的位置与第二特征集合中特征的位置可以是根据残差位置编码等方式确定。

示例性的，第一特征集合依次包括A1特征、A2特征、A3特征、A4特征、A5特征、A6特征。第二特征集合依次包括B1特征、B2特征、B3特征、B4特征、B5特征、B6特征。则上述的第一预设规则可以是A1与B1、A2与B2、A3与B3、A4与B4、A5与B5、A6与B6分别对应。也可以是A1与B2、A2与B3、A3与B4、A4与B5、A5与B6、A6与B1对应。还可以是A1与B5、A2与B3、A3与B1、A4与B2、A5与B6、A6与B4对应等等。其中，第一目标特征为上述一种对应关系涉及的第一特征集合中的特征，第二目标特征为第二特征集合中与第一目标特征对应的特征。

上述的第二预设规则具体用于确定第一目标特征和/或第二目标特征。第二预设规则可以根据实际需要设置。第二预设规则具体可以与分值大小、预设分值等相关。例如，第二预设规则包括：确定第一分值集合中分值最小的特征为第一目标特征。又例如，第二预设规则包括：确定第二分值集合中分值最大的特征为第二目标特征。又例如，第二预设规则包括：确定第一分值集合中分值最大的特征为第一目标特征。又例如，第二预设规则包括：确定第二分值集合中分值最小的特征为第二目标特征。又例如，第二预设规则包括：确定第二分值集合中分值等于预设分值的特征为第二目标特征。又例如，第二预设规则包括：确定第一分值集合中分值等于预设分值的特征为第一目标特征等等，在实际应用中，第二预设规则还可以是其他情况，此处不做限定。

示例性的，假设神经网络包括注意力网络，注意力网络可以包括L个子模块，或者理解为注意力网络是L层结构的网络，每层的结构相同。打分网络记为s^l，则对于第l层第一数据集合中第一特征(可以记为)的第一分值可以记为则使用第二特征集合中的第二目标特征替换第一特征集合中的第一目标特征的过程可以通过下述公式进行表示：

其中，为第一特征集合中待被替换的特征(例如第一目标特征)，⊙表示按元素相乘，为指示函数，若指示函数的下标满足条件，指示函数的输出为1；若指示函数的下标不满足条件，指示函数的输出为0。1可以理解为是替换，0可以理解为是不替换。θ可以理解为前述第二预设规则中的预设分值，具体数值可以根据实际需要设置，例如：θ＝0.01。表示第一特征集合中待被替换的特征的分值(例如是第一目标特征的分值)，表示将第一数据集合中的第一目标特征投影到第二数据集合中的第二目标特征。A与B表示第一特征集合中的特征与第二特征集合中的特征的对应关系(例如，第一目标特征对应第二目标特征)。上述公式可以理解为，第一特征集合中分值小于θ的特征(例如，第一目标特征)被与该特征在第二特征集合中对应的特征(例如，第二目标特征)替换。

可选地，在第一数据与第二数据呈现方式相同的为同构多模态数据的情况下，表示恒等映射。在第一数据与第二数据属于异构多模态数据的情况下，以第一数据是RGB图像，第二数据是点云、目标任务是检测任务为例。可以利用点云和图像之间的空间关系(如前述第一预设规则与多模态数据之间的空间关系相关)进行投影找出图像片和点云之间的对应关系。具体可以包括：假设有N_img个图像片(patch)和N_point个3D采样点，作为神经网络的输入。N_point-N_img的映射将第n_point个投影至对应的第n_img个图像片上的过程可以表示如下：

其中，K和R_t为相机内外参，表示点的3D坐标，表示图的2D像素，W和P分别为原图像宽度和图像片的宽度。

另外，在多模态数据大于两个时，例如：前述已经获取第三数据等等。为了防止不同数据对应特征集合之间特征的对应关系混乱，可以预先固定一种分配方案：a_B(A)∈{0，1}^N；该种情况下多模态数据之间的特征替换的表达可以如下：

其中，M为多模态数据中不同模态的数量，其余解释可以参考前述公式中的描述，此处不再赘述。

步骤404，基于第三特征集合与第二特征集合获取数据特征。

数据处理设备获取第三特征集合之后，可以基于第三特征集合与第二特征集合获取数据特征，该数据特征用于实现计算机视觉任务，计算机视觉任务包括分类任务、分割任务、检测任务或图像生成任务等等。

本申请实施例中，数据特征在神经网络中的位置取决于第一特征集合与第二特征集合所在的位置。例如，数据特征在神经网络中的位置可以是第一特征集合与第二特征集合所在的位置进行的融合等处理。又例如，数据特征在神经网络中的位置还可以是第一特征集合与第二特征集合所在的位置往后推一个或多个网络层的位置。本申请实施例中对于数据特征所在神经网络中的位置不做限定。

示例性的，神经网络包括注意力网络、第一网络层以及第二网络层。若第一特征集合与第二特征集合是注意力网络的输出，则基于第三特征集合与第二特征集合获取数据特征可以包括：将第三特征集合与第二特征集合输入第一网络层得到数据特征。若第一特征集合与第二特征集合是第一网络层的输出，则基于第三特征集合与第二特征集合获取数据特征可以包括：将第三特征集合与第二特征集合输入第二网络层得到数据特征。

示例性的，神经网络包括多层感知机、第一网络层以及第二网络层。若第一特征集合与第二特征集合是多层感知机的输出，则基于第三特征集合与第二特征集合获取数据特征可以包括：将第三特征集合与第二特征集合输入第一网络层得到数据特征。可以再将数据特征输入第二网络层得到目标任务的结果。若第一特征集合与第二特征集合是第一网络层的输出，则基于第三特征集合与第二特征集合获取数据特征可以包括：将第三特征集合与第二特征集合输入第二网络层得到数据特征。

示例性的，神经网络包括池化层、第一网络层以及第二网络层。若第一特征集合与第二特征集合是池化层的输出，则基于第三特征集合与第二特征集合获取数据特征可以包括：将第三特征集合与第二特征集合输入第一网络层得到数据特征。若第一特征集合与第二特征集合是第一网络层的输出，则基于第三特征集合与第二特征集合获取数据特征可以包括：将第三特征集合与第二特征集合输入第二网络层得到数据特征。

其中，上述的第二网络层与目标任务相关，可以根据实际需要设置，具体此处不做限定。例如，目标任务为分类任务时，第二网络层可以为全连接层。又例如，目标任务为分割任务或检测任务时，第二网络层可以为卷积神经网络层或上采样层。

另外，需要注意的是，前述步骤403只是描述了使用第二特征集合中的第二目标特征替换第一特征集合中的第一目标特征，得到第三特征集合。在实际应用中，还可以使用第一特征集合中的第三目标特征替换第二特征集合中的第四目标特征，得到第四特征集合。换句话说，在本申请实施例提供的数据处理方法中，可以对两个特征集合中的特征进行单换(例如：第三特征集合的获取过程)，也可以对两个特征集合中的特征进行互换(例如：第三特征集合与第四特征集合的获取过程)，具体此处不做限定。其中，对于使用第一特征集合中的第三目标特征替换第二特征集合中的第四目标特征，得到第四特征集合的过程可以参考前述步骤403的描述，此处不再赘述。其中，第三目标特征与第四目标特征对应，具体的对应关系可以参考前述第一目标特征与第二目标特征的对应关系，此处不再赘述。

其次，对于神经网络包括多层结构时，可以再至少一层进行上述的特征替换。例如，可以只在某一层进行特征替换。又例如，在多层分别进行上述的特征替换。又例如，在每一层都进行上述的特征替换，具体此处不做限定。

可选地，若本申请实施例提供的数据处理方法包括两个特征集合中的特征进行互换，则步骤404可以包括，使用第一特征集合中的第三目标特征替换第二特征集合中的第四目标特征，得到第四特征集合。再基于第三特征集合与第四特征集合获取数据特征。其中，第三目标特征在第一特征集合中的位置与第四目标特征在第二特征集合中的位置对应。

为了更直观的看出本申请实施例提供的数据处理方法的过程，下面延续上述举例进行示例性描述。

示例性的，延续上述示例1，以特征集合在前述图10A所示的位置、第一数据如图5A所示、第二数据如图5B所示、第一特征集合与第二特征集合互换、通过打分网络确定待替换的特征为例结合图11进行描述。

请参阅图11，神经网络包括注意力网络、第一网络层、第二网络层第一数据为RGB图像，第二数据为深度图像，第一数据与第二数据为同构多模态数据。第一数据与第二图像分别拆分为6个图像片，并输入注意力网络以及第一网络层得到第一特征集合(A1、A2、A3、A4、A5、A6)与第二特征集合(B1、B2、B3、B4、B5、B6)。使用用L1训练的打分网络对第一特征集合与第二特征集合进行打分，并根据打分值确定各特征集合中待替换的特征。第一特征集合与第二特征集合的对应关系包括：A1-B1、A2-B2、A3-B3、A4-B4、A5-B5、A6-B6。并基于打分网络确定第一特征集合中的第一目标特征包括A2、A6。基于打分网络确定第二特征集合中的第二目标特征包括B2、B6。再使用第二特征集合中的第二目标特征替换第一特征集合中的第一目标特征，得到第三特征集合(A1、B2、A3、A4、A5、B6)。同理，基于打分网络确定第一特征集合中的第三目标特征包括A3、A4。基于打分网络确定第二特征集合中的第四目标特征包括B3、B4。再使用第一特征集合中的第三目标特征替换第二特征集合中的第四目标特征，得到第四特征集合(B1、B2、A3、A4、B5、B6)。进行替换得到第三特征集合与第四特征集合之后，可以在进入下一层神经网络等等，再输入第二网络层，并对输出进行融合处理，得到语义分割结果(例如输出每个像素语义分类的结果)。为了特征替换时的位置准确，可以利用残差位置编码进行对齐。另外，上述的对应关系前述已经做了描述，此处不再赘述。

示例性的，延续上述示例2，以特征集合在前述图10A所示的位置、第一数据如图6A所示、第二数据如图6B所示、第一特征集合与第二特征集合互换、通过打分网络确定待替换的特征为例结合图12进行描述。

请参阅图12，神经网络包括多层感知机、第一网络层、第二网络层第一数据为RGB图像，第二数据为点云数据，第一数据与第二数据为异构多模态数据。第一数据拆分为5个图像片，第二数据采样得到采样点，并将5个图像片与采样点(图12中，采样点分为6份)输入多层感知机以及第一网络层得到第一特征集合(A1、A2、A3、A4、A5)与第二特征集合(B1、B2、B3、B4、B5、B6)。使用用L1训练的打分网络对第一特征集合与第二特征集合进行打分，并根据打分值确定各特征集合中待替换的特征。第一特征集合与第二特征集合的对应关系包括：A1-B2、A2-B6、A4-B5、A5-B3。并基于打分网络确定第一特征集合中的第一目标特征包括A1。基于打分网络确定第二特征集合中的第二目标特征包括B2。再使用第二特征集合中的第二目标特征替换第一特征集合中的第一目标特征，得到第三特征集合(B2、A2、A3、A4、A5)。同理，基于打分网络确定第一特征集合中的第三目标特征包括A5、A4、A2。基于打分网络确定第二特征集合中的第四目标特征包括B3、B5、B6。再使用第一特征集合中的第三目标特征替换第二特征集合中的第四目标特征，得到第四特征集合(B1、B2、A5、B4、A4、A2)。进行替换得到第三特征集合与第四特征集合之后，可以在进入下一层神经网络等等，再输入第二网络层，并对输出带有检测框的图像与带有检测框的点云。为了特征替换时的位置准确，可以利用残差位置编码进行对齐。

本申请实施例中，一方面，通过使用不同模态数据之间的特征进行替换，可以高效融合不同模态数据的信息，使得获取的数据特征具有多模态数据的特性，提高数据特征的表达能力，进而使得基于数据特征获取的目标任务的结果更加准确。另一方面，通过稀疏化打分网络，使得某些特征的分值与另外一些特征的分值差别较大，进而确定哪些特征是有用的或无用的。另一方面，通过残差位置编码确定替换特征的位置，进而保证替换特征时不改变特征在原特征集合中的位置。

为了更直观的看出本申请实施例提供的数据处理方法(后续称为Mix)的有益效果，下面对比不同方法在数据集一、数据集二上的表现结果进行描述。

测试结果如表1所示：

表1

其中，上述方法包括：全卷积网络(Fully Convolutional Networks，FCN)、RefineNet、FuseNet、自监督模型适应方法(self-supervised model adaptation，SSMA)、条件归一化方法(cross-Iteration batch normalization，CBN)、RGB-D融合网络(RGB-D fusion network，RDFNet)、通道交换网络(channel exchanging network，CEN)、融合(fusion)方法、输入拼接(concat)方法、本申请实施例提供的MIX方法。FCN-32S中的32S表示卷积层的特征图是原始图像的1/32。w/o表示不做多模态融合的同结构模型。[Ti]表示微小模型，[s]表示小模型，小模型比微小模型的层数、通道数等更多。

通过表1中的数据可以看出，MIX方法同比其他方法的像素准确率、平均准确率以及平均交并比都有提升。可以表明通过本申请实施例提供的方法，可以提升经过特征替换后得到的数据特征的表达能力，进而使得获取的计算机视觉的结果更加准确。

上面对本申请实施例中的数据处理方法进行了描述，下面对本申请实施例中的数据处理设备进行描述，请参阅图13，本申请实施例中数据处理设备的一个实施例包括：

获取单元1301，用于获取第一数据与第二数据，第一数据与第二数据的模态不同；

获取单元1301，还用于获取第一数据的第一特征集合与第二数据的第二特征集合；

替换单元1302，用于使用第二特征集合中的第二目标特征替换第一特征集合中的第一目标特征，得到第三特征集合，第二目标特征与第一目标特征对应；

获取单元1301，用于基于第三特征集合与第二特征集合获取数据特征，数据特征用于实现计算机视觉任务。

可选地，数据处理设备还可以包括：确定单元1303，用于基于第一分值集合和/或第二分值集合确定第二目标特征。

本实施例中，数据处理设备中各单元所执行的操作与前述图1至图12所示实施例中描述的类似，此处不再赘述。

本实施例中，替换单元1302使用不同模态数据之间的特征进行替换，可以高效融合不同模态数据的信息，使得获取的数据特征具有多模态数据的特性，提高数据特征的表达能力。

参阅图14，本申请提供的另一种数据处理设备的结构示意图。该数据处理设备可以包括处理器1401、存储器1402和通信端口1403。该处理器1401、存储器1402和通信端口1403通过线路互联。其中，存储器1402中存储有程序指令和数据。

存储器1402中存储了前述图1至图12所示对应的实施方式中，由数据处理设备执行的步骤对应的程序指令以及数据。

处理器1401，用于执行前述图1至图12所示实施例中任一实施例所示的由数据处理设备执行的步骤。

通信端口1403可以用于进行数据的接收和发送，用于执行前述图1至图12所示实施例中任一实施例中与获取、发送、接收相关的步骤。

一种实现方式中，数据处理设备可以包括相对于图14更多或更少的部件，本申请对此仅仅是示例性说明，并不作限定。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。

当使用软件实现所述集成的单元时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换，这仅仅是描述本申请的实施例中对相同属性的对象在描述时所采用的区分方式。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。

Claims

一种数据处理方法，其特征在于，所述方法应用于多模态融合场景，所述方法包括：

获取第一数据与第二数据，所述第一数据与所述第二数据的模态不同；

获取所述第一数据的第一特征集合与所述第二数据的第二特征集合；

使用所述第二特征集合中的第二目标特征替换所述第一特征集合中的第一目标特征，得到第三特征集合，所述第二目标特征与所述第一目标特征对应；

基于所述第三特征集合与所述第二特征集合获取数据特征，所述数据特征用于实现计算机视觉任务。
根据权利要求1所述的方法，其特征在于，所述基于所述第三特征集合与所述第二特征集合获取数据特征，包括：

使用所述第一特征集合中的第三目标特征替换所述第二特征集合中的第四目标特征，得到第四特征集合，所述第三目标特征与所述第四目标特征对应；

基于所述第三特征集合与所述第四特征集合获取所述数据特征。
根据权利要求1或2所述的方法，其特征在于，所述使用所述第二特征集合中的第二目标特征替换所述第一特征集合中的第一目标特征之前，所述方法还包括：

获取所述第一特征集合的第一分值集合，所述第一特征集合中的第一特征与所述第一分值集合中的第一分值一一对应；

获取所述第二特征集合的第二分值集合，所述第二特征集合中的第二特征与所述第二分值集合中的第二分值一一对应；

基于所述第一分值集合和/或所述第二分值集合确定所述第二目标特征。
根据权利要求3所述的方法，其特征在于，所述获取所述第一特征集合的第一分值集合，包括：

基于打分网络对所述第一特征集合中的各个特征进行评估，得到所述第一分值集合，所述打分网络用于评估特征的重要性；

所述获取所述第二特征集合的第二分值集合，包括：

基于打分网络对所述第二特征集合中的各个特征进行评估，得到所述第二分值集合。
根据权利要求4所述的方法，其特征在于，所述打分网络的输出值服从稀疏分布。
根据权利要求3所述的方法，其特征在于，所述获取所述第一特征集合的第一分值集合，包括：

对所述第一特征集合中的各个第一特征进行数学运算，得到所述第一分值集合，所述数学运算是基于所述各个第一特征本身进行的运算，所述数学运算包括求秩运算或求模运算；

所述获取所述第二特征集合的第二分值集合，包括：

对所述第二特征集合中的各个第二特征进行数学运算，得到所述第二分值集合。
根据权利要求1至6中任一项所述的方法，其特征在于，所述获取所述第一数据的第一特征集合与所述第二数据的第二特征集合，包括：

基于神经网络获取所述第一特征集合与所述第二特征集合，所述神经网络包括注意力网络、多层感知机、池化层或卷积层。
根据权利要求7所述的方法，其特征在于，所述基于神经网络获取所述第一特征集合与所述第二特征集合，包括：

拆分所述第一数据得到多个第一子数据；

拆分所述第二数据得到多个第二子数据；

将所述多个第一子数据与所述第二子数据输入所述神经网络，得到所述第一特征集合与所述第二特征集合。
根据权利要求1至8中任一项所述的方法，其特征在于，所述使用所述第二特征集合中的第二目标特征替换所述第一特征集合中的第一目标特征，包括：

基于残差位置编码使用所述第二目标特征替换所述第一目标特征，所述残差位置编码用于确定所述第一特征集合与所述第二特征集合中各个特征所在的位置。
根据权利要求1至9中任一项所述的方法，其特征在于，所述神经网络还包括第一网络层，所述第一网络层的结构与所述神经网络相关。
根据权利要求1至10中任一项所述的方法，其特征在于，所述方法还包括：

将所述数据特征输入第二网络层获取所述计算机视觉任务的结果，所述第二网络层与所述计算机视觉任务相关。
根据权利要求11所述的方法，其特征在于，所述计算机视觉任务为分类任务，所述第二网络层为全连接层；或者所述计算机视觉任务为分割任务或检测任务，所述第二网络层为卷积神经网络层或上采样层。
一种数据处理设备，其特征在于，所述数据处理设备应用于多模态融合场景，所述数据处理设备包括：

获取单元，用于获取第一数据与第二数据，所述第一数据与所述第二数据的模态不同；

所述获取单元，还用于获取所述第一数据的第一特征集合与所述第二数据的第二特征集合；

替换单元，用于使用所述第二特征集合中的第二目标特征替换所述第一特征集合中的第一目标特征，得到第三特征集合，所述第二目标特征与所述第一目标特征对应；

所述获取单元，用于基于所述第三特征集合与所述第二特征集合获取数据特征，所述数据特征用于实现计算机视觉任务。
根据权利要求13所述的数据处理设备，其特征在于，所述获取单元，具体用于使用所述第一特征集合中的第三目标特征替换所述第二特征集合中的第四目标特征，得到第四特征集合，所述第三目标特征与所述第四目标特征对应；

所述获取单元，具体用于基于所述第三特征集合与所述第四特征集合获取所述数据特征。
根据权利要求13或14所述的数据处理设备，其特征在于，所述获取单元，还用于获取所述第一特征集合的第一分值集合，所述第一特征集合中的第一特征与所述第一分值集合中的第一分值一一对应；

所述获取单元，还用于获取所述第二特征集合的第二分值集合，所述第二特征集合中的第二特征与所述第二分值集合中的第二分值一一对应；

所述数据处理设备还包括：

确定单元，用于基于所述第一分值集合和/或所述第二分值集合确定所述第二目标特征。
根据权利要求15所述的数据处理设备，其特征在于，所述获取单元，具体用于基于打分网络对所述第一特征集合中的各个特征进行评估，得到所述第一分值集合，所述打分网络用于评估特征的重要性；

所述获取单元，具体用于基于打分网络对所述第二特征集合中的各个特征进行评估，得到所述第二分值集合。
根据权利要求16所述的数据处理设备，其特征在于，所述打分网络的输出值服从稀疏分布。
根据权利要求15所述的数据处理设备，其特征在于，所述获取单元，具体用于对所述第一特征集合中的各个第一特征进行数学运算，得到所述第一分值集合，所述数学运算是基于所述各个第一特征本身进行的运算，所述数学运算包括求秩运算或求模运算；

所述获取单元，具体用于对所述第二特征集合中的各个第二特征进行数学运算，得到所述第二分值集合。
根据权利要求13至18中任一项所述的数据处理设备，其特征在于，所述获取单元，具体用于基于神经网络获取所述第一特征集合与所述第二特征集合，所述神经网络包括注意力网络、多层感知机、池化层或卷积层。
根据权利要求19所述的数据处理设备，其特征在于，所述获取单元，具体用于拆分所述第一数据得到多个第一子数据；

所述获取单元，具体用于拆分所述第二数据得到多个第二子数据；

所述获取单元，具体用于将所述多个第一子数据与所述第二子数据输入所述神经网络，得到所述第一特征集合与所述第二特征集合。
根据权利要求13至20中任一项所述的数据处理设备，其特征在于，所述替换单元，具体用于基于残差位置编码使用所述第二目标特征替换所述第一目标特征，所述残差位置编码用于确定所述第一特征集合与所述第二特征集合中各个特征所在的位置。
根据权利要求13至21中任一项所述的数据处理设备，其特征在于，所述神经网络还包括第一网络层，所述第一网络层的结构与所述神经网络相关。
根据权利要求13至22中任一项所述的数据处理设备，其特征在于，所述获取单元，还用于将所述数据特征输入第二网络层获取所述计算机视觉任务的结果，所述第二网络层与所述计算机视觉任务相关。
根据权利要求23所述的数据处理设备，其特征在于，所述计算机视觉任务为分类任务，所述第二网络层为全连接层；或者所述计算机视觉任务为分割任务或检测任务，所述第二网络层为卷积神经网络层或上采样层。
一种数据处理设备，其特征在于，包括：处理器，所述处理器与存储器耦合，所述存储器用于存储程序或指令，当所述程序或指令被所述处理器执行时，使得所述数据处理设备执行如权利要求1至12中任一项所述的方法。
一种计算机存储介质，其特征在于，包括计算机指令，当所述计算机指令在终端设备上运行时，使得所述终端设备执行如权利要求1至12中任一项所述的方法。
一种计算机程序产品，其特征在于，当所述计算机程序产品在计算机上运行时，使得所述计算机执行如权利要求1至12中任一项所述的方法。