WO2024082891A1

WO2024082891A1 - 一种数据处理方法及相关设备

Info

Publication number: WO2024082891A1
Application number: PCT/CN2023/119082
Authority: WO
Inventors: 傅奕飞; 胡海林; 朱铭健; 陈醒濠; 王云鹤
Original assignee: 华为技术有限公司
Priority date: 2022-10-20
Filing date: 2023-09-15
Publication date: 2024-04-25
Also published as: CN117917702A

Abstract

本申请实施例公开了一种数据处理方法，该方法应用于文本识别/字符识别场景，该方法包括：获取输入数据，该输入数据为图像数据或音频数据，并根据输入数据的第一模态特征获取第二模态特征，第一模态特征为图像数据的视觉特征或者音频数据的音频特征，第二模态特征为字符特征；再融合第一模态特征与第二模态特征以得到目标特征，可以高效融合不同模态数据的信息，使得获取的目标特征具有多模态数据的特性，提高目标特征的表达能力。从而根据该目标特征获取的第一识别结果的精度更高。且相较于只根据纠正后的第二模态特征确定识别结果的方法，通过再次引入纠正前的第一模态特征，可以减少第二模态特征的过度纠正问题。

Description

一种数据处理方法及相关设备

本申请要求于2022年10月20日提交中国专利局、申请号为202211289351.X、发明名称为“一种数据处理方法及相关设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能领域，尤其涉及一种数据处理方法及相关设备。

背景技术

人工智能(artificial intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能领域的研究包括机器人，自然语言处理，计算机视觉，决策与推理，人机交互，推荐与搜索，AI基础理论等。

随着光学字符识别(optical character recognition，OCR)技术的快速发展，利用OCR技术代替人力进行识别和处理图像中的文字信息的应用变得越来越广泛。OCR技术被广泛应用于证件识别、车牌识别，广告图片文本识别和票据识别等现实场景。为了避免视觉遮挡等不良因素对识别内容造成干扰，常常使用语言模型对视觉模型识别后的字符信息进行纠正，并将纠正结果作为字符的最终识别结果。然而，纠正结果高度依赖于语言模型学习到的语义信息，可能会导致将正确的识别结果修改为错误的识别结果，即上述识别方式会出现过度纠偏问题。

因此，如何解决文字识别中语言模型的过度纠偏是亟待解决的技术问题。

发明内容

本申请实施例提供了一种数据处理方法及相关设备，用于提升数据字符识别的准确性。

本申请实施例第一方面提供了一种数据处理方法，该方法应用于文本识别/字符识别场景，该方法包括：获取输入数据，该输入图像为图像数据或音频数据；提取输入数据的第一模态特征；基于第一模态特征获取第二模态特征，第一模态特征与第二模态特征为不同模态的特征；第一模态特征为图像数据的视觉特征或者音频数据的音频特征，第二模态特征为字符特征；融合第一模态特征与第二模态特征以得到目标特征。该目标特征同时考虑到第一模态特征与第二模态特征，使得目标特征具有更丰富的多种模态信息。基于目标特征获取输入数据的第一识别结果，第一识别结果用于指示输入数据中含有的字符。

本申请实施例中，根据输入数据的第一模态特征获取第二模态特征，并融合第一模态特征与第二模态特征以得到目标特征，可以高效融合不同模态数据的信息，使得获取的目标特征具有多模态数据的特性，提高目标特征的表达能力。从而根据该目标特征获取的第一识别结果的精度更高。且相较于只根据纠正后的第二模态特征确定识别结果的方法，通过再次引入纠正前的第一模态特征，可以减少第二模态特征的过度纠正问题。

可选地，在第一方面的一种可能的实现方式中，上述步骤：基于第一模态特征获取第二模态特征，包括：基于第一模态特征获取第二识别结果，第二识别结果为图像数据的字符识别结果或音频数据的字符识别结果；基于第二识别结果获取第二模态特征。

该种可能的实现方式中，通过与第一模态特征相关的第二识别结果获取第二模态特征，可以实现对第一模态特征的部分纠正。

可选地，在第一方面的一种可能的实现方式中，上述步骤：提取输入数据的第一模态特征，包括：将输入数据输入第一特征提取模块以得到第一模态特征，第一特征提取模块用于提取视觉特征或音频特征；基于第二识别结果获取第二模态特征，包括：将第二识别结果输入第二特征提取模块以得到第二模态特征，第二特征提取模块用于提取字符特征。

该种可能的实现方式中，以第一特征提取模块用于提取视觉特征为例，为了减少视觉遮挡等不良因素对识别内容造成干扰，可以使用第二提取特征对视觉模块识别到的第一模态特征进行纠正。

可选地，在第一方面的一种可能的实现方式中，上述步骤还包括：基于第二识别结果与第一识别结果获取输入数据的目标识别结果，该目标识别结果作为输入数据中字符的识别结果。或者理解为，将目标识别结果作为输入数据中字符的最终识别结果。

该种可能的实现方式中，通过同时考虑第一模态特征得到的原始结果(即第二识别结果)与第二模态特征得到的纠正结果(即第一识别结果)。尤其是对于图像识别来说。可以实现结合语言模块(即获取第二模态特征的模块)的纠正能力强以及视觉模块(即获取第一模态特征的模块)识别能力强的优点，从而提高图像中字符的识别能力。

可选地，在第一方面的一种可能的实现方式中，上述步骤：基于第二识别结果与第一识别结果获取输入数据的目标识别结果，包括：获取第一概率与第二概率，第一概率为第一识别结果中各字符的概率，第二概率为第二识别结果中各字符的概率；基于第一概率与第二概率确定目标识别结果。

该种可能的实现方式中，通过融合各字符在第一识别结果中的第一概率以及各字符在第二识别结果中的第二概率，同时考虑到初始模态对应结果中各字符的概率以及纠正结果中各字符的概率，从而提升识别各字符的准确率。

可选地，在第一方面的一种可能的实现方式中，上述步骤：基于第一概率与第二概率确定目标识别结果，包括：将第一识别结果与第二识别结果中相同位置字符对应的第一概率与第二概率相加；基于相加后的概率确定目标识别结果。其中，相加可以是直接相加，也可以是加权后再相加等，具体此处不做限定。

该种可能的实现方式中，通过初始模态对应结果中各字符的概率以及纠正结果中各字符的概率相加，并基于相加后的概率获取目标识别结果，从而提升目标识别结果的准确率。

可选地，在第一方面的一种可能的实现方式中，上述步骤：融合第一模态特征与第二模态特征以得到目标特征，包括：将相同位置字符的第一模态特征与第二模态特征融合以得到目标特征。

该种可能的实现方式中，通过将相同位置字符的不同模态特征进行融合，使得目标特征具有不同模态的信息，从而提升目标特征的表达能力。

可选地，在第一方面的一种可能的实现方式中，上述步骤：基于目标特征获取输入数据的第一识别结果，包括：确定目标特征与多个字符的对应关系；获取多个字符的排列方式集合，排列方式集合包括多种排列方式；基于排列方式集合中的每个排列方式对每个排列方式下的最后一个字符进行最大似然估计，以得到第一识别结果。

该种可能的实现方式中，通过将排列方式集合中每个排列方式下的最后一个字符作为预测字符进行最大似然估计，可以基于不同的排列方式学习到不同的上下文信息(例如，左向右与右向左)，从而提升第一识别结果的准确率。

可选地，在第一方面的一种可能的实现方式中，上述的输入数据为含有字符的图像数据，第一模态特征为视觉特征，第二模态特征为字符特征。

该种可能的实现方式中，该方法可以应用于图像中的字符识别或文字识别场景。例如，证件信息、票据信息的识别/自动录入场景、残疾人的辅助阅读场景、违禁词的过滤场景等。

可选地，在第一方面的一种可能的实现方式中，上述的输入数据为音频数据，第一模态特征为音频特征，第二模态特征为字符特征。

该种可能的实现方式中，该方法可以应用于音频中的字符识别或文字识别场景。例如，聋哑人的辅助学习场景等。

本申请实施例第二方面提供了一种数据处理设备，数据处理设备应用于文本识别/字符识别场景，数据处理设备包括：获取单元，用于获取输入数据，该输入图像为图像数据或音频数据；提取单元，用于提取输入数据的第一模态特征；获取单元，还用于基于第一模态特征获取第二模态特征，第一模态特征与第二模态特征为不同模态的特征；第一模态特征为图像数据的视觉特征或者音频数据的音频特征，第二模态特征为字符特征；融合单元，用于融合第一模态特征与第二模态特征以得到目标特征；获取单元，还用于基于目标特征获取输入数据的第一识别结果，第一识别结果用于指示输入数据中含有的字符。

可选地，在第二方面的一种可能的实现方式中，上述的获取单元，具体用于基于第一模态特征获取第二识别结果，第二识别结果为图像数据的字符识别结果或音频数据的字符识别结果；获取单元，具体用于基于第二识别结果获取第二模态特征。

可选地，在第二方面的一种可能的实现方式中，上述的提取单元，具体用于将输入数据输入第一特征提取模块以得到第一模态特征，第一特征提取模块用于提取视觉特征或音频特征；获取单元，具体用于将第二识别结果输入第二特征提取模块以得到第二模态特征，第二特征提取模块用于提取字符特征。

可选地，在第二方面的一种可能的实现方式中，上述的获取单元，还用于基于第二识别结果与第一识别结果获取输入数据的目标识别结果，该目标识别结果作为输入数据中字符的识别结果。或者理解为，将目标识别结果作为输入数据中字符的最终识别结果。

可选地，在第二方面的一种可能的实现方式中，上述的获取单元，具体用于获取第一概率与第二概率，第一概率为第一识别结果中各字符的概率，第二概率为第二识别结果中各字符的概率；获取单元，具体用于基于第一概率与第二概率确定目标识别结果。

可选地，在第二方面的一种可能的实现方式中，上述的获取单元，具体用于将第一识别结果与第二识别结果中相同位置字符对应的第一概率与第二概率相加；获取单元，具体用于基于相加后的概率确定目标识别结果。

可选地，在第二方面的一种可能的实现方式中，上述的融合单元，具体用于将相同位置字符的第一模态特征与第二模态特征融合以得到目标特征。

可选地，在第二方面的一种可能的实现方式中，上述的获取单元，具体用于确定目标特征与多个字符的对应关系；获取单元，具体用于获取多个字符的排列方式集合，排列方式集合包括多种排列方式；获取单元，具体用于基于排列方式集合中的每个排列方式对每个排列方式下的最后一个字符进行最大似然估计，以得到第一识别结果。

可选地，在第二方面的一种可能的实现方式中，上述的输入数据为含有字符的图像数据，第一模态特征为视觉特征，第二模态特征为字符特征。

可选地，在第二方面的一种可能的实现方式中，上述的输入数据为音频数据，第一模态特征为音频特征，第二模态特征为字符特征。

本申请实施例第三方面提供了一种数据处理设备，包括：处理器，处理器与存储器耦合，存储器用于存储程序或指令，当程序或指令被处理器执行时，使得该数据处理设备实现上述第一方面或第一方面的任意可能的实现方式中的方法。

本申请实施例第四方面提供了一种计算机可读介质，其上存储有计算机程序或指令，当计算机程序或指令在计算机上运行时，使得计算机执行前述第一方面或第一方面的任意可能的实现方式中的方法。

本申请实施例第五方面提供了一种计算机程序产品，该计算机程序产品在计算机上执行时，使得计算机执行前述第一方面或第一方面的任意可能的实现方式中的方法。

其中，第二、第三、第四、第五方面或者其中任一种可能实现方式所带来的技术效果可参见第一方面或第一方面不同可能实现方式所带来的技术效果，此处不再赘述。

从以上技术方案可以看出，本申请具有以下优点：根据输入数据的第一模态特征获取第二模态特征(可以理解为第一模态特征的纠正过程)，并融合第一模态特征与第二模态特征以得到目标特征，从而根据该目标特征获取的第一识别结果的精度更高。通过在对输入数据进行字符识别的过程中，同时考虑到两个模态的特征(即第一模态特征与第二模态特征)。由于不同模态的表现方式不一样，看待事物的角度也会不一样，所以存在一些交叉/互补的现象，甚至模态间可能还存在多种不同的信息交互，通过合理的处理两个模态的特征，可以得到丰富的目标特征，从而可以提高识别精度。且相较于只根据纠正后的第二模态特征确定识别结果的方法，通过再次引入纠正前的第一模态特征，可以减少第二模态特征的过度纠正问题。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种应用场景示意图；

图2A为本申请实施例提供的票据识别场景示意图；

图2B为本申请实施例提供的证件识别场景示意图；

图3为本申请实施例提供的系统架构的结构示意图；

图4为本申请实施例提供的一种芯片硬件结构示意图；

图5为本申请实施例提供的数据处理方法一个流程示意图；

图6为本申请实施例提供的输入数据的一种示例图；

图7为本申请实施例提供的纠正模块的训练方式与推理方式的示意图；

图8为本申请实施例提供的神经网络的一种示意图；

图9为本申请实施例提供的数据处理方法另一个流程示意图；

图10为本申请实施例提供的神经网络的另一种示意图；

图11为本申请实施例提供的概率融合模块的处理流程示意图；

图12为本申请实施例提供的数据处理设备的一个结构示意图；

图13为本申请实施例提供的数据处理设备的另一个结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了便于理解，下面先对本申请实施例主要涉及的相关术语和概念进行介绍。

1、神经网络

神经网络可以是由神经单元组成的，神经单元可以是指以X_s和截距b为输入的运算单元，该运算单元的输出可以为：

其中，s＝1、2、……n，n为大于1的自然数，W_s为X_s的权重，b为神经单元的偏置。f为神经单元的激活函数(activation functions)，用于将非线性特性引入神经网络中，来将神经单元中的输入信号转换为输出信号。该激活函数的输出信号可以作为下一层卷积层的输入。激活函数可以是Relu函数。神经网络是将许多个上述单一的神经单元联结在一起形成的网络，即一个神经单元的输出可以是另一个神经单元的输入。每个神经单元的输入可以与前一层的局部接受域相连，来提取局部接受域的特征，局部接受域可以是由若干个神经单元组成的区域。

神经网络中的每一层的工作可以用数学表达式y＝a(Wx+b)来描述：从物理层面神经网络中的每一层的工作可以理解为通过五种对输入空间(输入向量的集合)的操作，完成输入空间到输出空间的变换(即矩阵的行空间到列空间)，这五种操作包括：1、升维/降维；2、放大/缩小；3、旋转；4、平移；5、“弯曲”。其中1、2、3的操作由Wx完成，4的操作由+b完成，5的操作则由a()来实现。这里之所以用“空间”二字来表述是因为被分类的对象并不是单个事物，而是一类事物，空间是指这类事物所有个体的集合。其中，W是权重向量，该向量中的每一个值表示该层神经网络中的一个神经元的权重值。该向量W决定着上文的输入空间到输出空间的空间变换，即每一层的权重W控制着如何变换空间。训练神经网络的目的，也就是最终得到训练好的神经网络的所有层的权重矩阵(由很多层的向量W形成的权重矩阵)。因此，神经网络的训练过程本质上就是学习控制空间变换的方式，更具体的就是学习权重矩阵。

2、卷积神经网络

卷积神经网络(convolutional neuron network，CNN)是一种带有卷积结构的深度神经网络。卷积神经网络包含了一个由卷积层和子采样层构成的特征抽取器。该特征抽取器可以看作是滤波器，卷积过程可以看作是使同一个可训练的滤波器与一个输入的图像或者卷积特征平面(feature map)做卷积。卷积层是指卷积神经网络中对输入信号进行卷积处理的神经元层。在卷积神经网络的卷积层中，一个神经元可以只与部分邻层神经元连接。一个卷积层中，通常包含若干个特征平面，每个特征平面可以由一些矩形排列的神经单元组成。同一特征平面的神经单元共享权重，这里共享的权重就是卷积核。共享权重可以理解为提取图像信息的方式与位置无关。这其中隐含的原理是：图像的某一部分的统计信息与其他部分是一样的。即意味着在某一部分学习的图像信息也能用在另一部分上。所以对于图像上的所有位置，都能使用同样的学习得到的图像信息。在同一卷积层中，可以使用多个卷积核来提取不同的图像信息，一般地，卷积核数量越多，卷积操作反映的图像信息越丰富。

卷积核可以以随机大小的矩阵的形式初始化，在卷积神经网络的训练过程中卷积核可以通过学习得到合理的权重。另外，共享权重带来的直接好处是减少卷积神经网络各层之间的连接，同时又降低了过拟合的风险。

3、transformer

transformer结构是一种包含编码器与解码器的特征提取网络(类别于卷积神经网络)。

编码器：通过自注意力的方式在全局感受野下进行特征学习，例如像素点的特征。

解码器：通过自注意力与交叉注意力来学习所需模块的特征，例如输出框的特征。

下面对注意力(也可以称为注意力机制)进行描述：

注意力机制可以快速提取稀疏数据的重要特征。注意力机制是发生在编码器和解码器之间，也可以说是发生在输入句子和生成句子之间。而自注意力模型中的自注意力机制则发生在输入序列内部，或者输出序列内部，可以抽取到同一个句子内间隔较远的单词之间的联系，比如句法特征(短语结构)。自注意力机制通过QKV提供了一种有效的捕捉全局上下文信息的建模方式。假定输入为Q(query)，以键值对(K，V)形式存储上下文。那么注意力机制其实是query到一系列键值对(key,value)上的映射函数。attention函数的本质可以被描述为一个查询(query)到一系列(键key-值value)对的映射。attention本质上是为序列中每个元素都分配一个权重系数，这也可以理解为软寻址。如果序列中每一个元素都以(K，V)形式存储，那么attention则通过计算Q和K的相似度来完成寻址。Q和K计算出来的相似度反映了取出来的V值的重要程度，即权重，然后加权求和就得到最后的特征值。

注意力的计算主要分为三步，第一步是将query和每个key进行相似度计算得到权重，常用的相似度函数有点积，拼接，感知机等；然后第二步一般是使用一个softmax函数(一方面可以进行归一化，得到所有权重系数之和为1的概率分布。另一方面可以用softmax函数的特性突出重要元素的权重)对这些权重进行归一化；最后将权重和相应的键值value进行加权求和得到最后的特征值。具体计算公式可以如下：

其中，d为QK矩阵的维度。

另外，注意力包括自注意力与交叉注意力，自注意可以理解为是特殊的注意力，即QKV的输入一致。而交叉注意力中的QKV的输入不一致。注意力是利用特征之间的相似程度(例如内积)作为权重来集成被查询特征作为当前特征的更新值。自注意力是基于特征图本身的关注而提取的注意力。

对于卷积而言，卷积核的设置限制了感受野的大小，导致网络往往需要多层的堆叠才能关注到整个特征图。而自注意的优势就是它的关注是全局的，它能通过简单的查询与赋值就能获取到特征图的全局空间信息。自注意力在查询、键、值(query key value，QKV)模型中的特殊点在于QKV对应的输入是一致的。后续会对QKV模型进行描述。

4、多层感知器(multilayer perceptron，MLP)

多层感知器，也可以称为多层感知机，是一种前馈人工神经网络模型，其将输入映射到单一的输出的上。

5、损失函数

在训练深度神经网络的过程中，因为希望深度神经网络的输出尽可能的接近真正想要预测的值，所以可以通过比较当前网络的预测值和真正想要的目标值，再根据两者之间的差异情况来更新每一层神经网络的权重向量(当然，在第一次更新之前通常会有初始化的过程，即为深度神经网络中的各层预先配置参数)，比如，如果网络的预测值高了，就调整权重向量让它预测低一些，不断的调整，直到神经网络能够预测出真正想要的目标值。因此，就需要预先定义“如何比较预测值和目标值之间的差异”，这便是损失函数(loss function)或目标函数(objective function)，它们是用于衡量预测值和目标值的差异的重要方程。其中，以损失函数举例，损失函数的输出值(loss)越高表示差异越大，那么深度神经网络的训练就变成了尽可能缩小这个loss的过程。

6、模态

一般来说，模态是指事物发生或存在的方式。或者说，对每一种信息的来源或者形式，都可以称为一种模态(Modality)，目前研究领域中主要是对图像，文本，语音等模态的处理。

上述中的模态也可以理解为是“感官”，即生物凭借感知器官与经验来接收信息的通道，例如：人类有视觉、听觉、触觉、味觉和嗅觉等等模态。多模态可以理解为是多种感官进行融合，例如，人类可以通过声音、肢体语言、信息载体(例如文字、图片、音频、视频等)、环境等多个通道与智能设备进行交流，智能设备融合多模态信息后作出对人类的意图判断，并通过文字、声音、灯带等多种方式反馈给人类。

因为不同模态的表现方式不一样，看待事物的角度也会不一样，所以存在一些交叉(所以存在信息冗余)，互补(所以比单特征更优秀)的现象，甚至模态间可能还存在多种不同的信息交互，如果能合理的处理多模态信息，就能得到丰富特征信息。

接下来对本申请实施例提供的数据处理方法的应用场景进行描述。

该应用场景如图1所示，该场景包括：终端设备101与服务器102。其中，终端设备101和服务器102可通过通信网络进行通信连接，该网络可以为局域网、也可以是通过中继(relay)设备转接的广域网等。终端设备101中可安装有各种客户端。终端设备101的客户端和服务器102之间通过通信网络建立通信连接后，终端设备101的客户端可以将待处理数据发送给服务器102，由服务器102对待处理数据进行AI处理(例如：识别、分类等)得到处理结果，再将处理结果发送给终端设备101的客户端。

当终端设备101和服务器102之间进行通信连接的通信网络为局域网时，示例性的，该通信网络可以是无线保真(wireless fidelity，wifi)热点网络、蓝牙(bluetooth，BT)网络或近距离无线通信技术(near field communication，NFC)网络等近距离通信网络。

当终端设备101和服务器102之间进行通信连接的通信网络为广域网时，示例性的，该通信网络可以是第三代移动通信技术(3rd-g ene ra tion wi reless tele phone technology，3G)网络、第四代移动通信技术(the 4th generation mobile communication technology，4G)网络、第五代移动通信技术(5th-generation mobile communication technology，5G)网络、未来演进的公共陆地移动网络(public land mobile network，PLMN)或因特网等。

上述的终端设备101可以是手机、平板电脑(pad)、便携式游戏机、掌上电脑(personal digital assistant，PDA)、笔记本电脑、超级移动个人计算机(ultra mobile personal computer，UMPC)、手持计算机、上网本、车载媒体播放设备、可穿戴电子设备、虚拟现实(virtual reality，VR)终端设备、增强现实(augmented reality，AR)、车辆、车载终端、飞机终端、智能机器人等终端设备。

上述的服务器102可以是云服务器、网络服务器、应用服务器以及管理服务器等具有处理计算机视觉任务的设备或服务器。该计算机视觉任务包括以下至少一项或多项：识别、分类等。

可选地，上述图1所示的场景可以理解为是云端交互场景，该场景下的数据处理方法可以以云服务如软件即服务(software as a service，SaaS)或者功能即服务(function as a service，FaaS)的形式提供给用户使用。例如，用于处理计算机视觉任务的服务器可以部署到公有云，从而提供一项对外发布的云服务，该云服务用于对图像进行分类，然后将图像进行字符识别。当数据处理方法作为一项服务对外发布时，考虑到安全性，还可以对上传数据如图像进行保护，例如可以对图像进行加密处理。在一些实施例中，用于处理计算机视觉任务的服务器也可以部署到私有云，从而提供一项云服务对内使用。当然，用于处理计算机视觉任务的服务器也可以部署到混合云。其中，混合云是指包括至少一个公有云和至少一个私有云的架构。

在一种可能实现的方式中，当数据处理方法以云服务的形式提供给用户使用时，该云服务可以提供应用程序编程接口(application programming interface，API)和/或用户界面(也称作用户接口)。其中，用户界面可以是图形用户界面(graphical user interface)或者是命令用户界面(command user interface，CUI)。如此，服务调用方可以直接调用该云服务提供的API进行数据处理，例如对图像进行分类，当然，云服务也可以接收用户通过GUI或CUI提交的图像，并对图像进行分类，返回分类结果。

在另一种可能实现的方式中，本申请实施例提供的数据处理方法可以以封装好的软件包提供给用户使用。具体地，用户购买软件包后可以在该用户的运行环境下安装使用。当然，上述软件包也可以预安装在计算设备，以用于数据处理。

可以理解的是，上述图1所示的场景为云端交互的场景。即终端设备可以接收用户的指令，例如终端设备可以获取用户输入/选择的图像数据，然后向服务器发起请求，使得服务器针对终端设备得到的图像数据执行数据处理应用(例如，分类、分割、检测、图像生成等的计算机视觉任务)，从而得到针对图像数据对应的处理结果。示例性的，终端设备可以获取用户输入的图像，然后向服务器发起字符(或称为文本)识别请求，使得服务器对该图像进行字符识别，从而得到图像的字符识别结果。并向终端设备发送该字符识别结果。进而终端设备可以显示图像的字符识别结果，以供用户观看和使用。

在实际应用中，若终端设备的算力足够处理计算机视觉任务，也可以将图1中服务器执行的步骤迁移到终端设备中实现。即终端设备可以接收用户的指令，例如终端设备可以获取用户输入/选择的图像数据，然后对图像数据执行数据处理应用(例如，分类、分割、检测、图像生成等的计算机视觉任务)，从而得到针对图像数据对应的处理结果。示例性的，终端设备可以获取用户输入的图像，然后对该图像进行字符识别，从而得到图像的字符识别结果。并显示图像的字符识别结果，以供用户观看和使用。

可选地，上述的应用场景具体可以是光学字符识别(optical character recognition，OCR)场景。例如该场景包括以下至少一项或多项：证件信息(或称为卡证信息)、票据信息的识别/自动录入场景，残疾人的辅助阅读场景，或者是应用于违禁词的过滤场景等。

示例性的，以输入数据为图像数据/文档，计算机视觉任务是分类任务为例。终端设备101可以向服务器102发送图像数据/文档，服务器102对图像数据/文档进行分类识别得到分类结果。该分类结果包括图像数据/文档的类别标签，该类别标签用于表征图像数据/文档的类别。具体地，该类别可以包括卡证、票据、标签、邮件或者文件等类别。在一些可能的实现方式中，图像数据/文档的类别还可以进一步分为子类别，如卡证可以分为工卡、银行卡、通行证、驾驶证等子类别，票据可以包括购物小票、打车票等子类别。在一些实施例中，分类结果还可以包括图像数据/文档属于对应类别的置信度。其中，置信度是根据经验确定的、用于表征可信程度的概率值。置信度可以是取值范围为[0,1]的数值，该数值越接近1，表明可信程度越高，该数值越接近0，表明可信程度越低。

示例1，票据识别场景如图2A所示。在一种可能实现的方式中，终端设备获取用户拍照或扫描后的票据图像，由终端设备对该票据图像进行OCR文字识别得到识别结果(例如，日期、公司、金额等)。并根据该识别结果进行信息统计/报销等处理。在另一种可能实现的方式中，终端设备获取用户拍照或扫描后的票据图像之后，终端设备获取用户拍照或扫描后的票据图像，并向服务器发送该票据图像，服务器对该票据图像进行OCR文字识别得到识别结果(例如，日期、公司、金额等)。并将该识别结果发给终端设备，从而用户可以使用该识别结果进行信息统计/报销等处理。

示例2，票据识别场景如图2B所示。在一种可能实现的方式中，终端设备获取用户拍照或扫描后的证件图像，由终端设备对该证件图像进行OCR文字识别得到识别结果(例如，姓名、住址、联系电话、日期等)。并根据该识别结果进行身份核验等处理。在另一种可能实现的方式中，终端设备获取用户拍照或扫描后的证件图像之后，终端设备获取用户拍照或扫描后的证件图像，并向服务器发送该证件图像，服务器对该证件图像进行OCR文字识别得到识别结果(例如，姓名、住址、联系电话、日期)。并将该识别结果发给终端设备，从而用户可以使用该识别结果进行身份核验等处理。

随着OCR技术的快速发展，利用OCR技术代替人力进行识别和处理图像中的文字信息的应用变得越来越广泛。OCR技术被广泛应用于证件识别、车牌识别，广告图片文本识别和票据识别等现实场景。为了避免视觉遮挡等不良因素对识别内容造成干扰，常常使用语言模型对视觉模型识别后的字符信息进行纠正，并将纠正结果作为字符的最终识别结果。然而，纠正结果高度依赖于语言模型学习到的语义信息，可能会导致将正确的识别结果修改为错误的识别结果，即上述识别方式会出现过度纠偏问题。因此，如何解决文字识别中语言模型的过度纠偏是亟待解决的技术问题。

为了解决上述问题，本申请实施例提供一种数据处理方法及相关设备，通过在对输入数据进行字符识别的过程中，同时考虑到两个模态的特征(即第一模态特征与第二模态特征)。由于不同模态的表现方式不一样，看待事物的角度也会不一样，所以存在一些交叉/互补的现象，甚至模态间可能还存在多种不同的信息交互，通过合理的处理两个模态的特征，可以得到丰富的目标特征，从而可以提高识别精度。且相较于只根据纠正后的第二模态特征确定识别结果的方法，通过再次引入纠正前的第一模态特征，可以减少第二模态特征的过度纠正问题。

下面介绍本申请实施例提供的系统架构。

参见附图3，本申请实施例提供了一种系统架构300。如系统架构300所示，数据采集设备360用于采集训练数据，本申请实施例中训练数据包括：音频样本或含有字符的图像样本等。并将训练数据存入数据库330，训练设备320基于数据库330中维护的训练数据训练得到目标模型/规则301。下面将更详细地描述训练设备320如何基于训练数据得到目标模型/规则301，该目标模型/规则301能够用于实现本申请实施例提供的数据处理方法所应用的计算机视觉任务。该计算机视觉任务可以包括：识别、分类等任务。本申请实施例中的目标模型/规则301具体可以包括以下至少一项或多项：CNN、transformer、MLP等。需要说明的是，在实际的应用中，数据库330中维护的训练数据不一定都来自于数据采集设备360的采集，也有可能是从其他设备接收得到的。另外需要说明的是，训练设备320也不一定完全基于数据库330维护的训练数据进行目标模型/规则301的训练，也有可能从云端或其他地方获取训练数据进行模型训练，上述描述不应该作为对本申请实施例的限定。

根据训练设备320训练得到的目标模型/规则301可以应用于不同的系统或设备中，如应用于图3所示的执行设备310，执行设备310可以是终端，如手机终端，平板电脑，笔记本电脑，增强现实(augmented reality，AR)设备/虚拟现实(virtual reality，VR)设备，车载终端等。当然，执行设备310还可以是服务器或者云端等。在附图3中，执行设备310配置有I/O接口312，用于与外部设备进行数据交互，用户可以通过客户设备340向I/O接口312输入数据，输入数据在本申请实施例中可以包括：图像数据、音频数据等。另外该输入数据可以是用户输入的，也可以是用户通过拍摄设备上传的，当然还可以来自数据库，具体此处不做限定。

预处理模块313用于根据I/O接口312接收到的输入数据进行预处理，在本申请实施例中，预处理模块313可以用于对输入数据进行拆分得到子数据集合。例如：输入数据为图像数据，预处理模块313用于对图像进行拆分得到多个图像块。

在执行设备310对输入数据进行预处理，或者在执行设备310的计算模块311执行计算等相关的处理过程中，执行设备310可以调用数据存储系统350中的数据、代码等以用于相应的处理，也可以将相应处理得到的数据、指令等存入数据存储系统350中。

最后，I/O接口312将处理结果，如得到的上述计算机视觉任务对应的结果返回给客户设备340，从而提供给用户。

值得说明的是，训练设备320可以针对不同的目标或称不同的任务，基于不同的训练数据生成相应的目标模型/规则301，该相应的目标模型/规则301即可以用于实现上述目标或完成上述任务，从而为用户提供所需的结果。

在附图3中所示情况下，用户可以手动给定输入数据，该手动给定可以通过I/O接口312提供的界面进行操作。另一种情况下，客户设备340可以自动地向I/O接口312发送输入数据，如果要求客户设备340自动发送输入数据需要获得用户的授权，则用户可以在客户设备340中设置相应权限。用户可以在客户设备340查看执行设备310输出的结果，具体的呈现形式可以是显示、声音、动作等具体方式。客户设备340也可以作为数据采集端，采集如图所示输入I/O接口312的输入数据及输出I/O接口312的输出结果作为新的样本数据，并存入数据库330。当然，也可以不经过客户设备340进行采集，而是由I/O接口312直接将如图所示输入I/O接口312的输入数据及输出I/O接口312的输出结果，作为新的样本数据存入数据库330。

值得注意的是，附图3仅是本申请实施例提供的一种系统架构的示意图，图中所示设备、器件、模块等之间的位置关系不构成任何限制，例如，在附图3中，数据存储系统350相对执行设备310是外部存储器，在其它情况下，也可以将数据存储系统350置于执行设备310中。

如图3所示，根据训练设备320训练得到目标模型/规则301，本申请实施例中的目标模型/规则301具体可以为目标神经网络。

上述图1所示场景中的终端设备具体可以是图3中的客户设备340或执行设备310，其中，数据存储系统350可以存储执行设备310的待处理数据，数据存储系统350可以集成在执行设备310上，也可以设置在云上或其它网络服务器上。

下面介绍本申请实施例提供的一种芯片硬件结构。

图4为本申请实施例提供的一种芯片硬件结构，该芯片包括神经网络处理器40。该芯片可以被设置在如图3所示的执行设备310中，用以完成计算模块311的计算工作。该芯片也可以被设置在如图3所示的训练设备320中，用以完成训练设备320的训练工作并输出目标模型/规则301。

神经网络处理器40可以是神经网络处理器(neural-network processing unit，NPU)，张量处理器(tensor processing unit，TPU)，或者图形处理器(graphics processing unit，GPU)等一切适合用于大规模异或运算处理的处理器。以NPU为例：神经网络处理器40作为协处理器挂载到主中央处理器(central processing unit，CPU)(host CPU)上，由主CPU分配任务。NPU的核心部分为运算电路403，控制器404控制运算电路403提取存储器(权重存储器或输入存储器)中的数据并进行运算。

在一些实现中，运算电路403内部包括多个处理单元(process engine，PE)。在一些实现中，运算电路403是二维脉动阵列。运算电路403还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中，运算电路403是通用的矩阵处理器。

举例来说，假设有输入矩阵A，权重矩阵B，输出矩阵C。运算电路403从权重存储器402中取矩阵B相应的数据，并缓存在运算电路中每一个PE上。运算电路从输入存储器401中取矩阵A数据与矩阵B进行矩阵运算，得到的矩阵的部分结果或最终结果，保存在累加器408中。

向量计算单元407可以对运算电路的输出做进一步处理，如向量乘，向量加，指数运算，对数运算，大小比较等等。例如，向量计算单元407可以用于神经网络中非卷积/非FC层的网络计算，如池化(Pooling)，批归一化(Batch Normalization)，局部响应归一化(Local Response Normalization)等。

在一些实现中，向量计算单元407将经处理的输出的向量存储到统一存储器406。例如，向量计算单元407可以将非线性函数应用到运算电路403的输出，例如累加值的向量，用以生成激活值。在一些实现中，向量计算单元407生成归一化的值、合并值，或二者均有。在一些实现中，处理过的输出的向量能够用作到运算电路403的激活输入，例如用于在神经网络中的后续层中的使用。

统一存储器406用于存放输入数据以及输出数据。

权重数据直接通过存储单元访问控制器405(direct memory access controller，DMAC)将外部存储器中的输入数据搬运到输入存储器401和/或统一存储器406、将外部存储器中的权重数据存入权重存储器402，以及将统一存储器406中的数据存入外部存储器。

总线接口单元(bus interface unit，BIU)410，用于通过总线实现主CPU、DMAC和取指存储器409之间进行交互。

与控制器404连接的取指存储器(instruction fetch buffer)409，用于存储控制器404使用的指令。

控制器404，用于调用取指存储器409中缓存的指令，实现控制该运算加速器的工作过程。

一般地，统一存储器406，输入存储器401，权重存储器402以及取指存储器409均为片上(On-Chip)存储器，外部存储器为该NPU外部的存储器，该外部存储器可以为双倍数据率同步动态随机存储器(double data rate synchronous dynamic random access memory，简称DDR SDRAM)、高带宽存储器(high bandwidth memory，HBM)或其他可读可写的存储器。

下面对本申请实施例提供的数据处理方法进行描述。该方法可以由数据处理设备执行，也可以由数据处理设备的部件(例如处理器、芯片、或芯片系统等)执行。该数据处理设备可以是前述图1至图2B中的服务器或终端设备。当然，该方法也可以是由服务器和终端设备构成的系统执行(如前述图1所示)。可选地，该方法可以由数据处理设备中的CPU处理，也可以由CPU和GPU共同处理，也可以不用GPU，而使用其他适合用于神经网络计算的处理器，本申请不做限制。另外，本申请实施例所涉及的数据可以是指文本、图像、音频、视频等，为了方便描述，本文仅以数据是图像为例进行示例性说明。

请参阅图5，本申请实施例提供的数据处理方法的一个流程示意图，该方法可以包括步骤501至步骤505。下面对步骤501至步骤505进行详细说明。

步骤501，获取输入数据。

本申请实施例中，数据处理设备获取输入数据的方式有多种方式，可以是通过采集/拍摄的方式，也可以是通过接收其他设备发送的方式，还可以是从数据库中选取的方式等，具体此处不做限定。

本申请实施例中仅以输入数据是含有字符的图像数据为例进行示例性描述，在实际应用中，该输入数据还可以是音频数据、视频数据等，具体此处不做限定。其中，字符也可以理解为是文字(例如，中文、英文等)。

例如，在输入数据是图像数据的情况下，该方法可以应用于图像中的字符识别或文字识别场景。例如，证件信息、票据信息的识别/自动录入场景、残疾人的辅助阅读场景、违禁词的过滤场景等。

又例如，在输入数据是音频数据的情况下，该方法可以应用于音频中的字符识别或文字识别场景。例如，聋哑人的辅助学习场景等。

示例性的，以输入数据为含有字符的图像数据为例，该输入数据可以如图6所示。

步骤502，提取输入数据的第一模态特征。

数据处理设备获取输入数据之后，可以提取输入数据的第一模态特征。

可选地，数据处理设备将输入数据输入第一特征提取模块以得到第一模态特征。该第一特征提取模块可以包括transformer的编码器，也可以包括CNN的卷积层/池化层，还可以是MLP等，第一特征提取模块的具体结构可以根据实际需要设置，此处不做限定。

另外，第一模态特征与输入数据的模态相关。若输入数据为图像数据，则第一特征提取模块用于提取数据的视觉特征，即第一模态特征为视觉特征(或者称为视觉特征向量)。若输入数据为音频数据，则第一特征提取模块用于提取数据的音频特征，即则第一模态特征为音频特征。

步骤503，基于第一模态特征获取第二模态特征。

数据处理设备获取第一模态特征之后，可以基于第一模态特征获取第二模态特征。该第二模态特征为字符特征，且第一模态特征与第二模态特征为不同模态的特征。其中，关于模态的描述可以参考前述相关术语中的解释，此处不再赘述。

可选地，数据处理设备基于第一模态特征获取第二识别结果。该第二识别结果也可以理解为是输入数据中字符的初步识别结果。并将第二识别结果输入第二提取模块以得到第二模态特征。该第二特征提取模块用于提取字符的字符特征(或者称为字符特征向量)。对于分类任务来说，第二识别结果可以理解为是初步的分类结果。其中，第二特征提取模块与第一特征提取模块类似，可以是transformer的编码器、卷积层/池化层、MLP等。对于文字识别(或称为字符识别)的场景，第二特征提取模块常常为transformer的编码器。

具体的，对于分类任务来说，数据处理设备将第一模态特征输入分类模块以得到第二识别结果，该分类模块与第一特征提取模块对应。例如，在第一特征提取模块为编码器的情况下，分类模块可以是解码器。

示例性的，延续前述图6的举例，第二识别结果为“GAFE”。

步骤504，融合第一模态特征与第二模态特征以得到目标特征。

数据处理设备获取第二模态特征之后，可以融合第一模态特征与第二模态特征以得到目标特征。该步骤可以高效融合不同模态数据的信息，使得获取的目标特征具有多模态数据的特性，提高目标特征的表达能力。

可选地，将相同位置字符的第一模态特征与第二模态特征融合以得到目标特征。具体的，数据处理设备可以将第一模态特征与第二模态特征输入特征融合模块进行对齐融合，以得到目标特征。其中，该融合可以是向量相加、加权求和等，具体此处不做限定。该特征融合模块用于将相同位置字符对应的不同模态特征进行融合。例如，该融合层是transformer结构等。

示例性的，上述过程如公式一所示：

公式一：

其中，E_i表示融合后第i个字符的特征向量，表示第i个字符的第一模态特征(例如视觉特征向量)，表示第i个字符的第二模态特征(例如字符嵌入向量)，i为正整数。

可以理解的是，上述公式一只是获取目标特征的一种举例，在实际应用中，还可以有其他形式，例如，第一模态特征与第二模态特征分别乘以不同的系数后进行求和以得到目标特征等，具体此处不做限定。

需要说明的是，若第一模态特征与第二模态特征的维度/长度不同时，也可以对第一模态特征和第二模态特征先进行特征变换再相加/加权求和等，从而提高后续基于目标特征进行字符识别的精度。

步骤505，基于目标特征获取输入数据的第一识别结果。

数据处理设备获取目标特征之后，基于该目标特征获取输入数据的第一识别结果。该第一识别结果也可以称为纠正结果。

可选地，确定目标特征与多个字符的对应关系。并获取多个字符的排列方式集合，该排列方式集合包括多种排列方式。再基于排列方式集合中的每个排列方式对每个排列方式下的最后一个字符进行最大似然估计，以得到第一识别结果。

示例性的，延续上述举例。第一识别结果为“CAFE”。可以看出，针对于目标特征获取的第一识别结果“CAFE”相较于第二识别结果“GAFE”更加准确。

上述过程可以理解为，将多个字符的排列方式进行循环排序，以得到排列方式集合。针对排列方式集合中的每一个排列组合，将最后一个字符作为待预测字符。通过前面的字符预测最后一个字符。通过排列方式集合可以利用更多的上下文信息。

具体的，对于分类任务来说，数据处理设备将目标特征输入纠正模块以得到第一识别结果，该纠正模块可以是解码器、全连接层、卷积层等。

示例性的，上述纠正模块处理目标特征的过程可以如下述公式二与公式三所示。

公式二：

其中，E表示期望，T为文本/字符的长度，Z_T表示长度为T的排列方式集合，Z表示从Z_T中采样得到的一种排列方式，θ表示纠正模块的模型参数，x表示目标特征，Z_t表示Z排列方式中的第t个字符，Z_＜t表示Z排列方式中的前t-1个字符。

公式三：

其中，P_i(y)表示第i个字符是y的预测概率，exp表示以e为底的指数，e(y)表示第i个字符的嵌入向量(embedding)，g(x)用于标识排列方式。exp(e(y)^Tg(x))表示第i个字符为y的权重，y为字符集中任意一个字符，y′为字符集中的所有字符，∑_y'exp(e(y')^Tg(x))表示字符集中每个字符的权重和。其中，字符集可以理解为预设的字符集或离线字符集。

可以理解的是，上述公式二与公式三只是获取第一识别结果的一种举例，在实际应用中，还可以有其他形式，具体此处不做限定。

进一步的，为了提升推理过程中预测字符的准确性，上述纠正模块在训练中可以对训练文本进行随机排序，采用自回归方法预测上下文字符。在推理过程中，纠正模块在预测每个字符时将当前预测字符视为排序中的最后一个字符。通过不同的排列方式学习到不同的上下文信息(例如，左向右与右向左)，从而提升第一识别结果的准确率。具体流程可以如图7所示。以训练过程中有四行为例，以一圈表示一字符。第一行是“白圈、灰圈、灰圈、灰圈”，第二行是“白圈、白圈、白圈、白圈”，第三行是“白圈、灰圈、白圈、白圈”，第四行是“白圈、灰圈、灰圈、白圈”。其中，白圈表示该字符看不到的信息，灰圈表示该字符能看到的信息。例如，第一行表示表示第一个字符能看到第二个字符到第四个字符的信息。在推理过程中，排列方式集合包括4个排列方式，分别为：“1-2-3-4”、“2-3-4-1”、“3-4-1-2”、“4-1-2-3”。利用“1-2-3-4”推测出第4个字符为E，利用“2-3-4-1”推测出第1个字符为C，利用“3-4-1-2”推测出第2个字符为A，利用“4-1-2-3”推测出第3个字符为F。

本申请实施例中，通过在对输入数据进行字符识别的过程中，同时考虑到两个模态的特征(即第一模态特征与第二模态特征)。由于不同模态的表现方式不一样，看待事物的角度也会不一样，所以存在一些交叉/互补的现象，甚至模态间可能还存在多种不同的信息交互，通过合理的处理两个模态的特征，可以得到丰富的目标特征，从而可以提高识别精度。且相较于只根据纠正后的第二模态特征确定识别结果的方法，通过再次引入纠正前的第一模态特征，可以减少第二模态特征的过度纠正问题。

为了更直观理解图5所示实施例中各模块之间的关系，下面结合图8对本申请实施例涉及的神经网络进行描述。该神经网络包括第一特征提取模块、分类模块、第二特征提取模块、特征融合模块以及纠正模块。将输入数据输入第一特征提取模块以得到第一模态特征，将第一模态特征输入分类模块以得到第二识别结果。将第二识别结果输入第二特征提取模块以得到第二模态特征。将第一模态特征与第二模态特征输入特征融合模块以得到目标特征。将目标特征输入纠正模块以得到第一识别结果。关于各模块的结构可以参考前述描述，此处不再赘述。

例如，对于输入数据的图像数据的情况，图8所示的第一特征提取模块与分类模块可以理解为是视觉模型的子模块。对于输入数据的音频数据的情况，图8所示的第一特征提取模块与分类模块可以理解为是音频模型的子模块。

另外，为了充分利用两个模态的信息，本申请实施例还提供一种数据处理方法，如图9所示，该方法可以包括步骤901至步骤906。下面对步骤901至步骤906进行详细说明。

步骤901，获取输入数据。

步骤902，提取输入数据的第一模态特征。

步骤903，基于第一模态特征获取第二模态特征。

步骤904，融合第一模态特征与第二模态特征以得到目标特征。

步骤905，基于目标特征获取输入数据的第一识别结果。

本实施例中的步骤901至步骤905与前述图5所示实施例中的步骤501至步骤505类似，此处不再赘述。

步骤906，基于第一识别结果与第二识别结果获取目标识别结果。或者理解为，将目标识别结果作为输入数据中字符的最终识别结果。

数据处理设备获取第一识别结果与第二识别结果之后，基于第一识别结果与第二识别结果获取目标识别结果，将目标识别结果作为输入数据的字符识别结果。

可选地，数据处理设备先获取第一概率与第二概率，该第一概率为第一识别结果中各字符的概率，第二概率为第二识别结果中各字符的概率。再基于第一概率与第二概率确定目标识别结果。

具体的，数据处理设备将第一识别结果与第二识别结果中相同位置字符对应的第一概率与第二概率相加(例如，直接相加或各自加权后再相加等)。再基于相加后的概率确定目标识别结果。其中，该相同位置字符也可以理解为是相同位置索引的字符。

例如，将第一识别结果与第二识别结果输入概率融合模块以得到目标识别结果。该概率融合模块也可以称为概率残差结构。

示例性的，概率融合模块的处理过程可以如下述公式四所示。

公式四：

其中，y_i表示第i个字符的目标识别结果，P_i ⁰表示第i字符的第一概率，P_i表示第i字符的第二概率，表示从字符池中选择概率大于阈值或概率最大的字符作为输出。

可以理解的是，上述公式四只是获取第一识别结果的一种举例，在实际应用中，还可以有其他形式，具体此处不做限定。

本实施例中涉及的神经网络可以如图10所示，该神经网络除了包括前述图8所示的神经网络的各个模块，还包括上述的概率融合模块。其中，图10所示神经网络与图8所示神经网络中相同模块此处不再赘述。与图8所示神经网络不同的是，数据处理设备可以将第一识别结果与第二识别结果输入概率融合模块以得到目标识别结果。

示例性的，以输入数据为前述图6所示的举例，步骤906的过程可以如图11所示。即第一识别结果为“CAFE”，第二识别结果为“GAFE”。两个识别结果中第1个字符的概率相加得到第1个字符为C的概率最大，两个识别结果中第2个字符的概率相加得到第2个字符为A的概率最大，两个识别结果中第3个字符的概率相加得到第3个字符为F的概率最大，两个识别结果中第4个字符的概率相加得到第4个字符为E的概率最大。从而得到的目标识别结果为“CAFE”。

可选地，在做概率相加之前，还可以将第一识别结果与第二识别结果的字符进行对齐，再对概率进行相加。

通过两个识别结果的概率相加，可以减少纠正模块输出第一识别结果的错误率。对于纠正模块来说，本身有多种可能的纠正结果。例如，以caxe为例，假设要纠正第三个字符，有cafe/cake/cage等可能。若可以借鉴视觉模块的输出结果，则可以提升上述的纠正结果。

本实施例中，一方面，通过在对输入数据进行字符识别的过程中，同时考虑到两个模态的特征(即第一模态特征与第二模态特征)。由于不同模态的表现方式不一样，看待事物的角度也会不一样，所以存在一些交叉/互补的现象，甚至模态间可能还存在多种不同的信息交互，通过合理的处理两个模态的特征，可以得到丰富的目标特征，从而可以提高识别精度。且相较于只根据纠正后的第二模态特征确定识别结果的方法，通过再次引入纠正前的第一模态特征，可以减少第二模态特征的过度纠正问题。另一方面，通过概率残差结构可以将视觉模块输出的原始结果与语言模块(或称为纠正模块、文本模块)输出的纠正结果概率进行相加，实现结合语言模块的纠正能力强以及视觉模块识别能力强的优点，从而提高神经网络对于字符的总体识别能力。

为了直观看出本申请实施例提供的数据处理方法的有益效果，或者理解为本申请实施例提供的神经网络的有益效果。下面对比现有技术在不同数据集上的测试结果进行描述。例如，数据集包括：IIIT、SVT、IC13、SVTP、IC15、CUTE、OOV-ST。

测试结果如表1至表3所示：

表1

其中，先对上述表1中的英文缩写进行解释：概率相加(residual probability，RP)，在词典内的数据精度(In Vocabulary，IV)，在词典外的数据精度(Out of Vocabulary，OOV)，Gap表示IV和OOV的差值，All表示总精度。V+L表示两个模态特征(例如视觉特征与字符特征)融合。

可以看出，模态融合+概率相加的方法(即V+L-√)的总精度大于模态融合但不进行概率相加的方法(即V+L-×)，即概率相加可以提升识别字符的总体精度。其中，V+L-√相当于前述图9所示实施例的方法。V+L-×相当于前述图5所示实施例的方法。

表2

其中，先对上述表2中的英文缩写进行解释：regular表示正常文本，irregular表示弯曲文本。Fusion Module表示概率融合模块与纠正模块。Avg表示平均精度。

可以看出本申请实施例提供的神经网络在各个数据集上多个样本的平均精度相较于其他方法较高。

表3

可以看出，V+L-√在各个数据集上多个样本的平均精度大于V+L-×在各个数据集上多个样本的平均精度，即概率相加可以提升识别字符的总体精度。

综上可以看出本申请实施例提供的数据处理方法或神经网络可以提升文本/字符的识别精度。

上面对本申请实施例中的数据处理方法进行了描述，下面对本申请实施例中的数据处理设备进行描述，请参阅图12，本申请实施例中数据处理设备的一个实施例包括：

获取单元1201，用于获取输入数据，该输入图像为图像数据或音频数据；

提取单元1202，用于提取所述输入数据的第一模态特征；

所述获取单元1201，还用于基于所述第一模态特征获取第二模态特征，所述第一模态特征与所述第二模态特征为不同模态的特征；第一模态特征为图像数据的视觉特征或者音频数据的音频特征，第二模态特征为字符特征；

融合单元1203，用于融合所述第一模态特征与所述第二模态特征以得到目标特征；

所述获取单元1201，还用于基于所述目标特征获取所述输入数据的第一识别结果，所述第一识别结果用于指示所述输入数据中含有的字符。

可选地，获取单元1201，还用于基于所述第二识别结果与所述第一识别结果获取所述输入数据的目标识别结果。该目标识别结果作为输入数据中字符的识别结果。或者理解为，将目标识别结果作为输入数据中字符的最终识别结果。

本实施例中，数据处理设备中各单元所执行的操作与前述图1至图11所示实施例中描述的类似，此处不再赘述。

本实施例中，一方面，通过在对输入数据进行字符识别的过程中，同时考虑到两个模态的特征(即第一模态特征与第二模态特征)。由于不同模态的表现方式不一样，看待事物的角度也会不一样，所以存在一些交叉/互补的现象，甚至模态间可能还存在多种不同的信息交互，通过合理的处理两个模态的特征，可以得到丰富的目标特征，从而可以提高识别精度。且相较于只根据纠正后的第二模态特征确定识别结果的方法，通过再次引入纠正前的第一模态特征，可以减少第二模态特征的过度纠正问题。另一方面，获取单元1201将视觉模块输出的原始结果与语言模块(或称为纠正模块、文本模块)输出的纠正结果概率进行相加，实现结合语言模块的纠正能力强以及视觉模块识别能力强的优点，从而提高神经网络对于字符的总体识别能力。

参阅图13，本申请提供的另一种数据处理设备的结构示意图。该数据处理设备可以包括处理器1301、存储器1302和通信端口1303。该处理器1301、存储器1302和通信端口1303通过线路互联。其中，存储器1302中存储有程序指令和数据。

存储器1302中存储了前述图1至图11所示对应的实施方式中，由数据处理设备执行的步骤对应的程序指令以及数据。

处理器1301，用于执行前述图1至图11所示实施例中任一实施例所示的由数据处理设备执行的步骤。

通信端口1303可以用于进行数据的接收和发送，用于执行前述图1至图11所示实施例中任一实施例中与获取、发送、接收相关的步骤。

一种实现方式中，数据处理设备可以包括相对于图13更多或更少的部件，本申请对此仅仅是示例性说明，并不作限定。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，read-only memory)、随机存取存储器(RAM，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

一种数据处理方法，其特征在于，所述方法包括：

获取输入数据，所述输入数据为图像数据或音频数据；

提取所述输入数据的第一模态特征；

基于所述第一模态特征获取第二模态特征，所述第一模态特征与所述第二模态特征为不同模态的特征；所述第一模态特征为所述图像数据的视觉特征或者所述音频数据的音频特征，所述第二模态特征为字符特征；

融合所述第一模态特征与所述第二模态特征以得到目标特征；

基于所述目标特征获取所述输入数据的第一识别结果，所述第一识别结果用于指示所述输入数据中含有的字符。
根据权利要求1所述的方法，其特征在于，所述基于所述第一模态特征获取第二模态特征，包括：

基于所述第一模态特征获取第二识别结果，所述第二识别结果为所述图像数据的字符识别结果或所述音频数据的字符识别结果；

基于所述第二识别结果获取所述第二模态特征。
根据权利要求2所述的方法，其特征在于，所述提取所述输入数据的第一模态特征，包括：

将所述输入数据输入第一特征提取模块以得到所述第一模态特征，所述第一特征提取模块用于提取所述视觉特征或所述音频特征；

所述基于所述第二识别结果获取所述第二模态特征，包括：

将所述第二识别结果输入第二特征提取模块以得到所述第二模态特征，所述第二特征提取模块用于提取所述字符特征。
根据权利要求2或3所述的方法，其特征在于，所述方法还包括：

基于所述第二识别结果与所述第一识别结果获取所述输入数据的目标识别结果，所述目标识别结果作为所述输入数据中字符的识别结果。
根据权利要求4所述的方法，其特征在于，所述基于所述第二识别结果与所述第一识别结果获取所述输入数据的目标识别结果，包括：

获取第一概率与第二概率，所述第一概率为所述第一识别结果中各字符的概率，所述第二概率为所述第二识别结果中各字符的概率；

基于所述第一概率与所述第二概率确定所述目标识别结果。
根据权利要求5所述的方法，其特征在于，所述基于所述第一概率与所述第二概率确定所述目标识别结果，包括：

将所述第一识别结果与所述第二识别结果中相同位置字符对应的第一概率与第二概率相加；

基于相加后的概率确定所述目标识别结果。
根据权利要求1至6中任一项所述的方法，其特征在于，所述融合所述第一模态特征与所述第二模态特征以得到目标特征，包括：

将相同位置字符的所述第一模态特征与所述第二模态特征融合以得到所述目标特征。
根据权利要求1至7中任一项所述的方法，其特征在于，所述基于所述目标特征获取所述输入数据的第一识别结果，包括：

确定目标特征与多个字符的对应关系；

获取多个字符的排列方式集合，所述排列方式集合包括多种排列方式；

基于所述排列方式集合中的每个排列方式对所述每个排列方式下的最后一个字符进行最大似然估计，以得到所述第一识别结果。
一种数据处理设备，其特征在于，所述数据处理设备包括：

获取单元，用于获取输入数据，所述输入数据为图像数据或音频数据；

提取单元，用于提取所述输入数据的第一模态特征；

所述获取单元，还用于基于所述第一模态特征获取第二模态特征，所述第一模态特征与所述第二模态特征为不同模态的特征；所述第一模态特征为所述图像数据的视觉特征或者所述音频数据的音频特征，所述第二模态特征为字符特征；

融合单元，用于融合所述第一模态特征与所述第二模态特征以得到目标特征；

所述获取单元，还用于基于所述目标特征获取所述输入数据的第一识别结果，所述第一识别结果用于指示所述输入数据中含有的字符。
根据权利要求9所述的数据处理设备，其特征在于，所述获取单元，具体用于基于所述第一模态特征获取第二识别结果，所述第二识别结果为所述图像数据的字符识别结果或所述音频数据的字符识别结果；

所述获取单元，具体用于基于所述第二识别结果获取所述第二模态特征。
根据权利要求10所述的数据处理设备，其特征在于，所述提取单元，具体用于将所述输入数据输入第一特征提取模块以得到所述第一模态特征，所述第一特征提取模块用于提取所述视觉特征或所述音频特征；

所述获取单元，具体用于将所述第二识别结果输入第二特征提取模块以得到所述第二模态特征，所述第二特征提取模块用于提取所述字符特征。
根据权利要求10或11所述的数据处理设备，其特征在于，所述获取单元，还用于基于所述第二识别结果与所述第一识别结果获取所述输入数据的目标识别结果，所述目标识别结果作为所述输入数据中字符的识别结果。
根据权利要求12所述的数据处理设备，其特征在于，所述获取单元，具体用于获取第一概率与第二概率，所述第一概率为所述第一识别结果中各字符的概率，所述第二概率为所述第二识别结果中各字符的概率；

所述获取单元，具体用于基于所述第一概率与所述第二概率确定所述目标识别结果。
根据权利要求13所述的数据处理设备，其特征在于，所述获取单元，具体用于将所述第一识别结果与所述第二识别结果中相同位置字符对应的第一概率与第二概率相加；

所述获取单元，具体用于基于相加后的概率确定所述目标识别结果。
根据权利要求9至14中任一项所述的数据处理设备，其特征在于，所述融合单元，具体用于将相同位置字符的所述第一模态特征与所述第二模态特征融合以得到所述目标特征。
根据权利要求9至15中任一项所述的数据处理设备，其特征在于，所述获取单元，具体用于确定目标特征与多个字符的对应关系；

所述获取单元，具体用于获取多个字符的排列方式集合，所述排列方式集合包括多种排列方式；

所述获取单元，具体用于基于所述排列方式集合中的每个排列方式对所述每个排列方式下的最后一个字符进行最大似然估计，以得到所述第一识别结果。
一种数据处理设备，其特征在于，包括：处理器，所述处理器与存储器耦合，所述存储器用于存储程序或指令，当所述程序或指令被所述处理器执行时，使得所述数据处理设备执行如权利要求1至8中任一项所述的方法。
一种计算机存储介质，其特征在于，包括计算机指令，当所述计算机指令在终端设备上运行时，使得所述终端设备执行如权利要求1至8中任一项所述的方法。
一种计算机程序产品，其特征在于，当所述计算机程序产品在计算机上运行时，使得所述计算机执行如权利要求1至8中任一项所述的方法。