WO2023221293A1

WO2023221293A1 - 基于图像处理的文档信息抽取方法、装置、设备及介质

Info

Publication number: WO2023221293A1
Application number: PCT/CN2022/108443
Authority: WO
Inventors: 陈东来
Original assignee: 深圳前海环融联易信息科技服务有限公司
Priority date: 2022-05-17
Filing date: 2022-07-28
Publication date: 2023-11-23
Also published as: CN114663896A; CN114663896B

Abstract

本申请公开了基于图像处理的文档信息抽取方法、装置、设备及介质，方法包括：对信息抽取任务的待处理文档图像进行特征编码得到编码特征信息并进行切分转换得到输入向量集，将输入向量集输入多头自注意力神经网络以计算得到图像权重特征向量，对信息抽取任务中的任务信息与图像权重特征向量组合得到组合特征向量，将图像权重特征向量与组合特征向量同时输入解码器进行向量整合解码得到字符编码序列，对字符编码序列进行解析得到与信息抽取任务对应的文档信息。

Description

基于图像处理的文档信息抽取方法、装置、设备及介质

本申请要求于2022年05月17日提交中国专利局、申请号为202210533116.6，发明名称为“基于图像处理的文档信息抽取方法、装置、设备及介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及文档信息识别技术领域，尤其涉及一种基于图像处理的文档信息抽取方法、装置、设备及介质。

背景技术

随着人工智能技术的发展，现有技术可以对用户输入的图像进行处理，以从中识别得到对应的文字内容并进一步提取得到所需文本信息，然而发明人现有的图像识别方法通常基于复杂模型结构进行识别来实现，进行图像分析识别的过程中计算量太大，且需要耗费大量时间，导致对图像进行分析识别时存在抽取效率较低的问题，影响了下游任务的顺利进行，导致无法高效从图像中准确抽取所需的文档信息。因此，现有的技术方法存在无法高效地从图像中准确抽取所需文档信息的问题。

发明内容

本申请实施例提供了一种基于图像处理的文档信息抽取方法、装置、设备及介质，旨在解决现有技术方法中所存在的无法高效地从图像中准确抽取所需文档信息的问题。

第一方面，本申请实施例提供了一种基于图像处理的文档信息抽取方法，所述方法包括：

接收所输入的信息抽取任务，对所述信息抽取任务中的待处理文档图像进行特征编码处理得到对应的编码特征信息；

根据所述待处理文档图像的像素坐标位置对所述编码特征信息进行切分转换，以得到由多个编码特征向量组成的输入向量集；

将所述输入向量集输入至预置的多头自注意力神经网络，以计算得到对应的图像权重特征向量；

对所述信息抽取任务中的任务信息与所述图像权重特征向量组合以得到组合特征向量；

将所述图像权重特征向量及所述组合特征向量同时输入至预置的解码器，以进行向量整合解码得到对应的字符编码序列；

根据预置的编码解析规则对所述字符编码序列进行解析，以得到与所述信息抽取任务对应的文档信息。

第二方面，本申请实施例提供了一种基于图像处理的文档信息抽取装置，其包括：

编码特征信息获取单元，用于接收所输入的信息抽取任务，对所述信息抽取任务中的待处理文档图像进行特征编码处理得到对应的编码特征信息；

输入向量集获取单元，用于根据所述待处理文档图像的像素坐标位置对所述编码特征信息进行切分转换，以得到由多个编码特征向量组成的输入向量集；

图像权重特征向量获取单元，用于将所述输入向量集输入至预置的多头自注意力神经网络，以计算得到对应的图像权重特征向量；

组合特征向量获取单元，用于对所述信息抽取任务中的任务信息与所述图像权重特征向量组合以得到组合特征向量；

字符编码序列获取单元，用于将所述图像权重特征向量及所述组合特征向量同时输入至预置的解码器，以进行向量整合解码得到对应的字符编码序列；

文档信息获取单元，用于根据预置的编码解析规则对所述字符编码序列进行解析，以得到与所述信息抽取任务对应的文档信息。

第三方面，本申请实施例又提供了一种计算机设备，其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的基于图像处理的文档信息抽取方法。

第四方面，本申请实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于图像处理的文档信息抽取方法。

本申请实施例提供了一种基于图像处理的文档信息抽取方法、装置、设备及介质，对信息抽取任务的待处理文档图像进行特征编码得到编码特征信息并进行切分转换得到输入向量集，将输入向量集输入多头自注意力神经网络以计算得到图像权重特征向量，对信息抽取任务中的任务信息与图像权重特征向量组合得到组合特征向量，将图像权重特征向量与组合特征向量同时输入解码器进行向量整合解码得到字符编码序列，对字符编码序列进行解析得到与信息抽取任务对应的文档信息。通过上述方法，将图像分析识别处理与文本信息抽取进行结合，大幅提高了对文档信息进行抽取的效率，通过灵活调整多头自注意力神经网络及信息抽取任务，可使文档信息抽取方法适用于各种文档图像，提高了文档信息抽取的灵活性。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的基于图像处理的文档信息抽取方法的流程示意图；

图2为本申请实施例提供的基于图像处理的文档信息抽取方法的子流程示意图；

图3为本申请实施例提供的基于图像处理的文档信息抽取方法的另一子流程示意图；

图4为本申请实施例提供的基于图像处理的文档信息抽取方法的又一子流程示意图；

图5为本申请实施例提供的基于图像处理的文档信息抽取方法的再一子流程示意图；

图6为本申请实施例提供的基于图像处理的文档信息抽取方法的后一子流程示意图；

图7为本申请实施例提供的基于图像处理的文档信息抽取方法的其后又一子流程示意图；

图8为本申请实施例提供的基于图像处理的文档信息抽取装置的示意性框图；

图9为本申请实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1，图1为本申请实施例提供的基于图像处理的文档信息抽取方法的流程示意图；该基于图像处理的文档信息抽取方法应用于用户终端或管理服务器中，通过安装于用户终端或管理服务器中的应用软件进行执行；用户终端可用于执行基于图像处理的文档信息抽取方法以对输入的信息抽取任务进行分析并从信息抽取任务的待处理文档图像中提取与信息抽取任务对应的文档信息，用户终端可以是台式电脑、笔记本电脑、平板电脑或手机等终端设备，管理服务器即是用于执行基于图像处理的文档信息抽取方法以对用户终端上传的信息抽取任务进行分析并从信息抽取任务的待处理文档图像中提取与信息抽取任务对应的文档信息的服务器端，如企业或政府部门内部所构建的服务器端。如图1所示，该方法包括步骤S110～S160。

S110、接收所输入的信息抽取任务，对所述信息抽取任务中的待处理文档图像进行特征编码处理得到对应的编码特征信息。

若接收到用户所输入的信息抽取任务，可对信息抽取任务中的待处理文档图像进行处理，其中信息抽取任务包括待处理文档图像及任务信息，信息抽取任务中包含的待处理文档图像可以为一张或多张，若信息抽取任务中包含多张待处理文档图像，则多张待处理文档图像的文档类型均相同；任务信息可以是与一类文档类型对应的信息。如信息抽取任务为发票信息抽取任务，则该信息抽取任务中可包含一张或多种发票图像，发票图像即为待处理文档图像，任务信息即为与发票对应的任务设定信息。信息抽取任务还可以是合同信息抽取任务、表格信息抽取任务等。

本申请实施例中的方法基于Transformer模型实现，在基于Transformer模型对待处理文档图像进行分析之前，可先对待处理文档进行特征编码，将得到的编码特征信息输入至Transformer模型进行后续分析从而实现文档信息抽取。

本申请实施例采用信息抽取任务中仅包含一张待处理文档图像进行举例说明，对信息抽取任务中文档类型相同的多张待处理文档图像进行文档信息抽取的方法可以以此类推。可对信息抽取任务中的待处理文档图像进行特征编码，得到对应的编码特征信息，编码特征信息也即是采用图像编码形式对待处理文档图像的特征进行表示的信息。

在一实施例中，如图2所示，步骤S110包括子步骤S111和S112。

S111、根据预置图像转换规则将所述待处理文档图像转换为对应的张量特征信息。

如可先将待处理文档图像转换为预设尺寸大小的图像，并根据图像转换规则将预设尺寸大小的图像转换为对应的张量特征信息。例如，在本申请实施例中，可将待处理文档图像转换为384×384大小的图像，在转换为张量特征信息，本申请实施例中将图像转换为三阶张量，张量特征信息中的数值取值范围均为[0,1]，本实施例中仅仅是用尺寸为384×384大小的图像进行举例说明，实际应用过程中可将待处理文档图像转换为其它任意尺寸的图像进行后续处理，如将待处理文档图像转换为边长小于384的图像，以得到Transformer模型可以接受的图片尺寸大小；具体的，若图像转换规则为RGB转换规则，则将转换后得到的预设尺寸大小的图像转换为RGB对应的张量特征信息，张量特征信息中包含与R、G、B三个颜色通道分别对应的三阶张量，每一阶张量对应包含一个颜色通道对应的所有像素点的像素值；若图像转换规则为HSB转换规则，则将转换后得到的预设尺寸大小的图像转换为HSB对应的张量特征信息，张量特征信息中包含与H(色泽)、S(饱和度)、B(亮度)三个维度分类对应的三阶张量，每一阶张量对包含一个维度对应的所有像素点的像素值。

S112、根据预置的编码神经网络对所述张量特征信息进行编码处理，以得到对应编码特征信息。

通过预置的编码神经网络对所得到的张量特征信息进行编码处理，例如，可采用卷积神经网络(convolutional neural network,CNN)作为编码神经网络，将张量特征信息作为编码神经网络的输入信息，编码神经网络的中间层对所输入的张量特征信息进行关联计算，并由编码神经网络的输出层输出对应的编码特征信息。所得到的编码特征信息的尺寸大小与张量特征信息的尺寸大小相同。

在一实施例中，如图3所示，步骤S112包括子步骤S1121和S1122。

S1121、根据所述编码神经网络中的多个卷积层分别对所述张量特征信息进行卷积处理，以得到多个所述卷积层分别对应的卷积特征向量。

编码神经网络中配置有多个卷积层，可通过多个卷积层分别对张量特征信息进行卷积处理，从而得到多个卷积层分别对应的卷积特征向量编码神经网络中包含多个卷积层，多个卷积层进行串联设置，卷积层可用于对张量特征信息中每一张量特征值进行卷积处理，上一卷积层对特征值进行卷积处理所得到的卷积结果可作为输入信息输入至下一卷积层进行卷积处理。

S1122、根据所述编码神经网络中的仿射变换网络对多个所述卷积层的卷积特征向量分别进行仿射变换，以得到与所述张量特征信息对应的编码特征信息。

可根据仿射变换网络对多个卷积层的卷积特征向量分别进行仿射变换，具体的，卷积层所对应的卷积特征向量可作为待处理文档图像的基础特征向量进行使用，可通过仿射变换网络将每一卷积层的卷积特征向量分别进行仿射变换，将所得到的卷积特征向量进行仿射变换得到特征编码，每一个卷积特征向量对应一个特征编码，获取与每一卷积特征向量对应的特征编码即可得到与张量特征信息对应的编码特征信息。

S120、根据所述待处理文档图像的像素坐标位置对所述编码特征信息进行切分转换，以得到由多个编码特征向量组成的输入向量集。

待处理文档图像中每一像素点对应一个像素坐标位置，像素坐标位置即可对像素点在待处理文档图像中位置进行表示，可根据待处理文档图像的像素坐标位置确定编码特征信息中每一特征编码对应的像素坐标位置，并根据特征编码的像素坐标位置对特征编码信息进行切分，将切分得到的多维编码特征进行转换得到单维的编码特征向量，编码特征向量组合作为与编码特征信息对应的输入向量集。

在一实施例中，如图4所示，步骤S120包括子步骤S121、S122和S123。

S121、根据所述待处理文档图像的像素坐标位置在所述编码特征信息的每一特征编码中添加对应的像素坐标位置。

具体的，可根据待处理文档图像的像素坐标位置与相应特征编码的对应关系，在每一特征编码中添加对应的像素坐标位置，添加至特征编码中的像素坐标位置采用平面坐标方式进行表示，如(x，y)。在具体应用过程中，还可以根据对待处理文档图像转换为预设尺寸大小的图像的像素坐标位置确定每一特征编码对应的像素坐标位置。

S122、根据预置的切分规则及所述编码特征信息中所添加的像素坐标位置对所述编码特征信息进行切分以得到多个编码特征块。

切分规则中包括对编码特征信息进行切分的具体信息，可根据切分规则及每一特征编码的像素坐标位置进行切分，得到多个编码特征块，每一编码特征块中包含一定量的编码特征。

例如，切分规则为按长度及宽度等分24份，编码特征信息共包含384×384个，则可将编码特征信息切分为16×16的小块，即共有576块，每一编码特征块中均包含256个编码特征，本实施例中采用对图像长度及宽度等分为24份的方式对图像进行分块，仅仅是为了举例说明，实际应用过程中可将图像的边长等分为任意份额，以实现对图像进行切分。

S123、将每一所述编码特征块拉平为编码特征向量并组合以得到与所述编码特征信息对应的输入向量集。

将获取到的编码特征块拉平，也即是将采用二维数组表示的编码特征块转换为一维的编码特征向量，获取所有编码特征向量组合即可得到与编码特征信息对应的输入向量集。

S130、将所述输入向量集输入至预置的多头自注意力神经网络，以计算得到对应的图像权重特征向量。

可将输入向量集中的编码特征向量输入至多头自注意力神经网络，从而通过多头自注意力神经网络计算得到对应的图像权重特征向量。其中，多头自注意力((Multi-Head Self-Attention)神经网络将输入的编码特征向量表示为一组键值对(K，V)以及查询Q，则K、V及Q分别代表三个元素，K与Q的维度数相等，多头自注意力神经网络中的多头即多个自注意力方向，自注意力方向的数量可由用户预先设定。本申请技术方法的Transformer模型由编码器(Transformer encoder)及解码器(Transformer decoder)组成，编码器可基于上述多头自注意力神经网络构建得到，通过编码器对输入向量集进行处理即可得到对应的图像权重特征向量。

在一实施例中，如图5所示，步骤S130包括子步骤S131和S132。

S131、将所述输入向量集中所包含的编码特征向量分别输入所述多头自注意力神经网络的多个特征编码层分别进行编码计算，得到与每一所述特征编码层对应的多头向量矩阵。

可将编码特征向量分别输入多头自注意力神经网络的多个特征编码层中，每一特征编码层可对应对K、V及Q同时进行输入，每一特征编码层中所配置的权重参数各不相同，通过特征编码层进行编码计算的具体过程可采用以下公式进行表示：

head _i＝Attention(QW _i ^Q，KW _i ^K，KW _i ^V) (2)；

将公式(1)与公式(2)结合，即可计算得到对应的多头向量矩阵，其d _K即为Q和K的维度数，K ^T为对K进行向量转制得到向量矩阵，W ^Q、W ^K、W ^V分别为Q、K及V对应的权重矩阵，i为多头自注意力网络包含的自注意力方向的数量，head _i即为当前特征编码层中第i个自注意力方向的计算结果。

S132、根据所述多头自注意力神经网络的特征组合层对每一所述特征编码层的多头向量矩阵进行特征组合，以得到对应的图像权重特征向量。

可通过特征组合层对所得到的每一特征编码层的多头向量矩阵进行特征组合，从而得到对应的图像权重特征向量。具体的，特征组合层可由范化层及全连接层组成，范化层及全连接层均可基于卷积神经网络(convolutional neural network,CNN)构建得到，每一特征编码层的多头向量矩阵均作为输入信息输入范化层，范化层的输出信息输入至全连接层，通过全连接层输出得到图像权重特征向量。

S140、对所述信息抽取任务中的任务信息与所述图像权重特征向量组合以得到组合特征向量。

可根据信息抽取任务中不同的任务信息，将任务信息与图像权重特征向量进行组合，也即是将任务信息中的位置标识添加至图像权重特征向量中。例如，在图像信息识别过程中，可在图像权重特征向量的头部添加[BOS]标识、在尾部添加[EOS]标识，[BOS]标识为进行图像信息识别的起始标识，[EOS]标识为进行图像信息识别的结束标识；在图像文字信息提取过程中，头部添加[工程日期开始]、末尾添加[工程日期结束]，[]内为表示相应含义的特殊字符。将任务信息中的位置标识与图像权重特征向量组合后，即可得到组合特征向量。

S150、将所述图像权重特征向量及所述组合特征向量同时输入至预置的解码器，以进行向量整合解码得到对应的字符编码序列。

可将图像权重特征向量与组合特征向量同时输入至解码器，通过解码器可结合组合特征向量对图像权重特征向量进行向量整合解码，从而得到对应的字符编码序列，字符编码序列即为采用编码形式对字符进行记载的信息，每一个字符唯一对应一个字符编码。本申请技术方法的解码器(Transformer decoder)由第一多头自注意力神经网络、第二多头自注意力神经网络及特征解码层构建得到，通过解码器对图像权重特征向量及所述组合特征向量进行处理即可得到对应的字符编码序列。

在一实施例中，如图6所示，步骤S150包括子步骤S151、S152和S153。

S151、将所述组合特征向量输入所述解码器的第一多头自注意力神经网络，以计算得到对应的第一权重特征向量。

具体的，解码器中包含第一多头自注意力神经网络，可将组合特征向量输入至第一多头自注意力神经网络，从而通过第一多头自注意力神经网络计算得到对应的第一权重特征向量，第一多头自注意力神经网络与上述多头自注意力神经网络的结构类似，则获取第一权重特征向量的具体计算过程也与获取图像权重特征向量的计算过程类似，区别仅仅在于第一多头自注意力神经网络中多头数量、层数量及权重参数。

S152、根据所述第一权重特征向量及所述解码器的第二多头自注意力神经网络对所述图像权重特征向量进行特征加权融合，以得到与所述图像权重特征向量对应的融合特征向量。

根据所述第一权重特征向量及解码器的第二多头自注意力神经网络对图像权重特征向量进行特征加权融合，得到与图像权重特征向量对应的融合特征向量。由于待处理文档图像中包含的部分图像信息重要性较高，因此需要重点关注；部分图像信息的重要性较低，可降低关注度。待处理文档图像中的图像特征采用图像权重特征向量进行表征，则可通过将第一权重特征向量与对图像权重特征向量进行特征加权融合，以实现对待处理文档图像中包含的部分重点图像信息进行重点关注。

将第一权重特征向量及图像权重特征向量同时输入第二多头自注意力神经网络进行计算，得到对应的融合加权系数。

具体的，在第二多头自注意力神经网络中，第一权重特征向量可作为注意力神经网络的Query值(Q值)，图像权重特征向量可作为注意力神经网络的Key值(K值)，通过第二多头自注意力神经网络进行自注意力分析的计算过程与上述获取图像权重特征向量的计算过程类似。

根据所述融合加权系数对所述图像权重特征向量进行加权计算，得到与所述图像权重特征向量对应的融合特征向量。

根据所得到的融合加权系数对图像权重特征向量进行加权计算，计算过程中需要对图像权重特征向量中每一特征值分别进行加权计算，每一特征值进行加权计算后可得到对应的加权特征值，所有加权特征值即组合为与图像权重特征向量对应的融合特征向量，具体的，加权计算的计算过程可采用公式(3)进行表示：

output＝weight×K (3)；

其中，weight为融合加权系数，K为图像权重特征向量。

S153、根据所述解码器的特征解码层对所述融合特征向量进行解码，以得到对应的字符编码序列。

编码器中还配置有特征解码层，可通过特征解码层对融合特征向量进行解码，融合特征向量中每一向量值的取值范围均为[0,1]。具体的，特征解码层可基于卷积神经网络 (convolutional neural network,CNN)构建得到，可将融合特征向量输入至特征解码层，通过特征解码层对融合特征向量进行关联计算，从而从特征解码层的输出层获取对应的字符编码序列。字符编码序列中的每一字符编码均可由多位数字组成，如[3521]。

S160、根据预置的编码解析规则对所述字符编码序列进行解析，以得到与所述信息抽取任务对应的文档信息。

可根据编码解析规则对字符编码序列进行解析，从而将字符编码序列还原成字符，并将字符与任务信息组合，从而得到与信息抽取任务对应的文档信息。

在一实施例中，如图7所示，步骤S160包括子步骤S161和S162。

S161、根据所述编码解析规则对所述字符编码序列进行解析，以还原得到与所述字符编码序列对应的解析字符。

可根据编码解析规则对字符编码序列进行解析，编码解析规则中包括每一字符编码与相应字符之间的对应关系，根据该对应关系即可将字符编码序列中所包含的字符编码转换为相应解析字符，解析字符可包括中文字符、英文字符、数字、标点符号等。

S162、根据所述解析位置将所述解析字符添加至所述任务信息中与所述解析位置对应的区域，对所述解析字符与所述任务信息组合得到对应的文档信息。

任务信息中包含解析位置，解析位置可用于对所述待处理文档图像中待抽取文档信息进行定位，解析位置与上述添加至图像权重特征向量中的位置标识相对应，解析位置也即所需进行解析的文本内容所需添加至任务信息中的具体位置。具体的，解析位置与组合特征向量中的起始标识及结束标识相对应，则可根据起始标识及结束标识与解析位置的对应关系，将位于相应起始标识与结束标识之间的解析字符添加至解析位置在任务信息中对应的区域中，以将解析字符与任务信息进行组合得到完整的文档信息。

例如，任务信息为“[信息抽取开始][工程日期开始]XXXXX[工程日期结束]……[信息抽取结束]”，所得到的某一段解析字符为“[工程日期开始]2021年10月10日[工程日期结束]”，则根据标识与解析位置的对应关系，可将“2021年10月10日”添加至上述任务信息中，得到文档信息为“[信息抽取开始]2021年10月10日……[信息抽取结束]”。

在本申请实施例所提供的基于图像处理的文档信息抽取方法中，对信息抽取任务的待处理文档图像进行特征编码得到编码特征信息并进行切分转换得到输入向量集，将输入向量集输入多头自注意力神经网络以计算得到图像权重特征向量，对信息抽取任务中的任务信息与图像权重特征向量组合得到组合特征向量，将图像权重特征向量与组合特征向量同时输入解码器进行向量整合解码得到字符编码序列，对字符编码序列进行解析得到与信息抽取任务对应的文档信息。通过上述方法，将图像分析识别处理与文本信息抽取进行结合，大幅提高了对文档信息进行抽取的效率，通过灵活调整多头自注意力神经网络及信息抽取任务，可使文档信息抽取方法适用于各种文档图像，提高了文档信息抽取的灵活性。

本申请实施例还提供一种基于图像处理的文档信息抽取装置，该基于图像处理的文档信息抽取装置可配置于用户终端或管理服务器中，该基于图像处理的文档信息抽取装置用于执行前述的基于图像处理的文档信息抽取方法的任一实施例。具体地，请参阅图8，图8为本申请实施例提供的基于图像处理的文档信息抽取装置的示意性框图。

如图8所示，基于图像处理的文档信息抽取装置100包括编码特征信息获取单元110、输入向量集获取单元120、图像权重特征向量获取单元130、组合特征向量获取单元140、字符编码序列获取单元150和文档信息获取单元160。

编码特征信息获取单元110，用于接收所输入的信息抽取任务，对所述信息抽取任务中的待处理文档图像进行特征编码处理得到对应的编码特征信息。

输入向量集获取单元120，用于根据所述待处理文档图像的像素坐标位置对所述编码特征信息进行切分转换，以得到由多个编码特征向量组成的输入向量集。

图像权重特征向量获取单元130，用于将所述输入向量集输入至预置的多头自注意力神经网络，以计算得到对应的图像权重特征向量。

组合特征向量获取单元140，用于对所述信息抽取任务中的任务信息与所述图像权重特征向量组合以得到组合特征向量。

字符编码序列获取单元150，用于将所述图像权重特征向量及所述组合特征向量同时输入至预置的解码器，以进行向量整合解码得到对应的字符编码序列。

文档信息获取单元160，用于根据预置的编码解析规则对所述字符编码序列进行解析，以得到与所述信息抽取任务对应的文档信息。

在本申请实施例所提供的基于图像处理的文档信息抽取装置应用上述基于图像处理的文档信息抽取方法，对信息抽取任务的待处理文档图像进行特征编码得到编码特征信息并进行切分转换得到输入向量集，将输入向量集输入多头自注意力神经网络以计算得到图像权重特征向量，对信息抽取任务中的任务信息与图像权重特征向量组合得到组合特征向量，将图像权重特征向量与组合特征向量同时输入解码器进行向量整合解码得到字符编码序列，对字符编码序列进行解析得到与信息抽取任务对应的文档信息。通过上述方法，将图像分析识别处理与文本信息抽取进行结合，大幅提高了对文档信息进行抽取的效率，通过灵活调整多头自注意力神经网络及信息抽取任务，可使文档信息抽取方法适用于各种文档图像，提高了文档信息抽取的灵活性。

上述基于图像处理的文档信息抽取装置可以实现为计算机程序的形式，该计算机程序可以在如图9所示的计算机设备上运行。

请参阅图9，图9是本申请实施例提供的计算机设备的示意性框图。该计算机设备可以是用于执行基于图像处理的文档信息抽取方法以从信息抽取任务的待处理文档图像中提取与信息抽取任务对应的文档信息的用户终端或管理服务器。

参阅图9，该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括存储介质503和内存储器504。

该存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时，可使得处理器502执行基于图像处理的文档信息抽取方法，其中，存储介质503可以为易失性的存储介质或非易失性的存储介质。

该处理器502用于提供计算和控制能力，支撑整个计算机设备500的运行。

该内存储器504为存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行基于图像处理的文档信息抽取方法。

该网络接口505用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现上述的基于图像处理的文档信息抽取方法中对应的功能。

本领域技术人员可以理解，图9中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图9所示实施例一致，在此不再赘述。

应当理解，在本申请实施例中，处理器502可以是中央处理单元(Central Processing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本申请的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为易失性或非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序，其中计算机程序被处理器执行时实现上述的基于图像处理的文档信息抽取方法中所包含的步骤。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为逻辑功能划分，实际实现时可以有另外的划分方式，也可以将具有相同功能的单元集合成一个单元，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本申请实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个计算机可读存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的计算机可读存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

一种基于图像处理的文档信息抽取方法，所述方法包括：

接收所输入的信息抽取任务，对所述信息抽取任务中的待处理文档图像进行特征编码处理得到对应的编码特征信息；

根据所述待处理文档图像的像素坐标位置对所述编码特征信息进行切分转换，以得到由多个编码特征向量组成的输入向量集；

将所述输入向量集输入至预置的多头自注意力神经网络，以计算得到对应的图像权重特征向量；

对所述信息抽取任务中的任务信息与所述图像权重特征向量组合以得到组合特征向量；

将所述图像权重特征向量及所述组合特征向量同时输入至预置的解码器，以进行向量整合解码得到对应的字符编码序列；

根据预置的编码解析规则对所述字符编码序列进行解析，以得到与所述信息抽取任务对应的文档信息。
根据权利要求1所述的基于图像处理的文档信息抽取方法，其中，所述对所述待处理文档图像进行特征编码处理得到对应的编码特征信息，包括：

根据预置图像转换规则将所述待处理文档图像转换为对应的张量特征信息；

根据预置的编码神经网络对所述张量特征信息进行编码处理，以得到对应编码特征信息。
根据权利要求2所述的基于图像处理的文档信息抽取方法，其中，所述根据预置的编码神经网络对所述张量特征信息进行编码处理，以得到对应编码特征信息，包括：

根据所述编码神经网络中的多个卷积层分别对所述张量特征信息进行卷积处理，以得到多个所述卷积层分别对应的卷积特征向量；

根据所述编码神经网络中的仿射变换网络对多个所述卷积层的卷积特征向量分别进行仿射变换，以得到与所述张量特征信息对应的编码特征信息。
根据权利要求1所述的基于图像处理的文档信息抽取方法，其中，所述根据所述待处理文档图像的像素坐标位置对所述编码特征信息进行切分转换，以得到由多个编码特征向量组成的输入向量集，包括：

根据所述待处理文档图像的像素坐标位置在所述编码特征信息的每一特征编码中添加对应的像素坐标位置；

根据预置的切分规则及所述编码特征信息中所添加的像素坐标位置对所述编码特征信息进行切分以得到多个编码特征块；

将每一所述编码特征块拉平为编码特征向量并组合以得到与所述编码特征信息对应的输入向量集。
根据权利要求1所述的基于图像处理的文档信息抽取方法，其中，所述将所述输入向量集输入至预置的多头自注意力神经网络，以计算得到对应的图像权重特征向量，包括：

将所述输入向量集中所包含的编码特征向量分别输入所述多头自注意力神经网络的多个特征编码层分别进行编码计算，得到与每一所述特征编码层对应的多头向量矩阵；

根据所述多头自注意力神经网络的特征组合层对每一所述特征编码层的多头向量矩阵进行特征组合，以得到对应的图像权重特征向量。
根据权利要求1所述的基于图像处理的文档信息抽取方法，其中，所述将所述图像权重特征向量及所述组合特征向量同时输入至预置的解码器，以进行向量整合解码得到对应的字符编码序列，包括：

将所述组合特征向量输入所述解码器的第一多头自注意力神经网络，以计算得到对应的第一权重特征向量；

根据所述第一权重特征向量及所述解码器的第二多头自注意力神经网络对所述图像权重特征向量进行特征加权融合，以得到与所述图像权重特征向量对应的融合特征向量；

根据所述解码器的特征解码层对所述融合特征向量进行解码，以得到对应的字符编码序列。
根据权利要求1所述的基于图像处理的文档信息抽取方法，其中，所述任务信息中包括对所述待处理文档图像中待抽取的文档信息进行定位的解析位置，所述根据预置的编码解析规则对所述字符编码序列进行解析，以得到与所述信息抽取任务对应的文档信息，包括：

根据所述编码解析规则对所述字符编码序列进行解析，以还原得到与所述字符编码序列对应的解析字符；

根据所述解析位置将所述解析字符添加至所述任务信息中与所述解析位置对应的区域，对所述解析字符与所述任务信息组合得到对应的文档信息。
根据权利要求1所述的基于图像处理的文档信息抽取方法，其中，对所述任务信息与所述图像权重特征向量组合，包括：将所述任务信息中各所述位置标识添加至相应的所述图像权重特征向量中。
一种基于图像处理的文档信息抽取装置，其中，所述装置包括：

编码特征信息获取单元，用于接收所输入的信息抽取任务，对所述信息抽取任务中的待处理文档图像进行特征编码处理得到对应的编码特征信息；

输入向量集获取单元，用于根据所述待处理文档图像的像素坐标位置对所述编码特征信息进行切分转换，以得到由多个编码特征向量组成的输入向量集；

图像权重特征向量获取单元，用于将所述输入向量集输入至预置的多头自注意力神经网络，以计算得到对应的图像权重特征向量；

组合特征向量获取单元，用于对所述信息抽取任务中的任务信息与所述图像权重特征向量组合以得到组合特征向量；

字符编码序列获取单元，用于将所述图像权重特征向量及所述组合特征向量同时输入至预置的解码器，以进行向量整合解码得到对应的字符编码序列；

文档信息获取单元，用于根据预置的编码解析规则对所述字符编码序列进行解析，以得到与所述信息抽取任务对应的文档信息。
一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现以下步骤：

接收所输入的信息抽取任务，对所述信息抽取任务中的待处理文档图像进行特征编码处理得到对应的编码特征信息；

根据所述待处理文档图像的像素坐标位置对所述编码特征信息进行切分转换，以得到由多个编码特征向量组成的输入向量集；

将所述输入向量集输入至预置的多头自注意力神经网络，以计算得到对应的图像权重特征向量；

对所述信息抽取任务中的任务信息与所述图像权重特征向量组合以得到组合特征向量；

将所述图像权重特征向量及所述组合特征向量同时输入至预置的解码器，以进行向量整合解码得到对应的字符编码序列；

根据预置的编码解析规则对所述字符编码序列进行解析，以得到与所述信息抽取任务对应的文档信息。
根据权利要求10所述的计算机设备，其中，所述对所述待处理文档图像进行特征编码处理得到对应的编码特征信息，包括：

根据预置图像转换规则将所述待处理文档图像转换为对应的张量特征信息；

根据预置的编码神经网络对所述张量特征信息进行编码处理，以得到对应编码特征信息。
根据权利要求11所述的计算机设备，其中，所述根据预置的编码神经网络对所述张量特征信息进行编码处理，以得到对应编码特征信息，包括：

根据所述编码神经网络中的多个卷积层分别对所述张量特征信息进行卷积处理，以得到多个所述卷积层分别对应的卷积特征向量；

根据所述编码神经网络中的仿射变换网络对多个所述卷积层的卷积特征向量分别进行仿射变换，以得到与所述张量特征信息对应的编码特征信息。
根据权利要求10所述的计算机设备，其中，所述根据所述待处理文档图像的像素坐标位置对所述编码特征信息进行切分转换，以得到由多个编码特征向量组成的输入向量集，包括：

根据所述待处理文档图像的像素坐标位置在所述编码特征信息的每一特征编码中添加对应的像素坐标位置；

根据预置的切分规则及所述编码特征信息中所添加的像素坐标位置对所述编码特征信息进行切分以得到多个编码特征块；

将每一所述编码特征块拉平为编码特征向量并组合以得到与所述编码特征信息对应的输入向量集。
根据权利要求10所述的计算机设备，其中，所述将所述输入向量集输入至预置的多头自注意力神经网络，以计算得到对应的图像权重特征向量，包括：

将所述输入向量集中所包含的编码特征向量分别输入所述多头自注意力神经网络的多个特征编码层分别进行编码计算，得到与每一所述特征编码层对应的多头向量矩阵；

根据所述多头自注意力神经网络的特征组合层对每一所述特征编码层的多头向量矩阵进行特征组合，以得到对应的图像权重特征向量。
根据权利要求10所述的计算机设备，其中，所述将所述图像权重特征向量及所述组合特征向量同时输入至预置的解码器，以进行向量整合解码得到对应的字符编码序列，包括：

将所述组合特征向量输入所述解码器的第一多头自注意力神经网络，以计算得到对应的第一权重特征向量；

根据所述第一权重特征向量及所述解码器的第二多头自注意力神经网络对所述图像权重特征向量进行特征加权融合，以得到与所述图像权重特征向量对应的融合特征向量；

根据所述解码器的特征解码层对所述融合特征向量进行解码，以得到对应的字符编码序列。
根据权利要求10所述的计算机设备，其中，所述任务信息中包括对所述待处理文档图像中待抽取的文档信息进行定位的解析位置，所述根据预置的编码解析规则对所述字符编码序列进行解析，以得到与所述信息抽取任务对应的文档信息，包括：

根据所述编码解析规则对所述字符编码序列进行解析，以还原得到与所述字符编码序列对应的解析字符；

根据所述解析位置将所述解析字符添加至所述任务信息中与所述解析位置对应的区域，对所述解析字符与所述任务信息组合得到对应的文档信息。
根据权利要求10所述的计算机设备，其中，对所述任务信息与所述图像权重特征向量组合，包括：将所述任务信息中各所述位置标识添加至相应的所述图像权重特征向量中。
一种计算机可读存储介质，其中，所述计算机可读存储介质存储有计算机程序，当所述计算机程序被处理器执行时，实现以下操作：

接收所输入的信息抽取任务，对所述信息抽取任务中的待处理文档图像进行特征编码处理得到对应的编码特征信息；

根据所述待处理文档图像的像素坐标位置对所述编码特征信息进行切分转换，以得到由多个编码特征向量组成的输入向量集；

将所述输入向量集输入至预置的多头自注意力神经网络，以计算得到对应的图像权重特征向量；

对所述信息抽取任务中的任务信息与所述图像权重特征向量组合以得到组合特征向量；

将所述图像权重特征向量及所述组合特征向量同时输入至预置的解码器，以进行向量整合解码得到对应的字符编码序列；

根据预置的编码解析规则对所述字符编码序列进行解析，以得到与所述信息抽取任务对应的文档信息。
根据权利要求18所述的计算机可读存储介质，其中，所述对所述待处理文档图像进行特征编码处理得到对应的编码特征信息，包括：

根据预置图像转换规则将所述待处理文档图像转换为对应的张量特征信息；

根据预置的编码神经网络对所述张量特征信息进行编码处理，以得到对应编码特征信息。
根据权利要求19所述的计算机可读存储介质，其中，所述根据预置的编码神经网络对所述张量特征信息进行编码处理，以得到对应编码特征信息，包括：

根据所述编码神经网络中的多个卷积层分别对所述张量特征信息进行卷积处理，以得到多个所述卷积层分别对应的卷积特征向量；

根据所述编码神经网络中的仿射变换网络对多个所述卷积层的卷积特征向量分别进行仿射变换，以得到与所述张量特征信息对应的编码特征信息。
根据权利要求18所述的基于图像处理的文档信息抽取方法，其中，对所述任务信息与所述图像权重特征向量组合，包括：将所述任务信息中各所述位置标识添加至相应的所述图像权重特征向量中。