WO2022142551A1 - 表单处理方法、装置、介质及计算机设备 - Google Patents

表单处理方法、装置、介质及计算机设备 Download PDF

Info

Publication number
WO2022142551A1
WO2022142551A1 PCT/CN2021/121555 CN2021121555W WO2022142551A1 WO 2022142551 A1 WO2022142551 A1 WO 2022142551A1 CN 2021121555 W CN2021121555 W CN 2021121555W WO 2022142551 A1 WO2022142551 A1 WO 2022142551A1
Authority
WO
WIPO (PCT)
Prior art keywords
area
text
form image
processed
recognized
Prior art date
Application number
PCT/CN2021/121555
Other languages
English (en)
French (fr)
Inventor
詹明捷
梁鼎
刘学博
Original Assignee
北京市商汤科技开发有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 北京市商汤科技开发有限公司 filed Critical 北京市商汤科技开发有限公司
Publication of WO2022142551A1 publication Critical patent/WO2022142551A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Abstract

一种表单处理方法、装置、介质及计算机设备。根据所述方法的一个示例,利用多个待识别区域中文本块的属性信息,能够准确地挖掘出多个待识别区域中文本块的相对位置关系,再基于不同待识别区域之间文本块的相对位置关系生成待处理表单图像对应的结构化文本,从而使生成的结构化文本中各文本块的相对位置关系与各文本块在待处理表单图像中的相对位置关系相对应。

Description

表单处理方法、装置、介质及计算机设备
相关申请的交叉引用
本公开要求于2020年12月31日提交的、申请号为202011617843.8、发明名称为“表单处理方法、装置和系统、介质及计算机设备”的中国专利申请的优先权,该中国专利申请公开的全部内容以引用的方式并入本文中。
技术领域
本公开涉及文本识别技术领域,尤其涉及表单处理方法、装置、系统、介质及计算机设备。
背景技术
光学字符识别(Optical Character Recognition,OCR)能够将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工。然而,在对表单进行识别时,常常无法基于表单的结构准确地生成结构化文本。
发明内容
本公开提供一种表单处理方法、装置、介质及计算机设备。
根据本公开实施例的第一方面,提供一种表单处理方法,所述方法包括:获取待处理表单图像中多个待识别区域中文本块的属性信息,所述文本块可以是待识别区域中包括的一个或多个文本行;基于所述多个待识别区域中文本块的属性信息,确定所述多个待识别区域中文本块的相对位置关系;基于所述多个待识别区域中文本块的相对位置关系,生成所述待处理表单图像对应的结构化文本。
在一些实施例中,一个待识别区域中文本块的所述属性信息包括所述待识别区域中文本块的语义信息和位置信息中的至少一个。
在一些实施例中,所述多个待识别区域中包括参考区域和非参考区域;所述基于所述多个待识别区域中文本块的属性信息,确定所述多个待识别区域中文本块的相对位置关系,包括:基于所述参考区域中文本块的属性信息和所述非参考区域中文本块的属性信息,确定所述非参考区域中的文本块与所述参考区域中的文本块的相对位置关系。
在一些实施例中,所述基于所述参考区域中文本块的属性信息和所述非参考区域中文本块的属性信息,确定所述非参考区域中的文本块与所述参考区域中的文本块的相对位置关系,包括:基于所述参考区域中第一文本块的位置信息和所述非参考区域中第二文本块的位置信息,确定所述第一文本块与所述第二文本块在竖直方向上的位置重叠量;在所述位置重叠量大于预设重叠阈值的情况下,确定所述第一文本块与所述第二文本块在所述结构化文本中处于同一行。
在一些实施例中,所述在所述位置重叠量大于预设重叠阈值的情况下,确定所述第一文本块与所述第二文本块在所述结构化文本中处于同一行,包括:在所述第一文本块与多个第二文本块的位置重叠量均大于预设重叠阈值的情况下,获取所述多个第二文本块整体的语义信息;在所述多个第二文本块整体的语义信息连续的情况下,确定所述第一文本块与所述多个第二文本块在所述结构化文本中处于同一行。
在一些实施例中,所述参考区域中的每个单元格仅包括一个文本块,所述非参考区域中每个单元格包括一个或多个文本块。
在一些实施例中,在所述获取待处理表单图像中多个待识别区域中文本块的属性信息之前,所述方法还包括:基于预设信息,从所述待处理表单图像中确定所述多个待识别区域;所述预设信息包括以下至少任一:所述待处理表单图像中的表头信息,所述待处理表单图像中的字段间距,所述待处理表单图像中字段的语义信息。
在一些实施例中,所述基于预设信息,从所述待处理表单图像中确定所述多个待识别区域,包括:基于所述待处理表单图像中的第i个表头信息,确定所述待处理表单图像中的第i个待识别区域处于所述待处理表单图像中的第一位置的第一置信度;基于所述待处理表单图像中的第i个搜索区域内的字段间距,确定所述待处理表单图像中的第i个待识别区域处于所述待处理表单图像中的第二位置的第二置信度;基于所述待处理表单图像中的第i个搜索区域内的字段的语义信息,确定所述待处理表单图像中的第i个待识别区域处于所述待处理表单图像中的第三位置的第三置信度;基于所述第一置信度、所述第二置信度和所述第三置信度,确定所述第i个待识别区域的位置;其中,所述第i个表头信息与所述第i个待识别区域中的字段的语义信息相匹配,所述第i个待识别区域为所述第i个搜索区域的子区域,i为正整数。
在一些实施例中,所述基于所述待处理表单图像中的第i个搜索区域内的字段间距,确定所述待处理表单图像中的第i个待识别区域处于所述待处理表单图像中的第二位置的第二置信度,包括:在所述待处理表单图像中的第二位置确定所述第i个搜索区域,所述搜索区域为大于待识别区域且包括待识别区域的区域;基于所述第i个搜索区域内字段的间距确定所述第i个搜索区域内字段的不连续处;判断所述第i个待识别区域的边界是否位于所述第i个搜索区域内字段的不连续处,以基于判断结果确定所述待处理表单图像中的第i个待识别区域处于所述待处理表单图像中的第二位置的第二置信度,i为正整数。
在一些实施例中,所述确定所述第i个搜索区域,包括:获取预设表单模板中第i个待识别区域;基于预先确定的转换矩阵对所述预设表单模板中第i个待识别区域进行转换,得到转换后的待识别区域;基于所述转换后的待识别区域确定所述第i个搜索区域;其中,所述转换后的待识别区域为所述第i个搜索区域的子区域,i为正整数。
在一些实施例中,所述第一置信度、所述第二置信度和所述第三置信度分别由第一神经网络、第二神经网络和第三神经网络获取。
在一些实施例中,所述基于所述第一置信度、所述第二置信度和所述第三置信度, 确定所述第i个待识别区域的位置,包括:确定所述第一置信度,第二置信度和第三置信度中的最大置信度;将所述第i个待识别区域的位置确定为所述最大置信度对应的位置。
在一些实施例中,所述基于所述多个待识别区域中文本块的相对位置关系,生成所述待处理表单图像对应的结构化文本,包括:基于所述多个待识别区域中的第m个待识别区域中的第j个文本块,生成所述结构化文本中第m列第j行的单元格;m和j为正整数。
在一些实施例中,在所述获取待处理表单图像中多个待识别区域中文本块的属性信息之前,所述方法还包括:根据预设表单模板中的第一目标区域,确定所述待处理表单图像中的第二目标区域;从所述第二目标区域中确定所述多个待识别区域。
在一些实施例中,所述根据预设表单模板中的第一目标区域,确定所述待处理表单图像中的第二目标区域,包括:根据所述第一目标区域在所述表单模板中的第一位置,确定所述待处理表单图像中与所述第一位置匹配的第二位置;根据所述第二位置,确定所述待处理表单图像中的第二目标区域。
在一些实施例中,所述方法还包括:向目标设备发送所述结构化文本,以使所述目标设备展示所述结构化文本。
根据本公开实施例的第二方面,提供一种表单处理装置,所述装置包括:获取模块,用于获取待处理表单图像中多个待识别区域中文本块的属性信息;第一确定模块,用于基于所述多个待识别区域中文本块的属性信息,确定所述多个待识别区域中文本块的相对位置关系;文本生成模块,用于基于所述多个待识别区域中文本块的相对位置关系,生成所述待处理表单图像对应的结构化文本。
在一些实施例中,一个待识别区域中文本块的属性信息包括所述待识别区域中文本块的语义信息和/或位置信息。
在一些实施例中,所述多个待识别区域中包括参考区域和非参考区域。相应地,所述第一确定模块用于:基于所述参考区域中文本块的属性信息和所述非参考区域中文本块的属性信息,确定所述非参考区域中的文本块与所述参考区域中的文本块的相对位置关系。
在一些实施例中,所述第一确定模块用于:基于所述参考区域中第一文本块的位置信息和所述非参考区域中第二文本块的位置信息,确定所述第一文本块与所述第二文本块在竖直方向上的位置重叠量;在所述位置重叠量大于预设重叠阈值的情况下,确定所述第一文本块与所述第二文本块在所述结构化文本中处于同一行。
在一些实施例中,所述第一确定模块用于:在所述第一文本块与多个第二文本块的位置重叠量均大于预设重叠阈值的情况下,获取所述多个第二文本块整体的语义信息;在所述多个第二文本块整体的语义信息连续的情况下,确定所述第一文本块与所述多个第二文本块在所述结构化文本中处于同一行。
在一些实施例中,所述参考区域中的每个单元格仅包括一个文本块,所述非参考区域中每个单元格包括一个或多个文本块。
在一些实施例中,所述装置还可包括第二确定模块,用于基于预设信息,从所述待处理表单图像中确定所述多个待识别区域。所述预设信息包括以下至少任一:所述待处理表单图像中的表头信息,所述待处理表单图像中的字段间距,所述待处理表单图像中字段的语义信息。
在一些实施例中,所述第二确定模块用于:基于所述待处理表单图像中的第i个表头信息,确定所述待处理表单图像中的第i个待识别区域处于所述待处理表单图像中的第一位置的第一置信度;基于所述待处理表单图像中的第i个搜索区域内的字段间距,确定所述待处理表单图像中的第i个待识别区域处于所述待处理表单图像中的第二位置的第二置信度;基于所述待处理表单图像中的第i个搜索区域内的字段的语义信息,确定所述待处理表单图像中的第i个待识别区域处于所述待处理表单图像中的第三位置的第三置信度;基于所述第一置信度、第二置信度和第三置信度,确定所述第i个待识别区域的位置。其中,所述第i个表头信息与所述第i个待识别区域中的字段的语义信息相匹配,所述第i个待识别区域为所述第i个搜索区域的子区域,i为正整数。
在一些实施例中,所述第一置信度、第二置信度和第三置信度分别由第一神经网络、第二神经网络和第三神经网络获取。
在一些实施例中,所述第二确定模块用于:确定所述第一置信度、第二置信度和第三置信度中的最大置信度,将所述第i个待识别区域的位置确定为所述最大置信度对应的位置。
在一些实施例中,所述文本生成模块用于:基于所述多个待识别区域中的第m个待识别区域中的第j个文本块,生成所述结构化文本中第m列第j行的单元格;m和j为正整数。
在一些实施例中,所述装置还可包括:第三确定模块,用于根据预设表单模板中的第一目标区域,确定所述待处理表单图像中的第二目标区域;第四确定模块,用于从所述第二目标区域中确定所述多个待识别区域。
在一些实施例中,所述第三确定模块用于:根据所述第一目标区域在所述表单模板中的第一位置,确定所述待处理表单图像中与所述第一位置匹配的第二位置;根据所述第二位置,确定所述待处理表单图像中的第二目标区域。
在一些实施例中,所述装置还可包括发送模块,用于向目标设备发送所述结构化文本,以使所述目标设备展示所述结构化文本。
根据本公开实施例的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现任一实施例所述的方法。
根据本公开实施例的第四方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现任一实 施例所述的方法。
根据本公开实施例的第五方面,提供一种表单处理系统,所述系统包括:客户端,用于上传所述待处理表单图像,并向服务器发送所述待处理表单图像;以及服务器,用于执行本公开任一实施例所述的方法。
在一些实施例中,所述服务器还用于向所述客户端发送所述结构化文本,所述客户端还用于在接收到所述结构化文本后进行展示。
根据本公开实施例的第六方面,提供一种表单处理方法,应用于客户端,所述方法包括:向服务器上传待处理表单图像;接收并展示所述服务器发送的结构化文本;其中,所述结构化文本为所述服务器通过执行本公开任一实施例所述的方法对所述待处理表单图像进行处理得到的结果。
根据本公开实施例的第七方面,提供一种计算机程序,包括计算机可读代码,所述计算机可读代码被处理器执行时实现本公开任一实施例所述的方法。
本公开实施例利用多个待识别区域中文本块的属性信息,能够准确地挖掘出多个待识别区域中文本块的相对位置关系,再基于多个待识别区域中文本块的相对位置关系生成待处理表单图像对应的结构化文本,从而使生成的结构化文本中各文本块的相对位置关系与各文本块在待处理表单图像中的相对位置关系相对应,提高了生成结构化文本的准确度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。
图1是本公开实施例的表单处理方法的流程图。
图2A和图2B分别是本公开实施例的水平排列和竖直排列的表单的示意图。
图3是本公开实施例的确定待识别区域的方式的示意图。
图4是本公开实施例的对行数不固定的表单进行处理的示意图。
图5是本公开实施例的参考区域和非参考区域的示意图。
图6A和图6B是本公开实施例的模板创建过程的示意图。
图7是本公开实施例的结构化文本的示意图。
图8是本公开实施例的表单处理装置的框图。
图9是本公开实施例的计算机设备的结构示意图。
图10是本公开实施例的表单处理系统的示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在本公开使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合。
应当理解,尽管在本公开可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本公开范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
为了使本技术领域的人员更好的理解本公开实施例中的技术方案,并使本公开实施例的上述目的、特征和优点能够更加明显易懂,下面结合附图对本公开实施例中的技术方案作进一步详细的说明。
如图1所示,本公开实施例提供一种表单处理方法,所述方法包括:
步骤101:获取待处理表单图像中多个待识别区域中文本块属性信息,所述文本块可以是待识别区域中包括的一个或多个文本行;
步骤102:基于所述多个待识别区域中文本块的属性信息,确定所述多个待识别区域中文本块的相对位置关系;
步骤103:基于所述多个待识别区域中文本块的相对位置关系,生成所述待处理表单图像对应的结构化文本。
表单是一种结构化文本,包括至少一行和/或至少一列。每一行或每一列均包括至少一个单元格,每个单元格中包括至少一个文本块。所述文本块可以包括字母、数字、文字、符号中的一种或多种文本信息。在通过OCR技术对待处理表单图像进行识别时,一般希望能够还原待处理表单图像中的结构化信息,即,输出与所述待处理表单图像结构匹配的结构化文本,以便将待处理表单图像中每个单元格中的文本块对应输出至结构化文本中的单元格。
例如,待处理表单图像中第1行第1列和第2行第1列的文本块分别是“张三”和“李四”,则生成的结构化文本中第1行第1列和第2行第1列的文本块也应分别是“张三”和“李四”。
其中,与待处理表单图像结构匹配的结构化文本指的是,与待处理表单图像结构相 同的结构化文本,或是,与待处理表单图像整体结构相同且局部结构相似的结构化文本。可以理解的是,与待处理表单图像整体结构相同且局部结构相似的结构化文本指的是,结构化文本与待处理表单图像中的表格结构相同(比如,包括的行及列对应的表项相同、行数及列数分别相同、单元格内记载的内容语义相同等)且至少一个单元格内部的结构不同(比如,单元格内文本块的数量不同)。需要说明的是,单元格内部的结构不同,仅限于结构本身的区别,而不影响单元格内部的内容对应的语义等。
通常情况下,会基于待输出的结构化文本对应的诸如行宽或列高的限制等动态调整输出的结构化文本,以在待处理表单图像结构与结构化文本不同的情况下,确保结构化文本与待处理表单图像结构相似,从而达到结构化文本与待处理表单图像结构匹配的需求。
在步骤101中,可以将待处理表单中的每一列内一个或多个单元格或者每一行内一个或多个单元格作为一个待识别区域。一般来说,可以将表单中包括表头的单元格与对应于该表头的其他单元格作为一个待识别区域。表单的排列方式可以有多种,例如,水平排列或者竖直排列。在水平排列的表单中,可以将每行单元格作为一个待识别区域;在竖直排列的表单中,可以将每列单元格作为一个待识别区域。如图2A所示,水平排列的表单是指表单中包括表头信息的各个单元格处于同一列,与表头信息对应的其他单元格排列在表头信息所在的单元格同一行的各个列上。例如,图2A中第1列的“凭证类型”、“交易时间”等为表头信息,以“交易时间”为例,对应于“交易时间”的各个单元格处于与“交易时间”对应的单元格所在同一行的各个列上。如图2B所示,竖直排列的表单是指表单中包括表头信息的各个单元格处于同一行,与表头信息对应的其他单元格排列在表头信息所在的单元格同一列的各个行上。例如,图2B中第1行的“凭证类型”、“交易时间”等为表头信息,仍以“交易时间”为例,对应于“交易时间”的各个单元格处于与“交易时间”对应的单元格所在同一列的各个行上。
无论是水平排列的表单还是竖直排列的表单,其中的文字方向均可以包括水平方向,也可以包括竖直方向,本公开对此不做限制。由于水平排列的表单与竖直排列的表单的处理方式类似,下面以竖直排列的表单且表单中文字方向为水平方向为例,对本公开的方案进行说明。水平排列的表单可以按照类似的方式进行处理,或者先转换为竖直排列的表单再进行后续处理。在文字方向为竖直方向或者其他方向的情况下,可以先将文字方向转换为水平方向,再进行其他处理。
一个待识别区域中可以包括多个单元格,每个单元格中包括至少一个文本块。在图2B所示的表单中,一个待识别区域包括处于同一列的3个单元格,例如,在一个待识别区域中,包括“XX包子店”所在的单元格、“XX母婴用品店”所在的单元格以及“XX外卖订单”所在的单元格,这三个单元格中均包括一个文本块。同一单元格中的文本块的语义是连续的。例如,一个待识别区域中的第1个单元格中包括文本块1“XX科技有限”和文本块2“公司”,则文本块1和文本块2的语义是连续的,二者的语义共同构成了“XX科技有限公司”这一公司名称。
所述待处理表单图像中的待识别区域为表头区域以外的区域,每个表头区域与一个 或多个待识别区域相对应。所述表头区域即为包括表头信息的区域,一个表头区域中包括一个表头信息,表头区域中的文本块为固定字段,所述固定字段的文本信息在同一类型的多张待处理表单图像中固定不变。例如,一张待处理表单图像中的表头区域包括固定字段“姓名”,其对应的待识别区域中包括非固定字段“张三”,另一张待处理表单图像中的表头区域包括固定字段“姓名”,其对应的待识别区域中包括非固定字段“李四”。
由于表单中处于同一单元格的文本块的语义一般是连续的,且位置一般比两个单元格的文本块更加紧密。因此,本步骤中获取的待识别区域中文本块的属性信息可以包括待识别区域中文本块的语义信息和/或位置信息。在待识别区域中包括多个文本块的情况下,所述待识别区域中文本块的语义信息既可以包括各个文本块单独的语义信息,也可以包括所述多个文本块中相邻的至少两个文本块整体的语义信息。例如,在待识别区域中包括3个文本块的情况下,可以获取文本块1与其相邻的文本块2整体的语义信息,文本块2与其相邻的文本块3整体的语义信息,以及文本块1、文本块2与文本块3整体的语义信息。其中,文本块的语义信息可以采用OCR等方式进行识别得到。文本块的位置信息可以基于预先创建的表单模板得到。所述表单模板与待处理表单图像结构相同,所述结构相同可以是列数相同但行数不同。其中,所述表单模板与待处理表单图像中每一列的宽度可以相同或者不同。
可以在所述表单模板中的包括固定字段的第一区域与所述待处理表单图像中包括固定字段的第二区域之间建立转换矩阵。具体来说,可以从所述第一区域中和所述第二区域中获取多个点对,每个点对中包括从所述第一区域中获取的一个点A和从所述第二区域中获取的一个点B,且点A在第一区域中的位置与点B在第二区域中的位置相对应。例如,所述多个点对可以包括所述第一区域的首个字段的中心点与所述第二区域的首个字段的中心点组成的点对、所述第一区域的最后一个字段的中心点与所述第二区域的最后一个字段的中心点组成的点对、所述第一区域的上边界的中点与所述第二区域的上边界的中点组成的点对、以及所述第一区域的下边界的中点与所述第二区域的下边界的中点组成的点对。再基于所述多个点对建立所述转换矩阵。在建立所述转换矩阵之后,可以基于所述转换矩阵和所述表单模板的待识别区域中文本块的位置,确定所述待处理表单图像中文本块的位置信息。
在一些实施例中,可以基于所述表单模板中的k个第一区域和所述待处理表单图像中的k个第二区域建立k个第一矩阵。其中,1≤k<N,k和N均为正整数,N为所述第一区域与所述第二区域的总组数,每组中的第一区域与第二区域一一对应且包括的固定字段相同。针对所述k个第一矩阵中的每个第一矩阵,基于所述第一矩阵对其余N-k个第一区域与第二区域的组进行匹配,确定匹配成功的组数。将匹配成功的组数最多的第一矩阵确定为所述转换矩阵。
下面通过一个数值实施例对本公开建立转换矩阵的方式进行说明,其中,k=2,N=5。本领域技术人员可以理解,本实施例中的数值仅为举例说明,实际应用中所采用的数值不限于此。为了便于描述,假设第i个组包括第i个第一区域和第i个第二区域,即第i 个第一区域与第i个第二区域相对应,1≤i≤5。可以从第1个第一区域和第1个第二区域中选取多个点对,建立第一矩阵M 1,从第2个第一区域和第2个第二区域中选取多个点对,建立第一矩阵M 2。然后,通过基于第一矩阵M 1分别对第3个第一区域和第3个第二区域、第4个第一区域和第4个第二区域以及第5个第一区域和第5个第二区域中的多个点对进行匹配,确定匹配成功的组数m 1。通过基于第一矩阵M 2分别对第3个第一区域和第3个第二区域、第4个第一区域和第4个第二区域以及第5个第一区域和第5个第二区域中的多个点对进行匹配,确定匹配成功的组数m 2。将组数m 1和m 2中较大者对应的第一矩阵确定为所述转换矩阵。
相比于将通过一次点对匹配计算得到的第一矩阵直接作为转换矩阵的方式,上述从多个第一矩阵中选取最优的第一矩阵作为转换矩阵的方式,提高了从待处理表单图像中确定待识别区域的准确性,从而提高了对待识别区域进行文本识别的准确性。上述对第一矩阵M 1和第一矩阵M 2的处理可以并行执行,也可以串行执行,本公开对此不作限制。
在确定所述待处理表单图像中多个文本块的位置信息之后,可以确定所述多个文本块在水平方向上的位置重叠量。在两个文本块在水平方向上的位置重叠量大于预设重叠阈值的情况下,可确定这两个文本块在同一个待识别区域中。
进一步地,由于表单模板中待识别区域与待处理表单图像中待识别区域的宽度可能不同,因此,通过转换矩阵来确定待处理表单图像的待识别区域中的文本块,可能存在一定误差。为了提高确定待处理表单图像的待识别区域中的文本块的准确度,可以先基于预设信息从所述待处理表单图像中确定所述多个待识别区域,再确定每个待识别区域中的文本块。所述预设信息可以包括但不限于以下至少任意一种或多种:所述待处理表单图像中的表头信息,所述待处理表单图像中的字段间距,所述待处理表单图像中字段的语义信息。
具体来说,可以基于每种预设信息确定一个置信度,所述置信度用于表征所述待识别区域处于某一位置的概率,并基于所述置信度确定所述待识别区域的位置。例如,可以基于所述待处理表单图像中的第i个表头信息,确定所述待处理表单图像中的第i个待识别区域处于所述待处理表单图像中的第一位置的第一置信度;基于所述待处理表单图像中的第i个搜索区域内的字段间距,确定所述待处理表单图像中的第i个待识别区域处于所述待处理表单图像中的第二位置的第二置信度;基于所述待处理表单图像中的第i个搜索区域内的字段的语义信息,确定所述待处理表单图像中的第i个待识别区域处于所述待处理表单图像中的第三位置的第三置信度;基于所述第一置信度、第二置信度和第三置信度,确定所述第i个待识别区域的位置。其中,所述第i个表头信息与所述第i个待识别区域中的字段的语义信息相匹配,所述第i个待识别区域为所述第i个搜索区域的子区域,i为正整数。
如图3所示,可以基于第3个表头信息(“交易金额”),确定第3个待识别区域(灰色部分所示)处于第一位置的第一置信度。还可以将虚线框内的部分确定为第3个搜索区域,根据第3个搜索区域内的字段的间距确定第3个待识别区域处于第二位置的第二置信度。所述字段的间距可包括字段“10:00”中的倒数第2个“0”与最后一个“0” 之间的距离,字段“10:00”中的最后一个“0”与字段“1000.00”中的“1”之间的距离,以及字段“1000.00”中的“1”与其后第一个“0”之间的距离等。可以根据搜索区域内字段的间距确定字段的不连续处,并判断第3个待识别区域的边界是否位于第3个搜索区域中字段的不连续处,得到判断结果。其中,判断结果包括判断过程涉及的各边界是否位于第3个搜索区域中字段的不连续处。还可以基于第3个搜索区域内字段的语义信息确定第3个待识别区域处于第三位置的第三置信度。所述语义信息可以包括字段“10:00”的语义信息,字段“1000.00”的语义信息以及字段“10:00”与字段“1000.00”整体的语义信息等。
在基于表头信息确定第一置信度时,可以获取所述第i个表头信息所在的表头区域的横向坐标范围,基于所述横向坐标范围确定所述第一置信度。例如,所述待识别区域处于所述横向坐标范围内的第一置信度较高,处于所述横向坐标范围之外的第一置信度较低。
在基于字段间距确定第二置信度时,若第i个搜索区域中的同一文本块中相邻两个字段的距离越大,则这两个字段属于同一个待识别区域的可能性越小。因此,可以基于同一文本块中相邻两个字段的距离确定出待识别区域的边界处于所述相邻两个字段之间的第二置信度。具言之,相邻两个字段的距离越大,则待识别区域的边界处于所述相邻两个字段之间的第二置信度越高;反之,相邻两个字段的距离越小,则待识别区域的边界处于所述相邻两个字段之间的第二置信度越低。
其中,所述第i个搜索区域可以基于以下方式确定:获取表单模板中第i个待识别区域,基于预先确定的转换矩阵对所述表单模板中第i个待识别区域进行转换,得到转换后的待识别区域,基于所述转换后的待识别区域确定所述第i个搜索区域,其中,所述转换后的待识别区域为所述第i个搜索区域的子区域。
在基于字段的语义信息确定第三置信度时,若第i个搜索区域中的同一文本块中的多个相邻字段的语义信息不连续,则所述多个相邻字段处于同一待识别区域的可能性较低。因此,若第i个搜索区域中的文本块中第K个字段与其相邻字段的语义信息不连续,则所述第i个待识别区域的边界位于所述第K个字段与其相邻字段之间的第三置信度较高;若第i个搜索区域中的文本块中第K个字段与其相邻字段的语义信息连续,则所述第i个待识别区域的边界位于所述第K个字段与其相邻字段之间的第三置信度较低。
在一些实施例中,所述第一置信度、第二置信度和第三置信度可以分别由第一神经网络、第二神经网络和第三神经网络获取。所述第一神经网络、第二神经网络和第三神经网络中的任意两者可以是同一个神经网络,也可以是不同的神经网络。
在一些实施例中,可以确定所述第一置信度、第二置信度和第三置信度中的最大置信度,将所述第i个待识别区域的位置确定为所述最大置信度对应的位置。通过将所述最大置信度对应的位置作为所述第i个待识别区域的位置,提高了对所述第i个待识别区域的定位准确度,从而提高生成结构化文本的准确度。
在一些实施例中,在从所述待处理表单图像中确定所述多个待识别区域时,可以根 据预设表单模板中的第一目标区域,确定所述待处理表单图像中的第二目标区域,再从所述第二目标区域中确定所述多个待识别区域。通过这种方式,能够提高对待识别区域的定位准确度,从而提高生成结构化文本的准确度。
具体来说,可以根据所述第一目标区域在所述表单模板中的第一位置,确定所述待处理表单图像中与所述第一位置匹配的第二位置;根据所述第二位置,确定所述待处理表单图像中的第二目标区域。
其中,所述第一位置和所述第二位置均为相对位置。一个区域在表单中的相对位置是指,基于该表单的尺寸对该区域的位置进行归一化处理后得到的归一化位置。一个区域的位置可以用该区域上的特征点的位置来表示,所述特征点可以是该区域的中心点或者角点。假设所述第一目标区域的特征点的坐标为(x1,y1),表单模板的长度(水平方向的尺寸)和高度(竖直方向的尺寸)分别为(X1,Y1),所述第二目标区域的特征点的坐标为(x2,y2),待处理表单图像的长度(水平方向的尺寸)和高度(竖直方向的尺寸)分别为(X2,Y2),则满足以下条件:
x1/X1=x2/X2;
y1/Y1=y2/Y2。
在基于第一目标区域确定第二目标区域之后,即可从第二目标区域中的所述多个待识别区域中识别文本块。在本实施例中,只要确定了第一目标区域,就可以按照第一目标区域在整个表单模板中的比例,对应地确定待处理表单图像中的第二目标区域,第一目标区域与第二目标区域中文本块的数量可以相同,也可以不同。只要第二目标区域在待处理表单图像中的比例不超过第一目标区域在表单模板中的比例,即可成功对待处理表单图像进行文本识别,从而实现了对行数不固定的待处理表单图像进行文本识别。
如图4所示,假设表单模板与待处理表单图像的尺寸相同,在表单模板中确定出第一目标区域(表单模板中的灰色部分所示)之后,可以在待处理表单图像中确定出一块相同大小的第二目标区域(待处理表单图像中的灰色部分所示)。这样,无论第二目标区域中包括的文本块的行数是否与第一目标区域中包括的文本块的行数相同,都可以实现对待处理表单图像中的第二目标区域进行文本识别,第一目标区域和第二目标区域中的文本块如图4中黑色方块所示。
在步骤102中,可以基于所述多个待识别区域中文本块的属性信息,确定所述多个待识别区域中文本块的相对位置关系。在一些实施例中,例如,在竖直排列的表单中,所述相对位置关系用于表征所述多个待识别区域中的文本块是否属于同一行。
在一些实施例中,所述多个待识别区域中包括参考区域和非参考区域。其中,参考区域中每个单元格仅包括一个文本块,非参考区域中每个单元格可以包括一个或多个文本块。如图5所示,灰色区域中每个单元格仅包括一个文本块,因此灰色区域为参考区域,而黑色区域中第1个单元格和第6个单元格(虚线部分所示)均包括2个文本块,因此黑色区域为非参考区域。其余的区域中,每个单元格包括一个文本块,既可以作为参考区域,也可以作为非参考区域。可以基于所述参考区域中文本块的属性信息和所述 非参考区域中文本块的属性信息,确定所述非参考区域中的文本块与所述参考区域中的文本块的相对位置关系。例如,所述参考区域的数量可以大于或等于1,每个参考区域对应于一个或多个非参考区域。针对每个参考区域,可以分别确定该参考区域中的文本块与对应于该参考区域的各个非参考区域中的文本块的相对位置关系。
具体来说,可以基于所述参考区域中第一文本块的位置信息和所述非参考区域中第二文本块的位置信息,确定所述第一文本块与所述第二文本块在竖直方向上的位置重叠量。在所述位置重叠量大于预设重叠阈值的情况下,确定所述第一文本块与所述第二文本块在所述结构化文本中处于同一行。
例如,假设所述第一文本块在竖直方向上的第一坐标范围为(y1,y2),所述第二文本块在竖直方向上的第二坐标范围为(y3,y4),且所述第一坐标范围和所述第二坐标范围的重叠部分的长度为△y1,包括所述第一文本块和所述第二文本块的坐标范围为△y2,则所述位置重叠量可以记为△y1/△y2。所述位置重叠量越大,则所述第一文本块与所述第二文本块在所述结构化文本中处于同一行的概率也越大。在所述位置重叠量大于预设重叠阈值的情况下,可以认为所述第一文本块与所述第二文本块在所述结构化文本中处于同一行。
进一步地,在所述第一文本块与多个第二文本块的位置重叠量均大于预设重叠阈值的情况下,获取所述多个第二文本块的语义信息。若所述多个第二文本块的语义信息连续,确定所述第一文本块与所述多个第二文本块在所述结构化文本中处于同一行。
若所述第一文本块与多个第二文本块的位置重叠量均大于预设重叠阈值,则表明所述多个第二文本块可能属于同一单元格,因此,对所述多个第二文本块进行语义识别,若语义信息连续,则表示所述多个第二文本块属于同一单元格,从而确定所述第一文本块与所述多个第二文本块在所述结构化文本中处于同一行。
在步骤103中,可以基于所述多个待识别区域中的第m个待识别区域中的第j个文本块,生成所述结构化文本中第m列第j行的单元格;m和j为正整数。
下面结合附图,对本公开实施例的技术方案进行说明。
在创建模板时,用户可以先上传包括表单模板的照片。然后,如图6A所示,用户可以从照片中框选出多个待识别区域,并定义这些待识别区域的字段名和字段类型,以及该区域中每个单元格是否包括多行。一个待识别区域的字段名可以与该待识别区域对应的表头信息相同,也可以由用户自定义。字段类型可以包括但不限于数字、符号、文字和全字符中的至少一种。其中,全字符类型是指文本块中包括至少两种字段类型。每个单元格是否包括多行用于指定参考区域,如果勾选该选项,表示将对应的待识别区域确定为参考区域。由于表格区域外部可能存在一些待识别的字段(例如,图中的“张三”、“人民币”等),因此,还可以通过一个选择控件来选择待识别区域是否为表格区域。如图6B所示,用户还可以框选固定字段(也称参考字段),系统可以自动识别固定字段,用户也可以在右侧的输入框中手动输入固定字段。
应当说明的是,既可以先框选固定字段,也可以先框选待识别区域,本公开对这两 个步骤的执行顺序不做限制。在框选完成的情况下,系统可以自动获取框选的各个区域的位置信息。通过上述方式,可以生成表单模板。然后,可以对表单模板进行保存。
如图7所示,是图5所示的待处理表单图像对应的结构化文本的示意图。可以看出,待处理表单图像中的单元格的行列数与结构化文本中的单元格的行列数是一致的。
在生成结构化文本之后,还可以向目标设备发送所述结构化文本,以使所述目标设备对所述结构化文本进行展示,以使用户可以直观地观看到结构化文本的内容。所述目标设备可以是用户终端,例如手机、电脑等。
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
如图8所示,本公开还提供一种表单处理装置,所述装置包括:获取模块801,用于获取待处理表单图像中多个待识别区域中文本块的属性信息;第一确定模块802,用于基于所述多个待识别区域中文本块的属性信息,确定所述多个待识别区域中文本块的相对位置关系;文本生成模块803,用于基于所述多个待识别区域中文本块的相对位置关系,生成所述待处理表单图像对应的结构化文本。
在一些实施例中,一个待识别区域中文本块的属性信息包括所述待识别区域中文本块的语义信息和/或位置信息。
在一些实施例中,所述多个待识别区域中包括参考区域和非参考区域。相应地,所述第一确定模块802用于:基于所述参考区域中文本块的属性信息和所述非参考区域中文本块的属性信息,确定所述非参考区域中的文本块与所述参考区域中的文本块的相对位置关系。
在一些实施例中,所述第一确定模块802用于:基于所述参考区域中第一文本块的位置信息和所述非参考区域中第二文本块的位置信息,确定所述第一文本块与所述第二文本块在竖直方向上的位置重叠量;在所述位置重叠量大于预设重叠阈值的情况下,确定所述第一文本块与所述第二文本块在所述结构化文本中处于同一行。
在一些实施例中,所述第一确定模块802用于:在所述第一文本块与多个第二文本块的位置重叠量均大于预设重叠阈值的情况下,获取所述多个第二文本块整体的语义信息;在所述多个第二文本块整体的语义信息连续的情况下,确定所述第一文本块与所述多个第二文本块在所述结构化文本中处于同一行。
在一些实施例中,所述参考区域中的每个单元格仅包括一个文本块,所述非参考区域中每个单元格包括一个或多个文本块。
在一些实施例中,所述装置还可包括第二确定模块804,用于基于预设信息,从所述待处理表单图像中确定所述多个待识别区域。所述预设信息包括以下至少任一:所述待处理表单图像中的表头信息,所述待处理表单图像中的字段间距,所述待处理表单图像中字段的语义信息。
在一些实施例中,所述第二确定模块804用于:基于所述待处理表单图像中的第i个表头信息,确定所述待处理表单图像中的第i个待识别区域处于所述待处理表单图像中的第一位置的第一置信度;基于所述待处理表单图像中的第i个搜索区域内的字段间距,确定所述待处理表单图像中的第i个待识别区域处于所述待处理表单图像中的第二位置的第二置信度;基于所述待处理表单图像中的第i个搜索区域内的字段的语义信息,确定所述待处理表单图像中的第i个待识别区域处于所述待处理表单图像中的第三位置的第三置信度;基于所述第一置信度、第二置信度和第三置信度,确定所述第i个待识别区域的位置。其中,所述第i个表头信息与所述第i个待识别区域中的字段的语义信息相匹配,所述第i个待识别区域为所述第i个搜索区域的子区域,i为正整数。
在一些实施例中,所述第一置信度、第二置信度和第三置信度分别由第一神经网络、第二神经网络和第三神经网络获取。
在一些实施例中,所述第二确定模块804用于:确定所述第一置信度、第二置信度和第三置信度中的最大置信度,将所述第i个待识别区域的位置确定为所述最大置信度对应的位置。
在一些实施例中,所述文本生成模块803用于:基于所述多个待识别区域中的第m个待识别区域中的第j个文本块,生成所述结构化文本中第m列第j行的单元格;m和j为正整数。
在一些实施例中,所述装置还可包括:第三确定模块805,用于根据预设表单模板中的第一目标区域,确定所述待处理表单图像中的第二目标区域;第四确定模块806,用于从所述第二目标区域中确定所述多个待识别区域。
在一些实施例中,所述第三确定模块805用于:根据所述第一目标区域在所述表单模板中的第一位置,确定所述待处理表单图像中与所述第一位置匹配的第二位置;根据所述第二位置,确定所述待处理表单图像中的第二目标区域。
在一些实施例中,所述装置还可包括发送模块807,用于向目标设备发送所述结构化文本,以使所述目标设备展示所述结构化文本。
在一些实施例中,本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。
本说明书实施例还提供一种计算机设备,其至少包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行所述程序时实现前述任一实施例所述的方法。
图9示出了本说明书实施例所提供的一种更为具体的计算机设备硬件结构示意图,该设备可以包括:处理器901、存储器902、输入/输出接口903、通信接口904和总线905。其中处理器901、存储器902、输入/输出接口903和通信接口904通过总线905实现彼此之间在设备内部的通信连接。
处理器901可以采用通用的中央处理器(Central Processing Unit,CPU)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器902可以采用只读存储器(Read Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、静态存储设备,动态存储设备等形式实现。存储器902可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器902中,并由处理器901来调用执行。
输入/输出接口903可以用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口904可以用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线905可以包括一通路,在设备的各个组件(例如处理器901、存储器902、输入/输出接口903和通信接口904)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器901、存储器902、输入/输出接口903、通信接口904以及总线905,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
如图10所示,本公开实施例还提供一种表单处理系统,包括客户端1001,用于上传所述待处理表单图像,并向服务器1002发送所述待处理表单图像;以及服务器1002,用于执行本公开任一实施例所述的方法。
其中,所述客户端1001可以安装在手机、平板电脑、台式电脑等智能终端上。所述智能终端上设有交互组件,用于上传照片。所述交互组件可以是触摸屏、鼠标、按键等。所述智能终端上还可以设有显示屏,用于预览上传的照片以及文本识别结果。所述智能终端还可以包括通信接口,用于与服务器1002进行通信,以向服务器1002发送用户上传的照片和用户发送的各种指令,接收服务器1002返回的包括结构化文本在内的各种信息和指令,以及对服务器1002发送的结构化文本等内容进行展示。
本公开实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述任一实施例所述的方法。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、 只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本公开实施例还提供一种表单处理方法,可以应用于客户端1001,所述方法包括:向服务器1002上传待处理表单图像;并在接收到服务器1002通过执行本公开前述任一方法实施例所述的表单处理方法对所述待处理表单图像进行处理得到的结构化文本后,对所述结构化文本进行显示。
本公开实施例还提供一种计算机程序,包括计算机可读代码,在所述计算机可读代码被处理器执行时实现前述任一实施例所述的方法。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本说明书实施例可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本说明书实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本说明书实施例各个实施例或者实施例的某些部分所述的方法。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,在实施本说明书实施例方案时可以把各模块的功能在同一个或多个软件和/或硬件中实现。也可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅是本说明书实施例的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本说明书实施例原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本说明书实施例的保护范围。

Claims (21)

  1. 一种表单处理方法,其特征在于,所述方法包括:
    获取待处理表单图像中多个待识别区域中文本块的属性信息;
    基于所述多个待识别区域中文本块的属性信息,确定所述多个待识别区域中文本块的相对位置关系;
    基于所述多个待识别区域中文本块的相对位置关系,生成所述待处理表单图像对应的结构化文本。
  2. 根据权利要求1所述的方法,其特征在于,一个待识别区域中文本块的所述属性信息包括所述待识别区域中文本块的语义信息和位置信息中的至少一个。
  3. 根据权利要求1或2所述的方法,其特征在于,所述多个待识别区域中包括参考区域和非参考区域;所述基于所述多个待识别区域中文本块的属性信息,确定所述多个待识别区域中文本块的相对位置关系,包括:
    基于所述参考区域中文本块的属性信息和所述非参考区域中文本块的属性信息,确定所述非参考区域中的文本块与所述参考区域中的文本块的相对位置关系。
  4. 根据权利要求3所述的方法,其特征在于,所述基于所述参考区域中文本块的属性信息和所述非参考区域中文本块的属性信息,确定所述非参考区域中的文本块与所述参考区域中的文本块的相对位置关系,包括:
    基于所述参考区域中第一文本块的位置信息和所述非参考区域中第二文本块的位置信息,确定所述第一文本块与所述第二文本块在竖直方向上的位置重叠量;
    在所述位置重叠量大于预设重叠阈值的情况下,确定所述第一文本块与所述第二文本块在所述结构化文本中处于同一行。
  5. 根据权利要求4所述的方法,其特征在于,所述在所述位置重叠量大于预设重叠阈值的情况下,确定所述第一文本块与所述第二文本块在所述结构化文本中处于同一行,包括:
    在所述第一文本块与多个第二文本块的位置重叠量均大于预设重叠阈值的情况下,获取所述多个第二文本块整体的语义信息;
    在所述多个第二文本块整体的语义信息连续的情况下,确定所述第一文本块与所述多个第二文本块在所述结构化文本中处于同一行。
  6. 根据权利要求3至5任意一项所述的方法,其特征在于,所述参考区域中的每个单元格包括一个文本块,所述非参考区域中的每个单元格包括一个或多个文本块。
  7. 根据权利要求1至6任意一项所述的方法,其特征在于,在所述获取待处理表单图像中多个待识别区域中文本块的属性信息之前,所述方法还包括:
    基于预设信息,从所述待处理表单图像中确定所述多个待识别区域;
    所述预设信息包括以下至少任一:所述待处理表单图像中的表头信息,所述待处理表单图像中的字段间距,所述待处理表单图像中字段的语义信息。
  8. 根据权利要求7所述的方法,其特征在于,所述基于预设信息,从所述待处理表单图像中确定所述多个待识别区域,包括:
    基于所述待处理表单图像中的第i个表头信息,确定所述待处理表单图像中的第i个待识别区域处于所述待处理表单图像中的第一位置的第一置信度;
    基于所述待处理表单图像中的第i个搜索区域内的字段间距,确定所述待处理表单图像中的第i个待识别区域处于所述待处理表单图像中的第二位置的第二置信度;
    基于所述待处理表单图像中的第i个搜索区域内的字段的语义信息,确定所述待处理表单图像中的第i个待识别区域处于所述待处理表单图像中的第三位置的第三置信度;
    基于所述第一置信度、所述第二置信度和所述第三置信度,确定所述第i个待识别区域的位置;其中,所述第i个表头信息与所述第i个待识别区域中的字段的语义信息相匹配,所述第i个待识别区域为所述第i个搜索区域的子区域,i为正整数。
  9. 根据权利要求8所述的方法,其特征在于,所述基于所述待处理表单图像中的第i个搜索区域内的字段间距,确定所述待处理表单图像中的第i个待识别区域处于所述待处理表单图像中的第二位置的第二置信度,包括:
    在所述待处理表单图像中的第二位置确定所述第i个搜索区域,所述第i个待识别区域为所述第i个搜索区域的子区域;
    基于所述第i个搜索区域内字段的间距确定所述第i个搜索区域内字段的不连续处;
    判断所述第i个待识别区域的边界是否位于所述第i个搜索区域内字段的不连续处,以基于判断结果确定所述待处理表单图像中的第i个待识别区域处于所述待处理表单图像中的第二位置的第二置信度,i为正整数。
  10. 根据权利要求8所述的方法,其特征在于,所述确定所述第i个搜索区域,包括:
    获取预设表单模板中第i个待识别区域;
    基于预先确定的转换矩阵对所述预设表单模板中第i个待识别区域进行转换,得到转换后的待识别区域;
    基于所述转换后的待识别区域确定所述第i个搜索区域;
    其中,所述转换后的待识别区域为所述第i个搜索区域的子区域,i为正整数。
  11. 根据权利要求8至10任意一项所述的方法,其特征在于,所述第一置信度、所述第二置信度和所述第三置信度分别由第一神经网络、第二神经网络和第三神经网络获取。
  12. 根据权利要求8至11任意一项所述的方法,其特征在于,所述基于所述第一置信度、所述第二置信度和所述第三置信度,确定所述第i个待识别区域的位置,包括:
    确定所述第一置信度、第二置信度和第三置信度中的最大置信度;
    将所述第i个待识别区域的位置确定为所述最大置信度对应的位置。
  13. 根据权利要求1至12任意一项所述的方法,其特征在于,所述基于所述多个待识别区域中文本块的相对位置关系,生成所述待处理表单图像对应的结构化文本,包括:
    基于所述多个待识别区域中的第m个待识别区域中的第j个文本块,生成所述结构化文本中第m列第j行的单元格;m和j为正整数。
  14. 根据权利要求1至13任意一项所述的方法,其特征在于,在所述获取待处理表单图像中多个待识别区域中文本块的属性信息之前,所述方法还包括:
    根据预设表单模板中的第一目标区域,确定所述待处理表单图像中的第二目标区域;
    从所述第二目标区域中确定所述多个待识别区域。
  15. 根据权利要求14所述的方法,其特征在于,所述根据预设表单模板中的第一目标区域,确定所述待处理表单图像中的第二目标区域,包括:
    根据所述第一目标区域在所述表单模板中的第一位置,确定所述待处理表单图像中与所述第一位置匹配的第二位置;
    根据所述第二位置,确定所述待处理表单图像中的第二目标区域。
  16. 根据权利要求1至15任意一项所述的方法,其特征在于,所述方法还包括:
    向目标设备发送所述结构化文本,以使所述目标设备展示所述结构化文本。
  17. 一种表单处理装置,其特征在于,所述装置包括:
    获取模块,用于获取待处理表单图像中多个待识别区域中文本块的属性信息,一个文本块的属性信息包括所述文本块的语义信息和位置信息中的至少一个;
    第一确定模块,用于基于所述多个待识别区域中文本块的属性信息,确定所述多个待识别区域中文本块的相对位置关系;
    文本生成模块,用于基于所述多个待识别区域中文本块的相对位置关系,生成所述待处理表单图像对应的结构化文本。
  18. 一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至16任意一项所述的方法。
  19. 一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至16任意一项所述的方法。
  20. 一种表单处理方法,应用于客户端,其特征在于,所述方法包括:
    向服务器上传待处理表单图像;
    接收并展示所述服务器发送的结构化文本;
    其中,所述结构化文本为所述服务器通过执行权利要求1至16任意一项所述的方法对所述待处理表单图像进行处理得到的结果。
  21. 一种计算机程序,包括计算机可读代码,其特征在于,所述计算机可读代码被处理器执行时实现权利要求1至16任意一项所述的方法。
PCT/CN2021/121555 2020-12-31 2021-09-29 表单处理方法、装置、介质及计算机设备 WO2022142551A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011617843.8 2020-12-31
CN202011617843.8A CN112633278A (zh) 2020-12-31 2020-12-31 表单处理方法、装置和系统、介质及计算机设备

Publications (1)

Publication Number Publication Date
WO2022142551A1 true WO2022142551A1 (zh) 2022-07-07

Family

ID=75287199

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2021/121555 WO2022142551A1 (zh) 2020-12-31 2021-09-29 表单处理方法、装置、介质及计算机设备

Country Status (2)

Country Link
CN (1) CN112633278A (zh)
WO (1) WO2022142551A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115618836A (zh) * 2022-12-15 2023-01-17 杭州恒生聚源信息技术有限公司 无线表格的结构还原方法、装置、计算机设备及存储介质
CN116166729A (zh) * 2023-02-15 2023-05-26 中国科学院广州地球化学研究所 钻孔柱状图数据的处理方法、装置、电子设备及存储介质

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112633278A (zh) * 2020-12-31 2021-04-09 北京市商汤科技开发有限公司 表单处理方法、装置和系统、介质及计算机设备
CN113723347B (zh) * 2021-09-09 2023-11-07 京东科技控股股份有限公司 信息提取的方法、装置、电子设备及存储介质
CN116861865A (zh) * 2023-06-26 2023-10-10 江苏常熟农村商业银行股份有限公司 Excel数据处理方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200050845A1 (en) * 2018-08-13 2020-02-13 International Business Machines Corporation Method and system for extracting information from an image of a filled form document
CN111291741A (zh) * 2020-05-13 2020-06-16 太平金融科技服务(上海)有限公司 单据识别方法、装置、计算机设备和存储介质
CN111382717A (zh) * 2020-03-17 2020-07-07 腾讯科技(深圳)有限公司 一种表格识别方法、装置和计算机可读存储介质
CN111967387A (zh) * 2020-08-17 2020-11-20 北京市商汤科技开发有限公司 表单识别方法、装置、设备及计算机可读存储介质
CN111989692A (zh) * 2019-09-30 2020-11-24 北京市商汤科技开发有限公司 表单识别方法、表格提取方法及相关装置
CN112633278A (zh) * 2020-12-31 2021-04-09 北京市商汤科技开发有限公司 表单处理方法、装置和系统、介质及计算机设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200050845A1 (en) * 2018-08-13 2020-02-13 International Business Machines Corporation Method and system for extracting information from an image of a filled form document
CN111989692A (zh) * 2019-09-30 2020-11-24 北京市商汤科技开发有限公司 表单识别方法、表格提取方法及相关装置
CN111382717A (zh) * 2020-03-17 2020-07-07 腾讯科技(深圳)有限公司 一种表格识别方法、装置和计算机可读存储介质
CN111291741A (zh) * 2020-05-13 2020-06-16 太平金融科技服务(上海)有限公司 单据识别方法、装置、计算机设备和存储介质
CN111967387A (zh) * 2020-08-17 2020-11-20 北京市商汤科技开发有限公司 表单识别方法、装置、设备及计算机可读存储介质
CN112633278A (zh) * 2020-12-31 2021-04-09 北京市商汤科技开发有限公司 表单处理方法、装置和系统、介质及计算机设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115618836A (zh) * 2022-12-15 2023-01-17 杭州恒生聚源信息技术有限公司 无线表格的结构还原方法、装置、计算机设备及存储介质
CN116166729A (zh) * 2023-02-15 2023-05-26 中国科学院广州地球化学研究所 钻孔柱状图数据的处理方法、装置、电子设备及存储介质
CN116166729B (zh) * 2023-02-15 2023-11-17 中国科学院广州地球化学研究所 钻孔柱状图数据的处理方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN112633278A (zh) 2021-04-09

Similar Documents

Publication Publication Date Title
WO2022142551A1 (zh) 表单处理方法、装置、介质及计算机设备
US9697423B1 (en) Identifying the lines of a table
TWI766855B (zh) 一種字符識別方法和裝置
WO2022142550A1 (zh) 图像识别方法、装置和存储介质
US11573646B2 (en) Method and system for ranking candidates in input method
US10339212B2 (en) Detecting the bounds of borderless tables in fixed-format structured documents using machine learning
US20220253631A1 (en) Image processing method, electronic device and storage medium
WO2020051114A1 (en) Information detection method, apparatus and device
CN106326802B (zh) 二维码校正方法、装置及终端设备
CN111291661B (zh) 一种屏幕中图标的文本内容的识别方法及设备
CN109063068B (zh) 一种图片检索方法和装置
CN114882321A (zh) 深度学习模型的训练方法、目标对象检测方法和装置
WO2022142549A1 (zh) 文本识别方法、装置和存储介质
US20230298374A1 (en) Method and device for determining picture with texts
US20220139069A1 (en) Information processing system, information processing method, and recording medium
US11934448B2 (en) Keyword localization digital image search
CN112329409B (zh) 一种单元格颜色转换方法、装置及电子设备
US20220392243A1 (en) Method for training text classification model, electronic device and storage medium
JP7219011B2 (ja) 表に関するタイプセットネススコア
CN113220949B (zh) 一种隐私数据识别系统的构建方法及装置
WO2022105120A1 (zh) 图片文字检测方法、装置、计算机设备及存储介质
CN116030375A (zh) 视频特征提取、模型训练方法、装置、设备及存储介质
CN110245231B (zh) 一种针对乱码的训练样本特征提取方法、装置及设备
CN114387603A (zh) 用于对汉字进行检纠错的方法、系统和计算设备
CN111680628B (zh) 文字框融合方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21913296

Country of ref document: EP

Kind code of ref document: A1