WO2023035332A1

WO2023035332A1 - 一种日期提取方法、装置、计算机设备及存储介质

Info

Publication number: WO2023035332A1
Application number: PCT/CN2021/120040
Authority: WO
Inventors: 程佳宇; 陈永红; 张军涛; 王国鹏
Original assignee: 深圳前海环融联易信息科技服务有限公司
Priority date: 2021-09-08
Filing date: 2021-09-24
Publication date: 2023-03-16
Also published as: CN113762160A

Abstract

本申请公开了一种日期提取方法、装置、计算机设备及存储介质，该方法包括：获取包含待提取日期的文件图像，对所述文件图像进行预处理；对文件图像进行OCR识别，并结合待提取日期的关联信息获取包含待提取日期的目标文本段；利用NER技术对所述目标文本段进行标签标注，并输出得到日期文本段；通过分类模型对所述日期文本段进行分类预测，并基于分类预测结果对所述日期文本段进行修正及后处理；根据修正及后处理结果，获取待提取日期的目标要素，并根据所述目标要素提取日期。本申请结合待提取提起的关联信息对待提取日期所在文本段进行定位，并通过OCR识别和NER技术对文件图像或者文本段进行识别标注，可以提高对于日期的提取精度和提取效率。

Description

一种日期提取方法、装置、计算机设备及存储介质

本申请是以申请号为202111049925.1、申请日为2021年9月8日的中国专利申请为基础，并主张其优先权，该申请的全部内容在此作为整体引入本申请中。

技术领域

本申请涉及计算机技术领域，特别涉及一种日期提取方法、装置、计算机设备及存储介质。

背景技术

在各类合同的审阅过程中，待人工处理的材料往往具有以下两大鲜明的特点：（1）合同类型与覆盖的要素因行业的不同而多变，包括但不限于房地产、医疗、制造业、采购等行业，这就提高了对人工审核相关材料的门槛，同时也加大了审核工作的难度；（2）近似要素过多，且包含手写体类型、掺杂其他印章、水印等干扰信息，增加了要素精准提取的难度。关于合同中各种日期的提取方式，普通分为两种类型：

第一种是基于业务逻辑梳理关键字或关键句的定位规则，然后结合正则等方式匹配符合要求的日期格式，作为最终的候选日期。同时对于多个候选日期，结合相关业务规则选择最终的目标要素值。

第二种应用较为广泛的是结合深度学习进行日期要素提取，即通过深度学习模型预测得到日期对应的目标值。

针对上文提到的第一种现有方法，其缺陷首先是虽然提取日期的精度能够得到一定程度的保证，但是方法几乎没有鲁棒性，即换一种合同样式，或者换一种日期的上下文表述就不能做到提取效果达到预期。

针对上文提到的第二种现有方法，因合同中日期类的要素居多，如开工日期、竣工日期、签约日期、有效期等，且有些日期类要素还频繁出现多于一个的情况，这就导致模型很难去识别真正的目标要素，从而导致提取精度较差。

申请内容

本申请实施例提供了一种日期提取方法、装置、计算机设备及存储介质，旨在提高对于日期的提取精度和提取效率。

第一方面，本申请实施例提供了一种日期提取方法，包括：

获取包含待提取日期的文件图像，对所述文件图像进行预处理；

对经过预处理的文件图像进行OCR识别，并结合待提取日期的关联信息获取包含待提取日期的目标文本段；

利用NER技术对所述目标文本段进行标签标注，并输出得到日期文本段；

通过分类模型对所述日期文本段进行分类预测，并基于分类预测结果对所述日期文本段进行修正及后处理；

根据修正及后处理结果，获取待提取日期的目标要素，并根据所述目标要素提取日期。

第二方面，本申请实施例提供了一种日期提取装置，包括：

预处理单元，用于获取包含待提取日期的文件图像，对所述文件图像进行预处理；

第一获取单元，用于对经过预处理的文件图像进行OCR识别，并结合待提取日期的关联信息获取包含待提取日期的目标文本段；

标签标注单元，用于利用NER技术对所述目标文本段进行标签标注，并输出得到日期文本段；

后处理单元，用于通过分类模型对所述日期文本段进行分类预测，并基于分类预测结果对所述日期文本段进行修正及后处理；

日期提取单元，用于根据修正及后处理结果，获取待提取日期的目标要素，并根据所述目标要素提取日期。

第三方面，本申请实施例提供了一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面所述的日期提取方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的日期提取方法。

本申请实施例提供了一种日期提取方法、装置、计算机设备及存储介质，该方法包括：获取包含待提取日期的文件图像，对所述文件图像进行预处理；对经过预处理的文件图像进行OCR识别，并结合待提取日期的关联信息获取包含待提取日期的目标文本段；利用NER技术对所述目标文本段进行标签标注，并输出得到日期文本段；通过分类模型对所述日期文本段进行分类预测，并基于分类预测结果对所述日期文本段进行修正及后处理；根据修正及后处理结果，获取待提取日期的目标要素，并根据所述目标要素提取日期。本申请实施例结合待提取提起的关联信息对待提取日期所在文本段进行定位，并通过OCR识别和NER技术对文件图像或者文本段进行识别标注，从而可以精准获取待提取日期的目标要素，以此提取日期，便可以提高对于日期的提取精度和提取效率。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种日期提取方法的流程示意图；

图2为本申请实施例提供的一种日期提取方法的子流程示意图；

图3为本申请实施例提供的一种日期提取装置的示意性框图；

图4为本申请实施例提供的一种日期提取装置的子示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和 “包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本申请说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

下面请参见图1，图1为本申请实施例提供的一种日期提取方法的流程示意图，具体包括：步骤S101~S105。

S101、获取包含待提取日期的文件图像，对所述文件图像进行预处理；

S102、对经过预处理的文件图像进行OCR识别，并结合待提取日期的关联信息获取包含待提取日期的目标文本段；

S103、利用NER技术对所述目标文本段进行标签标注，并输出得到日期文本段；

S104、通过分类模型对所述日期文本段进行分类预测，并基于分类预测结果对所述日期文本段进行修正及后处理；

S105、根据修正及后处理结果，获取待提取日期的目标要素，并根据所述目标要素提取日期。

本实施例中，通过对包含待提取日期的文件图像进行预处理，可以去除文件图像中的诸如噪音等干扰因素，然后通过OCR识别技术可以顺利识别到文件图像中的文件数据，并结合待提取日期的关联信息在识别到的文件数据提取包含待提取日期的目标文本段。随后通过NER（命名实体识别）技术对目标文本段进行标注，以此进一步获取日期文本段，并在此基础上，利用分类模型对日期文本段进行分类预测，再对分类预测结果进行修正、后处理等操作，便可以得到待提取日期对应的目标要素。根据所述目标要素即可提取对应的待提取日期。

本实施例结合待提取提起的关联信息对待提取日期所在文本段进行定位，降低了文件中其他日期类要素对待提取日期要素值提取的干扰，可以提高准确率。并通过OCR识别和NER技术对文件图像或者文本段进行识别标注，从而可以精准获取待提取日期的目标要素，以此提取日期，便可以提高对于日期的提取精度和提取效率。本实施例所述的待提取日期可以是合同文件中的签约日期，也可以是开竣工日期、有效日期等其他日期，具体可以依据实际场景而定。

在一实施例中，所述步骤S101包括：

对所述文件图像进行方向矫正处理；

采用Yolov5技术对所述文件图像中的印章或水印进行检测；

通过生成式对抗网络将检测到的印章及水印去除。

本实施例中，在文件图像预处理阶段，基于图像的预处理技术，对文件图像的方向进行矫正，以及对文件图像中的印章（主要分为方章、圆章、骑缝章、印花税章、其他章）和水印进行检测，并在检测到印章或者水印后GAN（生成式对抗网络）进行去除，从而减少文件图像中的相关噪声对要素提取准确率的干扰。另外，检测到的印章还可以作为识别签署页的特征。在具体应用场景中，选用大概500张真实的合同带印章样本，同时写脚本生成10W+的印章图片，基于GAN实现印章的去除，修正率达到34%（修正率：印章去除后文本识别的准确率-印章去除前文本识别的准确率）。

在一实施例中，所述步骤S102包括：

通过印刷体OCR技术对所述文件图像进行文字识别；

基于文字识别结果对待提取日期的关联信息进行定位，并将定位结果作为所述目标文本段；其中，所述关联信息为待提取日期对应的页面信息或者与待提取日期关联的关键字信息。

本实施例中，由于文件图像经过预处理后，精度和识别度得到极大提高，因此可以通过印刷体OCR技术对所述文件图像进行文字识别。在文字识别过程中，根据待提取日期的关联信息（例如页面信息或者关键字等），获取待提取日期对应的目标文本段。在这里，由于文件图像中除了待提取日期以外，还会存在其他干扰日期，例如待提取日期为签约日期，那么对签约日期造成干扰的日期可以是开竣工日期、有效日期等。同时，待提取日期通常处于固定位置，例如签约日期通常会出现在封面、首页、签署页这三类页面。因此，本实施例结合了待提取日期的页面信息作为辅助信息进行定位，从而可以提到目标文本段的定位精度。

在一实施例中，所述步骤S103包括：

利用Bert预训练模型对所述目标文本段提取文本特征；

通过Bi-LSTM网络在所述文本特征中提取实体识别所需的目标特征；

采用条件随机场对所述目标特征进行解码处理，得到对应的标注序列，并将所述标注序列作为所述日期文本段输出。

本实施例中，基于NER技术对目标文本段进行标注，以得到日期文本段。具体的，首先利用Bert预训练模型提取所述目标文本段中的文本特征，并以此构建特征向量，再通过Bi-LSTM网络（双向长短时记忆循环神经网络）对该特征向量提取目标特征，然后基于条件随机场（CRF）进行解码操作，如此得到所述日期文本段。

当然，在进行预测标注之前，可以采用训练样本集对NER技术进行训练优化，以提高标注效率和精度。例如，在标注签约日期时，选取3000份真实的合同样本，将提取的文本增强到约30W，基于Bert预训练模型+Bi-LSTM网络+ CRF完成整个NER技术的训练过程，其中签约日期对应的标签为B_signdate（签约日期的起始字符）、I_signdate（签约日期除起始字符外的其它字符）。此后，通过训练好的NER技术得到每个文本token对应的标签，并提取出预测标签为B_signdate、I_signdate的文本段作为候选签约日期值返回。

在一实施例中，如图2所示，所述步骤S104包括：步骤S201~S204。

S201、获取所述日期文本段中对应的文本框；

S202、采用支持向量机每一文本框进行二分类处理，以判断文本框是否为手写体图像；

S203、若判定文本框为手写体图像，则通过手写体OCR技术对所述手写体图像进行识别，并对识别结果进行修正及后处理；

S204、若判定文本框不为手写体图像，则继续对所述日期文本段进行修正及后处理。

本实施例中，通过印刷体OCR识别日期文本段后，获取所包含的文本框，并通过支持向量机（SVM）标记文本框对应的图像区域是不是手写体图像。若是手写体图像，则通过手写体OCR识别该手写体图像中的文本数据。可以理解的是，本实施例所述的手写体OCR与前述印刷体OCR的识别对象并不相同，即手写体OCR的识别对象为手写体数据，而印刷体OCR的识别对象为印刷数据。

在一实施例中，所述步骤S104还包括：

对所述日期文本段进行日期格式校验、文本纠错以及统一格式处理；

基于待提取日期所处场景对所述日期文本进行审核。

本实施例中，在后处理与业务规则阶段，其中后处理包括日期格式校验、文本纠错（主要是形近字）、统一格式等，业务规则即是基于定制化的需求进行配置，如多个签约日期取最晚的日期为最终目标值等。定制化需求主要从审核需求出发，不同的审核场景对于合同的审核需求不一样，例如：多个签约日期取最晚的日期为最终签约日期字段的目标值、多个签约日期取封面页的日期为最终签约日期字段的目标值等等。

在一实施例中，所述对所述日期文本段进行日期格式校验、文本纠错以及统一格式处理，包括：

利用N-Grams模型计算所述日期文本的纠错得分概率值，并基于所述纠错得分概率值对所述日期文本进行修正。

本实施例中，N-Gram是一种基于统计语言模型的算法，其基本思想是将日期文本里面的内容按照字节进行大小为N的滑动窗口操作，形成了长度是N的字节片段序列。每一个字节片段称为gram，对所有gram的出现频度进行统计，并且按照事先设定好的阈值进行过滤，形成关键gram列表，也就是日期文本文本的向量特征空间，列表中的每一种gram就是一个特征向量维度。第N个词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。

图3为本申请实施例提供的一种日期提取装置300的示意性框图，该装置300包括：

预处理单元301，用于获取包含待提取日期的文件图像，对所述文件图像进行预处理；

第一获取单元302，用于对经过预处理的文件图像进行OCR识别，并结合待提取日期的关联信息获取包含待提取日期的目标文本段；

标签标注单元303，用于利用NER技术对所述目标文本段进行标签标注，并输出得到日期文本段；

后处理单元304，用于通过分类模型对所述日期文本段进行分类预测，并基于分类预测结果对所述日期文本段进行修正及后处理；

日期提取单元305，用于根据修正及后处理结果，获取待提取日期的目标要素，并根据所述目标要素提取日期。

在一实施例中，所述预处理单元301包括：

矫正单元，用于对所述文件图像进行方向矫正处理；

检测单元，用于采用Yolov5技术对所述文件图像中的印章或水印进行检测；

去除单元，用于通过生成式对抗网络将检测到的印章及水印去除。

在一实施例中，所述第一获取单元302包括：

文字识别单元，用于通过印刷体OCR技术对所述文件图像进行文字识别；

定位单元，用于基于文字识别结果对待提取日期的关联信息进行定位，并将定位结果作为所述目标文本段；其中，所述关联信息为待提取日期对应的页面信息或者与待提取日期关联的关键字信息。

在一实施例中，所述标签标注单元303包括：

第一提取单元，用于利用Bert预训练模型对所述目标文本段提取文本特征；

第二提取单元，用于通过Bi-LSTM网络在所述文本特征中提取实体识别所需的目标特征；

解码输出单元，用于采用条件随机场对所述目标特征进行解码处理，得到对应的标注序列，并将所述标注序列作为所述日期文本段输出。

在一实施例中，如图4所示，所述后处理单元304包括：

第二获取单元401，用于获取所述日期文本段中对应的文本框；

判断单元402，用于采用支持向量机每一文本框进行二分类处理，以判断文本框是否为手写体图像；

手写体识别单元403，用于若判定文本框为手写体图像，则通过手写体OCR技术对所述手写体图像进行识别，并对识别结果进行修正及后处理；

修正单元404，用于若判定文本框不为手写体图像，则继续对所述日期文本段进行修正及后处理。

在一实施例中，所述后处理单元304还包括：

校验处理单元，用于对所述日期文本段进行日期格式校验、文本纠错以及统一格式处理；

审核单元，用于基于待提取日期所处场景对所述日期文本进行审核。

在一实施例中，所述校验处理单元包括：

概率值计算单元，用于利用N-Grams模型计算所述日期文本的纠错得分概率值，并基于所述纠错得分概率值对所述日期文本进行修正。

由于装置部分的实施例与方法部分的实施例相互对应，因此装置部分的实施例请参见方法部分的实施例的描述，这里暂不赘述。

本申请实施例还提供了一种计算机可读存储介质，其上存有计算机程序，该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括：U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

本申请实施例还提供了一种计算机设备，可以包括存储器和处理器，存储器中存有计算机程序，处理器调用存储器中的计算机程序时，可以实现上述实施例所提供的步骤。当然计算机设备还可以包括各种网络接口，电源等组件。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

一种日期提取方法，其特征在于，包括：

获取包含待提取日期的文件图像，对所述文件图像进行预处理；

对经过预处理的文件图像进行OCR识别，并结合待提取日期的关联信息获取包含待提取日期的目标文本段；

利用NER技术对所述目标文本段进行标签标注，并输出得到日期文本段；

通过分类模型对所述日期文本段进行分类预测，并基于分类预测结果对所述日期文本段进行修正及后处理；

根据修正及后处理结果，获取待提取日期的目标要素，并根据所述目标要素提取日期。
根据权利要求1所述的日期提取方法，其特征在于，所述获取包含待提取日期的文件图像，对所述文件图像进行预处理，包括：

对所述文件图像进行方向矫正处理；

采用Yolov5技术对所述文件图像中的印章或水印进行检测；

通过生成式对抗网络将检测到的印章及水印去除。
根据权利要求1所述的日期提取方法，其特征在于，所述对经过预处理的文件图像进行OCR识别，并结合待提取日期的关联信息获取包含待提取日期的目标文本段，包括：

通过印刷体OCR技术对所述文件图像进行文字识别；

基于文字识别结果对待提取日期的关联信息进行定位，并将定位结果作为所述目标文本段；其中，所述关联信息为待提取日期对应的页面信息或者与待提取日期关联的关键字信息。
根据权利要求1所述的日期提取方法，其特征在于，所述利用NER技术对所述目标文本段进行标签标注，并输出得到日期文本段，包括：

利用Bert预训练模型对所述目标文本段提取文本特征；

通过Bi-LSTM网络在所述文本特征中提取实体识别所需的目标特征；

采用条件随机场对所述目标特征进行解码处理，得到对应的标注序列，并将所述标注序列作为所述日期文本段输出。
根据权利要求1所述的日期提取方法，其特征在于，所述通过分类模型对所述日期文本段进行分类预测，并基于分类预测结果对所述日期文本段进行修正及后处理，包括：

获取所述日期文本段中对应的文本框；

采用支持向量机每一文本框进行二分类处理，以判断文本框是否为手写体图像；

若判定文本框为手写体图像，则通过手写体OCR技术对所述手写体图像进行识别，并对识别结果进行修正及后处理；

若判定文本框不为手写体图像，则继续对所述日期文本段进行修正及后处理。
根据权利要求1所述的日期提取方法，其特征在于，所述通过分类模型对所述日期文本段进行分类预测，并基于分类预测结果对所述日期文本段进行修正及后处理，还包括：

对所述日期文本段进行日期格式校验、文本纠错以及统一格式处理；

基于待提取日期所处场景对所述日期文本进行审核。
根据权利要求6所述的日期提取方法，其特征在于，所述对所述日期文本段进行日期格式校验、文本纠错以及统一格式处理，包括：

利用N-Grams模型计算所述日期文本的纠错得分概率值，并基于所述纠错得分概率值对所述日期文本进行修正。
一种日期提取装置，其特征在于，包括：

预处理单元，用于获取包含待提取日期的文件图像，对所述文件图像进行预处理；

第一获取单元，用于对经过预处理的文件图像进行OCR识别，并结合待提取日期的关联信息获取包含待提取日期的目标文本段；

标签标注单元，用于利用NER技术对所述目标文本段进行标签标注，并输出得到日期文本段；

后处理单元，用于通过分类模型对所述日期文本段进行分类预测，并基于分类预测结果对所述日期文本段进行修正及后处理；

日期提取单元，用于根据修正及后处理结果，获取待提取日期的目标要素，并根据所述目标要素提取日期。
一种计算机设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的日期提取方法。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的日期提取方法。