WO2020233270A1

WO2020233270A1 - 票据分析方法、分析装置、计算机设备和介质

Info

Publication number: WO2020233270A1
Application number: PCT/CN2020/084094
Authority: WO
Inventors: 黄光伟; 李月
Original assignee: 京东方科技集团股份有限公司
Priority date: 2019-05-20
Filing date: 2020-04-10
Publication date: 2020-11-26
Also published as: CN111178345A

Abstract

本发明公开了一种票据分析方法、分析装置、计算机设备和介质，所述分析方法包括：通过密集卷积网络对接收的票据图像进行票据分类以获取所述票据的类型；根据所述类型识别所述票据图像以获取该票据的归档信息；基于针对所述类型的票据的判断标准，通过所述归档信息检验所述票据是否符合所述判断标准；基于检验结果呈现提示信息。

Description

票据分析方法、分析装置、计算机设备和介质

相关申请的交叉引用

本申请要求于2019年5月20日提交的公开名称为“一种票据分析方法、分析装置、计算机设备和介质”的中国专利申请第201910417242.3号的优先权，该申请的公开通过引用被全部结合于此。

技术领域

本发明涉及图像处理技术领域，特别是涉及一种票据分析方法、分析装置、计算机可读存储介质和计算机设备。

背景技术

随着图像处理技术的发展，目前已有一些公司基于OCR(Optical Character Recognition，光学字符识别)技术对拍摄的票据图像进行识别并归档，如百度、腾讯等，但它们的系统仍存在一些问题。例如：(1)一个系统只能对一种票据进行识别；(2)识别准确率较低；(3)当票据污损或被篡改时，无法对票据进行真伪检验；(4)现有的票据识别系统使用方式较为复杂，无法形成有效的文档，供财务人员查验等等。

发明内容

本发明第一方面提供一种票据分析方法，包括：

通过密集卷积网络对接收的票据图像进行票据分类以获取所述票据的类型；

根据所述类型识别所述票据图像以获取该票据的归档信息；

基于针对所述类型的票据的判断标准，通过所述归档信息检验所述票据是否符合所述判断标准；

基于检验结果呈现提示信息。

进一步的，所述通过密集卷积网络对接收的票据图像进行票据分类以获取所述票据的类型包括：

建立密集卷积网络模型，其中所述密集卷积网络模型包括

第一卷积层，用于对接收的图片进行卷积；

第一密集块，连接所述第一卷积层；

顺序连接第一密集块的第二卷积层、第一批量归一化层、第一激活函数层、第一池化层；

第二密集块，连接所述第一池化层；

顺序连接第二密集块的第三卷积层、第二批量归一化层、第二激活函数层、第二池化层；

第三密集块，连接所述第二池化层；

顺序连接第三密集块的第三池化层；

连接所述第三池化层的Softmax分类器；

训练所述密集卷积网络模型；

将所述票据图像输入第一卷积层，由所述Softmax分类器输出所述票据的类型。

进一步的，所述根据所述类型识别所述票据图像以获取该票据的归档信息包括：

对所述票据图像进行畸变校正以获取票据校正图像；

对所述票据校正图像进行文本方向检测以获取票据检测图像；

对所述票据检测图像进行文字检测和文字识别，并根据所述类型进行文本归档以获取所述票据的归档信息。

进一步的，所述对所述票据图像进行畸变校正以获取票据校正图像包括：

对所述票据图像进行图像二值化；

通过直线检测以获取所述票据图像的水平直线集和竖直直线集分组、合并近似平行线以确定所述票据的最优边界和定点；

通过透视变换从所述票据图像内分割出所述票据校正图像。

进一步的，所述对所述票据校正图像进行文本方向检测以获取票据检测图像包括：

使用预置的全角度文本检测分类模型对所述票据校正图像进行文本方向检测以获取所述票据检测图像。

进一步的，所述对所述票据检测图像进行文字检测和文字识别，并根据所述类型进行文本归档以获取所述票据的归档信息包括：

使用预置的文字检测模型检测所述票据检测图像并获取所述票据的多个文字框图像和所述文字框图像对应的位置信息；

根据所述位置信息，使用预置的文字识别网络模型识别各所述文字框图像以获取所述票据的文本内容；

根据所述类型使用关键字对所述文本内容进行文本归档以获取所述票据的归档信息。

进一步的，所述基于针对所述类型的票据的判断标准，通过所述归档信息检验所述票据是否符合所述判断标准包括：

若所述类型为增值税发票：

提取所述增值税发票的二维码信息并与所述归档信息进行比对以获取第一结果，调用针对所述增值税发票的第三方API接口验证所述增值税发票的真伪以获取第二结果，根据所述第一结果和第二结果获取检验结果；或

若所述类型为出租车票：

基于预设合理性判断标准通过所述出租车票的归档信息进行判断以获取检验结果；

或

若所述类型为火车票：

调用针对所述火车票的第三方API接口验证所述火车票的真伪以获取检验结果；或

若所述类型不属于增值税发票、出租车票和火车票中任一者：

提示重新上传票据。

进一步的，在通过密集卷积网络对接收的票据图像进行票据分类以获取所述票据的类型之前，所述方法还包括：

判断所述票据图像是否满足图片质量预设要求，若不满足则提示重新上传票据。

进一步的，所述判断所述票据图像是否满足图片质量预设要求包括：

使用无参考图像质量评估算法判断所述票据图像是否满足图片质量预设要求。

进一步的，所述使用无参考图像质量评估算法判断所述票据图像是否满足图片质量预设要求包括：

所述无参考图像质量评估算法根据所述票据图像的分辨率自适应调整该算法中的评估阈值。

进一步的，在所述通过密集卷积网络对接收的票据图像进行票据分类以获取所述票据的类型之前，所述方法还包括：

判断接收的所述票据的文件类型为文件格式还是图片格式；

若是文件格式则对所述票据进行内容提取以获取归档信息，通过所述归档信息检验所述票据是否符合预设的真伪判断标准。

进一步的，所述对所述票据进行内容提取以获取归档信息包括：

提取所述票据的文本信息；

使用关键字和所述文本信息对应的位置信息对所述文本信息进行文本归档以获取所述票据的归档信息。

进一步的，所述通过所述归档信息检验所述票据是否符合预设的真伪判断标准包括：

提取所述票据的二维码信息并与所述归档信息进行比对以获取第一结果；

调用针对所述票据的第三方API接口验证所述票据的真伪以获取第二结果；

对所述票据的电子签名进行防篡改验证以获取第三结果；

根据所述第一结果、第二结果和第三结果获取检验结果。

进一步的，将所述归档信息和检验结果导入数据库。

本发明第二方面提供一种票据分析装置，包括：

第一票据处理模块，用于通过密集卷积网络对接收的票据图像进行票据分类以获取所述票据的类型、根据所述类型识别所述票据以获取该票据的归档信息、基于针对所述类型的票据的判断标准，通过所述归档信息检验所述票据是否符合所述判断标准；

提示模块，用于基于检验结果呈现提示信息。

进一步的，所述第一票据处理模块还包括质量判断模块，用于判断所述票据图像是否满足图片质量预设要求，若不满足则提示重新上传票据。

进一步的，还包括

分类模块，用于根据接收的所述票据的文件类型进行分类以确定所述票据为第一票据或第二票据；

第二票据处理模块，用于对所述票据进行内容提取以获取归档信息，通过所述归档信息检验所述票据是否符合预设的真伪判断标准；

数据库模块，用于将所述归档信息和检验结果导入数据库。

本发明第三方面提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面所述的卡证识别方法。

本发明第四方面提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所述的方法。

附图说明

下面结合附图对本发明的具体实施方式作进一步详细的说明。

图1示出本发明的实施例所述票据分析方法的流程图；

图2a-2b示出本发明的实施例所述票据图像的示意图；

图3示出本发明的实施例所述票据分类的流程图；

图4示出本发明的实施例所述密集卷积网络的框图；

图5示出本发明的实施例所述票据的票据图像预处理的流程图；

图6a-6b示出本发明的实施例所述票据图像的畸变校正的分阶段示意图；

图7a-7b示出本发明的实施例所述票据图像的文本方向检测的分阶段示意图；

图8示出本发明的实施例所述票据的票据图像的文字检测、文字识别和文本归档的流程图；

图9a-9b示出本发明的实施例所述票据的文本归档的分阶段示意图；

图10示出本发明的实施例所述票据分析的结构框图；

图11示出本发明的实施例所述的一种计算机设备的结构示意图。

具体实施方式

为了更清楚地说明本发明，下面结合优选实施例和附图对本发明做进一步的说明。附图中相似的部件以相同的附图标记进行表示。本领域技术人员应当理解，下面所具体描述的内容是说明性的而非限制性的，不应以此限制本发明的保护范围。

本发明涉及一种票据分析方法、分析装置、计算机设备和介质，并通过密集卷积网络对接收的票据图像进行分类能够识别不同类型的票据，同时对所述票据进行识别、归档和检验以呈现提示信息，能够弥补了现有技术中处理票据存在的问题，有效提高各类型票据的处理效率，具有广泛的应用前景。

如图1所示，本发明的实施例提供了一种票据分析方法，包括：通过密集卷积网络对接收的票据图像进行票据分类以获取所述票据的类型；根据所述类型识别所述票据图像以获取该票据的归档信息；基于针对所述类型的票据的判断标准，通过所述归档信息检验所述票据是否符合所述判断标准；基于检验结果呈现提示信息。

在一个具体的示例中，如图1所示，以出租车票为例，所述分析方法包括：

第一、通过密集卷积网络对接收的票据图像进行票据分类以获取所述票据的类型。

将出租车票的票据图像上传，所述票据图像可以为扫描的出租车票的扫描图像，也可以为拍摄的出租车票的照片，例如为.jpg、.png、.bmp等不可编辑的图片格式。

考虑到所述出租车票可能存在污损情况，或者接收的出租车票的票据图像可能存在模糊无法识别的问题，为解决上述问题，在一个可选的实施例中，在所述通过密集卷积网络对接收的票据图像进行票据分类以获取所述票据的类型之前，所述方法还包括：判断所述票据图像是否满足图片质量预设要求，若不满足则提示重新上传票据。

即在进行票据分类之前，先对所述票据的票据图像的图像质量进行检测，若所述票据图像的图像质量满足预设要求则进行票据分类，如图2a所示，所述票据图像模糊，不符合预设要求，则不进行图像识别，结束该票据的分析流程，并显示提示信息，提示上传用户重新提交票据的票据图像。如此能够实现对上传的票据图像的质量控制，避免因无法识别而增加额外的工作量，能够有效提高所述票据的处理速度。

考虑到不同分辨率的票据图像在判断图像质量时，应该采用不同的预设要求，在一个可选的实施例中，所述判断所述票据图像是否满足图片质量预设要求包括：使用无参考图像质量评估算法判断所述票据图像是否满足图片质量预设要求。

在本实施例中，使用基于字符梯度的无参考图像质量评估(CG-DIQA)算法判断所述票据图像的图像质量是否满足图片预设要求，具体的，所述无参考图像质量评估算法根据所述票据图像的分辨率自适应调整该算法中的评估阈值。

在本实施例中，如图2b所示，所述无参考图像质量评估算法能够根据票据图像的分辨率自适应调整评估阈值以评估票据图像的质量，即根据具体的票据图像的分辨率设置对应的评估阈值，使用该评估阈值对待评估的票据图像进行质量评估。

确保所述票据图像符合预设要求后，对票据图像进行处理。相比较传统票据分类模型，密集卷积网络通过增加网络模型层数，有效加强图像特征的传递，提高对图像特征的学习能力，减轻该网络中存在的梯度消失问题，并减少该网络的参数量。基于上述特点，本实施例通过密集卷积网络对票据图像进行票据分类能够提高票据分类的准确性，增强泛化能力。

在一个可选的实施例中，如图3所示，所述通过密集卷积网络对接收的票据图像进行票据分类以获取所述票据的类型包括：建立密集卷积网络模型，其中所述密集卷积网络模型包括第一卷积层，用于对接收的图片进行卷积；第一密集块，连接所述第一卷积层；顺序连接第一密集块的第二卷积层、第一批量归一化层、第一激活函数层、第一池化层；第二密集块，连接所述第一池化层；顺序连接第二密集块的第三卷积层、第二批量归一化层、第二激活函数层、第二池化层；第三密集块，连接所述第二池化层；顺序连接第三密集块的第三池化层；连接所述第三池化层的Softmax分类器；训练所述密集卷积网络模型；将所述票据图像输入第一卷积层，由所述Softmax分类器输出所述票据的类型。

首先，建立密集卷积网络模型。

在本实施例中，如图4所示，所述密集卷积网络模型包括三个卷积层(Convolution)、三个密集块(dense block)，两个批量归一化层(batch-normalization)、两个激活函数层、三个池化层(Pooling)批量归一化层连接，以及自适应变化的归一化指数函数Softmax(DorpMax)分类器。

具体的，第一卷积层，用于对接收的图片进行卷积；第一密集块，连接所述第一卷积层；顺序连接第一密集块的第二卷积层、第一批量归一化层、第一激活函数层、第一池化层；第二密集块，连接所述第一池化层；顺序连接第二密集块的第三卷积层、第二批量归一化层、第二激活函数层、第二池化层；第三密集块，连接所述第二池化层；顺序连接第三密集块的第三池化层；连接所述第三池化层的Softmax分类器。

然后，训练所述密集卷积网络模型。

由于所述密集卷积网络模型需要大量票据数据进行训练，而现有的公开数据集极少。在本实施例中，采集了大量各种类型的票据的票据图像作为样本库，例如采集了6000张增值税发票、6000张出租车发票，6000张火车票，以及其它类型票据的6000张文本图像，其中将每种类型的5000张票据图像作为训练集，1000张作为测试集，以实现对所述密集卷积网络模型的训练。

最后，将所述票据图像输入第一卷积层，由所述Softmax分类器输出所述票据的类型。

在本实施例中，将接收的票据图像输入所述密集卷积网络模型以获取所述票据的类型。例如将上述出租车票的票据图像输入该模型，获得的类型结果为“出租车票”。

第二、根据所述类型识别所述票据图像以获取该票据的归档信息。

当根据所述票据图像获取所述票据的类型后，对所述票据图像进行基于OCR技术的图像识别以获取所述票据的归档信息。

在一个可选的实施例中，如图5所示，所述根据所述类型识别所述票据图像以获取该票据的归档信息包括：对所述票据图像进行畸变校正以获取票据校正图像；对所述票据校正图像进行文本方向检测以获取票据检测图像；对所述票据检测图像进行文字检测和文字识别，并根据所述类型进行文本归档以获取所述票据的归档信息。

具体的，所述处理步骤如下：

第一步，对所述票据图像进行畸变校正以获取票据校正图像。

所述票据图像中的票据可能处于非正常模式，例如票据图像中的票据存在变形情况、或者存在背景干扰等。如图6a所示，所述出租车票的票据图像中包括大量背景区域，则此时需要对票据图像进行裁剪、校正以去除背景干扰。

在本实施例中，所述对所述票据图像进行畸变校正以获取票据校正图像包括：对所述票据图像进行图像二值化；通过直线检测以获取所述票据图像的水平直线集和竖直直线集分组、合并近似平行线以确定所述票据的最优边界和定点；通过透视变换从所述票据图像内分割出所述票据校正图像。

首先，对所述票据图像进行图像二值化，将图像二值化处理。

然后，通过直线检测以获取所述票据图像的水平直线集和竖直直线集分组、合并近似平行线以确定所述票据的最优边界和定点。在本实施例中采用LSD(Line Segment Detector，线段检测器)直线检测，获取票据图像中的水平直线集和竖直直线集分组，将水平直线集和竖直直线集中近似的平行线进行合并，从而确定该图像中的最优边界和顶点。

最后，通过透视变换从所述票据图像内分割出所述票据校正图像。在本实施例中通过四点透视变化，如图6b所示，将出租车票图像从票据图像中分割出来以获得票据校正图像。

第二步，对所述票据校正图像进行文本方向检测以获取票据检测图像。

如图7a所示，考虑到所述票据校正图像中的票据有可能存在倾斜、倒置等情况，采用文本方向检测校正所述票据校正图像以提高文本检测和识别的准确性。

在一个可选的实施例中，所述对所述票据校正图像进行文本方向检测以获取票据检测图像包括：使用预置的全角度文本检测分类模型对所述票据校正图像进行文本方向检测以获取所述票据检测图像。

在本实施例中，基于VGG16模型建立并训练全角度文本检测的分类模型，所述全角度包括0-360度，按照10度为步长对图像进行离散化以检测图像中的文本，该分类模型校正速度快。即将所述票据校正图像输入该分类模型，按照该分类模型输出的角度调整所述票据校正图像，如图7b所示为校正后的票据检测图像。

第三步，对所述票据检测图像进行文字检测和文字识别，并根据所述类型进行文本归档以获取所述票据的归档信息。

在本实施例中，如图8所示，所述对所述票据检测图像进行文字检测和文字识别，并根据所述类型进行文本归档以获取所述票据的归档信息包括：使用预置的文字检测模型检测所述票据检测图像并获取所述票据的多个文字框图像和所述文字框图像对应的位置信息；根据所述位置信息，使用预置的文字识别网络模型识别各所述文字框图像以获取所述票据的文本内容；根据所述类型使用关键字对所述文本内容进行文本归档以获取所述票据的归档信息。

首先，使用预置的文字检测模型检测所述票据检测图像并获取所述票据的多个文字框图像和所述文字框图像对应的位置信息。

考虑到文字信息为一个序列，所述序列由字符、字符的一部分或多字符组成，而不是传统目标检测中只包括一个独立目标。针对文字信息的特点，建立检测模型，通过采集的大量样本对所述检测模型进行训练。

在本实施例中，采用YoloV3文字检测网络对所述票据检测图像进行检测以获取多个文字框图像。先检测出文本区域，再检测文本线，即所述票据的文本在所述文字框图像中的位置信息。所述YoloV3文字检测网络相较于传统文字检测网络具有检测精度高、检测速度快等特点，能够有效提高票据分析的检测精度和速度。

然后，根据所述位置信息，使用预置的文字识别网络模型识别各所述文字框图像以获取所述票据的文本内容。

考虑到文字框图像大小不一，需要进一步通过文字识别网络对各文字框图像中的文字进行识别。为提高识别结果的准确性，在本实施例中采用CRNN(Convolutional Recurrent Neural Networks，卷积递归神经网络)文字识别网络模型，具体步骤如下：

在本实施例中，所述文字识别网络模型为CRNN文字识别网络模型，该模型结合CNN(Convolutional Neural Networks，卷积神经网络)网络和RNN(Recurrent Neural Network，递归神经网络)网络特点，能够按照垂直方向将文字框图像缩放到固定长度，相较于传统文字识别模型，不再进行字符分割和水平缩放处理，能够提高识别速度；同时该模型还能够识别任意长度的字符序列，不再受字符长度的限制。并且，相比较传统的非端到端文字识别网络模型，该模型能够实现端到端训练，能够提高文字识别的准确性。值得说明的是，该模型的训练灵活，能够训练基于词典的文字识别网络模型或不基于词典的文字识别网络模型，并且该模型具有体积小、识别速度快的特点。

将通过文字检测获取的多个文字框图像输入到所述CRNN文字识别网络模型中，例如按照CNN(卷积神经网络)-LSTM(长短期记忆网络)-CTC(联结机制时间分类)的流程获取识别结果，将文字框图像识别为字符串，即获取各文字框图像对应的文本内容以获取所述票据的文本内容。所述CRNN文字识别网络模型对中英文的识别结果准确率高，能够识别任意长度的连续文字。

最后，根据所述类型使用关键字对所述文本内容进行文本归档以获取所述票据的归档信息。

在已经获得的所述类型的基础上，针对不同的类型对所述票据进行文本归档处理，仍以出租车票为例进行说明，如图9a所示，所述出租车票具有相同的排版和布局，每张出租车票包含的文本项目相同，因此根据所述出租车票的排版和布局，以及文本项目预先设置用于出租车票的文字归档模板，所述文字归档模板以出租车票的文本项目作为关键字提取各出租车票的信息，例如发票代码、车票号码、车牌号、日期、时间、里程、等待时间和实收金额等文本项目，如图9b所示，通过所述文字归档模板获取出租车票的归档信息，从而完成针对该出租车票的文字归档。

第三、基于针对所述类型的票据的判断标准，通过所述归档信息检验所述票据是否符合所述判断标准。

结合实际应用中通常使用票据进行报账的问题，检验所述票据是否符合判断标准成为票据分析所必须考虑的问题。不同类型的票据可以有不同的判断标准，因此票据的检验可以基于票据所属类型的判断标准进行。

在一个可选的实施例中，所述基于针对所述类型的票据的判断标准，通过所述归档信息检验所述票据是否符合所述判断标准包括：若所述类型为增值税发票：提取所述增值税发票的二维码信息并与所述归档信息进行比对以获取第一结果，调用针对所述增值税发票的第三方API接口验证所述增值税发票的真伪以获取第二结果，根据所述第一结果和第二结果获取检验结果；或若所述类型为出租车票：基于预设合理性判断标准通过所述出租车票的归档信息进行判断以获取检验结果；或若所述类型为火车票：调用针对所述火车票的第三方API接口验证所述火车票的真伪以获取检验结果；或若分类为上述三类票据之外的票据即所述类型不属于增值税发票、出租车票和火车票中任一者：提示重新上传票据。

在本实施例中，当所述类型为增值税发票：

考虑到所述增值税发票包括二维码信息，先从增值税发票中提取二维码信息，与前述基于OCR技术获得的归档信息进行比对，将比对结果标记为第一结果。

考虑到所述增值税发票可以通过国税局提供的API接口在线检测该发票的真伪，并将在线检测结果记为第二结果。

即所述判断标准包括二维码信息比对和在线检测，则根据所述第一结果和第二结果获得所述增值税发票的检验结果。

在本实施例中，当所述类型为出租车票：

根据预设置的合理性判断标准判断所述出租车票的是否合理，从而辨别该出租车票的合理性，例如所述合理性判断标准包括：所述上下车时间不得超过2个小时，以城区内的距离作为判断阈值，满足则表明所述出租车票合理。即所述判断标准为合理性判断标准，将该判断结果作为检验结果。值得说明的是，本领域技术人员应当根据实际应用需求设置合理性判断标准，在此不再赘述。

在本实施例中，当所述类型为火车票，结合火车票的归档信息和在线验证接口判断所述火车票的真伪。即所述判断标准为归档信息和在线检测，从而判断所述票据的真伪，并将判断结果作为所述检验结果。例如通过火车票的归档信息与该火车票的车次等信息进行比对以获得比对结果；以及通过12306网站提供的API接口在线检测该火车票的真伪，并将比对结果和真伪信息作为所述火车票的检验结果。

第四、基于检验结果呈现提示信息。

在本实施例中，票据分析的结果体现在票据的归档信息和检验结果，同时，为辅助财务人员进行操作，将所述票据检验结果呈现出来以提示财务人员。例如当增值税发票或火车票的检验结果为假时呈现提示信息，又例如当出租车票的检验结果为不合理时呈现提示信息。

为了方便随时调用各票据的分析结果，在一个可选的实施例中，所述票据分析方法还包括：将所述归档信息和检验结果导入数据库。

例如，将前述获得的所述票据的归档信息和检验结果导入Excel，并存储在数据库中。在本实施例中，所述数据库根据获得的检验结果进行判断，若所述票据符合判断标准则认为所述票据为正常票据，否则认为所述票据为问题票据，将检验结果存在异常的问题票据的检验结果以高亮的形式显示出来用以提示，例如提示财务人员需要特别关注该票据，能够有效提高财务人员的工作效率。

考虑到电子发票的广泛应用，在一个可选的实施例中，在所述通过密集卷积网络对接收的票据图像进行票据分类以获取所述票据的类型之前，所述方法还包括：判断接收的所述票据的文件类型为文件格式还是图片格式；若是文件格式则对所述票据进行内容提取以获取归档信息，通过所述归档信息检验所述票据是否符合预设的真伪判断标准。

具体的，根据接收的票据的文件类型进行划分，判断所述票据的文件类型为文件格式还是图片格式。若所述票据的文件类型为文件格式，如pdf等，则判断为第二票据，即电子发票；若所述票据的文件类型为图像格式，如jpg,png,bmp等，则判断为第一票据，即普通发票。普通发票例如包括但不限于增值税发票、出租车发票、火车票以及其他类票据。

在本实施例中，对电子发票按照如下步骤进行处理：

首先，提取所述票据的文本信息，例如使用python程序提取电子发票文件中的所有文本信息。

其次，使用关键字和所述文本信息对应的位置信息对所述文本信息进行文本归档以获取所述票据的归档信息。即根据所述文本信息进行文本归档，例如使用关键字和位置信息对所述各文本信息进行归档，同时根据所述文本信息对应的位置信息排除不必要的信息。

最后，通过所述归档信息检验所述票据是否符合预设的真伪判断标准。

具体的，提取所述票据的二维码信息并与所述归档信息进行比对并获取第一结果；调用针对所述票据的第三方API接口验证所述票据的真伪以获取第二结果；对所述票据的电子签名进行防篡改验证以获取第三结果；根据所述第一结果、第二结果和第三结果获取检验结果。

考虑到所述电子发票中具有二维码信息，则提取电子发票中的二维码信息，与前述归档信息进行比对，并将比对结果作为第一结果。

考虑到所述电子发票可以通过国税局提供的API接口在线检测该发票的真伪，并将在线检测结果记为第二结果。

考虑到所述电子发票中包括电子签名，查验所述电子签名，如未被篡改则所述电子发票通过验证，否则检验不通过，将检验结果作为第三结果。

根据所述第一结果、第二结果和第三结果获取所述票据的检验结果。

值得说明的是，为了方便随时调用各票据的分析结果，将所述电子发票的归档信息和检验结果导入数据库，所述数据库根据获得的检验结果进行判断，若所述电子发票为真则认为所述电子发票为正常票据，否则将检验结果存在异常的电子发票的检验结果以高亮的形式显示出来用以提示。

与上述实施例提供的票据分析方法相对应，本申请的一个实施例还提供一种票据分析装置，由于本申请实施例提供的票据分析装置与上述几种实施例提供的票据分析方法相对应，因此在前述实施方式也适用于本实施例提供的票据分析装置，在本实施例中不再详细描述。

如图10所示，本申请的一个实施例还提供一种票据分析装置，包括：第一票据处理模块，用于通过密集卷积网络对接收的票据图像进行票据分类以获取所述票据的类型、根据所述类型识别所述票据以获取该票据的归档信息、基于针对所述类型的票据的判断标准通过所述归档信息检验所述票据是否符合所述判断标准；提示模块，用于基于检验结果呈现提示信息。

在一个可选的实施例中，所述第一票据处理模块还包括质量判断模块，用于判断所述票据图像是否满足图片质量预设要求，若不满足则提示重新上传票据。

在另一个可选的实施例中，所述票据分析装置还包括分类模块，用于根据接收的所述票据的文件类型进行分类以确定所述票据为第一票据或第二票据；第二票据处理模块，用于对所述票据进行内容提取以获取归档信息，通过所述归档信息检验所述票据是否符合预设的真伪判断标准；数据库模块，用于将所述归档信息和检验结果导入数据库。

本发明的另一个实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现：通过密集卷积网络对接收的票据图像进行票据分类以获取所述票据的类型；根据所述类型识别所述票据图像以获取该票据的归档信息；基于针对所述类型的票据的判断标准，通过所述归档信息检验所述票据是否符合所述判断标准；基于检验结果呈现提示信息。

在实际应用中，所述计算机可读存储介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本实时例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

如图11所示，本发明的另一个实施例提供的一种计算机设备的结构示意图。图11显示的计算机设备12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图11所示，计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图11未显示，通常称为“硬盘驱动器”)。尽管图11中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM，DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机设备12交互的设备通信，和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图11所示，网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白，尽管图11中未示出，可以结合计算机设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理器单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的一种票据分析方法。

需要说明的是，本发明实施例提供的视线追踪方法步骤的先后顺序可以进行适当谓整，步骤也可以根据情况进行相应增减，任何熟悉本技术领域的技术人员在本发费揭露的技术范围内，可轻易程到变化的方法，都应涵盖在本发明的保护范围之内，因此不再赘述。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定，对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动，这里无法对所有的实施方式予以穷举，凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

Claims

一种票据分析方法，包括：

通过密集卷积网络对接收的票据图像进行票据分类以获取所述票据的类型；

根据所述类型识别所述票据图像以获取该票据的归档信息；

基于针对所述类型的票据的判断标准，通过所述归档信息检验所述票据是否符合所述判断标准；

基于检验结果呈现提示信息。
根据权利要求1所述的票据分析方法，其中，所述通过密集卷积网络对接收的票据图像进行票据分类以获取所述票据的类型包括：

建立密集卷积网络模型，其中所述密集卷积网络模型包括

第一卷积层，用于对接收的图片进行卷积；

第一密集块，连接所述第一卷积层；

顺序连接第一密集块的第二卷积层、第一批量归一化层、第一激活函数层、第一池化层；

第二密集块，连接所述第一池化层；

顺序连接第二密集块的第三卷积层、第二批量归一化层、第二激活函数层、第二池化层；

第三密集块，连接所述第二池化层；

顺序连接第三密集块的第三池化层；

连接所述第三池化层的Softmax分类器；

训练所述密集卷积网络模型；

将所述票据图像输入第一卷积层，由所述Softmax分类器输出所述票据的类型。
根据权利要求1所述的票据分析方法，其中，所述根据所述类型识别所述票据图像以获取该票据的归档信息包括：

对所述票据图像进行畸变校正以获取票据校正图像；

对所述票据校正图像进行文本方向检测以获取票据检测图像；

对所述票据检测图像进行文字检测和文字识别，并根据所述类型进行文本归档以获取所述票据的归档信息。
根据权利要求3所述的票据分析方法，其中，所述对所述票据图像进行畸变校正以获取票据校正图像包括：

对所述票据图像进行图像二值化；

通过直线检测以获取所述票据图像的水平直线集和竖直直线集分组、合并近似平行线以确定所述票据的最优边界和定点；

通过透视变换从所述票据图像内分割出所述票据校正图像。
根据权利要求3所述的票据分析方法，其中，所述对所述票据校正图像进行文本方向检测以获取票据检测图像包括：

使用预置的全角度文本检测分类模型对所述票据校正图像进行文本方向检测以获取所述票据检测图像。
根据权利要求3所述的票据分析方法，其中，所述对所述票据检测图像进行文字检测和文字识别，并根据所述类型进行文本归档以获取所述票据的归档信息包括：

使用预置的文字检测模型检测所述票据检测图像并获取所述票据的多个文字框图像和所述文字框图像对应的位置信息；

根据所述位置信息，使用预置的文字识别网络模型识别各所述文字框图像以获取所述票据的文本内容；

根据所述类型使用关键字对所述文本内容进行文本归档以获取所述票据的归档信息。
根据权利要求1所述的票据分析方法，其中，所述基于针对所述类型的票据的判断标准，根据所述类型通过所述归档信息检验所述票据是否符合所述判断标准包括：

若所述类型为增值税发票：

提取所述增值税发票的二维码信息并与所述归档信息进行比对以获取第一结果，

调用针对所述增值税发票的第三方API接口验证所述增值税发票的真伪以获取第二结果，

根据所述第一结果和第二结果获取检验结果；或

若所述类型为出租车票：

基于预设合理性判断标准通过所述出租车票的归档信息进行判断以获取检验结果；或

若所述类型为火车票：

调用针对所述火车票的第三方API接口验证所述火车票的真伪以获取检验结果；或

若所述类型不属于增值税发票、出租车票和火车票中任一者：

提示重新上传票据。
根据权利要求1所述的票据分析方法，其中，在通过密集卷积网络对接收的票据图像进行票据分类以获取所述票据的类型之前，所述方法还包括：

判断所述票据图像是否满足图片质量预设要求，若不满足则提示重新上传票据。
根据权利要求8所述的票据分析方法，其中，所述判断所述票据图像是否满足图片质量预设要求包括：

使用无参考图像质量评估算法判断所述票据图像是否满足图片质量预设要求。
根据权利要求9所述的票据分析方法，其中，所述使用无参考图像质量评估算法判断所述票据图像是否满足图片质量预设要求包括：

所述无参考图像质量评估算法根据所述票据图像的分辨率自适应调整该算法中的评估阈值。
根据权利要求1所述的票据分析方法，其中，在所述通过密集卷积网络对接收的票据图像进行票据分类以获取所述票据的类型之前，所述方法还包括：

判断接收的所述票据的文件类型为文件格式还是图片格式；

若是文件格式则对所述票据进行内容提取以获取归档信息，通过所述归档信息检验所述票据是否符合预设的真伪判断标准。
根据权利要求11所述的票据分析方法，其中，所述对所述票据进行内容提取以获取归档信息包括：

提取所述票据的文本信息；

使用关键字和所述文本信息对应的位置信息对所述文本信息进行文本归档以获取所述票据的归档信息。
根据权利要求11所述的票据分析方法，其中，所述通过所述归档信息检验所述票据是否符合预设的真伪判断标准包括：

提取所述票据的二维码信息并与所述归档信息进行比对以获取第一结果；

调用针对所述票据的第三方API接口验证所述票据的真伪以获取第二结果；

对所述票据的电子签名进行防篡改验证以获取第三结果；

根据所述第一结果、第二结果和第三结果获取检验结果。
根据权利要求1-13中任一项所述的票据分析方法，其中，将所述归档信息和检验结果导入数据库。
一种票据分析装置，，包括：

第一票据处理模块，用于通过密集卷积网络对接收的票据图像进行票据分类以获取所述票据的类型、根据所述类型识别所述票据以获取该票据的归档信息、基于针对所述类型的票据的判断标准，通过所述归档信息检验所述票据是否符合所述判断标准；

提示模块，用于基于检验结果呈现提示信息。
根据权利要求15所述的票据分析装置，其中，所述第一票据处理模块还包括质量判断模块，用于判断所述票据图像是否满足图片质量预设要求，若不满足则提示重新上传票据。
根据权利要求15所述的票据分析装置，其中，还包括

分类模块，用于根据接收的所述票据的文件类型进行分类以确定所述票据为第一票据或第二票据；

第二票据处理模块，用于对所述票据进行内容提取以获取归档信息，通过所述归档信息检验所述票据是否符合预设的真伪判断标准；

数据库模块，用于将所述归档信息和检验结果导入数据库。
一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现如权利要求1-14中任一项所述的票据分析方法。
一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现如权利要求1-14中任一所述的票据分析方法。