WO2022105524A1

WO2022105524A1 - 票据分类的方法、装置和计算机设备

Info

Publication number: WO2022105524A1
Application number: PCT/CN2021/125228
Authority: WO
Inventors: 王文浩; 徐国强
Original assignee: 深圳壹账通智能科技有限公司
Priority date: 2020-11-17
Filing date: 2021-10-21
Publication date: 2022-05-27
Also published as: CN112381153A

Abstract

本申请涉及大数据领域，揭示了票据分类的方法，包括：获取待分类票据的字段信息；根据字段的字符内容确定待分类票据与指定票据模板中相同的指定字段；根据所有指定字段分别对应在待分类票据中的第一坐标信息，以及所有指定字段分别对应在指定票据模板中的第二坐标信息，构建待分类票据与指定票据模板之间的变换矩阵，构建所有票据模板分别对应的变换矩阵；通过所有票据模板分别对应的变换矩阵分别对待分类票据字段的坐标信息进行透射变换，一一对应得到变换后坐标信息；根据各变换后坐标信息与指定票据模板中字段的坐标信息，分别计算待分类票据与各票据模板的匹配得分；将匹配得分最小值对应的票据模板，作为待分类票据对应的分类模板。

Description

票据分类的方法、装置和计算机设备

本申请要求于2020年11月17日提交中国专利局、申请号为2020112877607，发明名称为“票据分类的方法、装置和计算机设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及大数据领域，特别是涉及到票据分类的方法、装置和计算机设备。

背景技术

目前多数中小企业对于票据的处理主要依赖于人工手动进行票据信息的录入，将纸质票据中的内容转化为可存储的结构化信息，通过人工录入方式不仅效率低、周期长，而且在高强度重复工作压力下难免精神懈怠导致工作错误，不能满足对票据信息管理效率和智能化的追求。虽可通过光学字符识别(OCR)技术，借助自动分类模型实现票据自动分类到模版库中。但发明人发现，现有自动分类模型需要用户对每一类票据至少上传15-20张图片进行模型分类训练，要获得大量相同类型的票据并不容易，无法确保票据的自动化精准分类。

技术问题

本申请的主要目的为提供票据分类的，旨在解决现有无法确保票据的自动化精准分类的技术问题。

技术解决方案

本申请提出一种票据分类的方法，包括：

获取待分类票据的字段信息，其中，所述字段信息包括字段的字符内容和字段的坐标信息；

根据所述字段的字符内容确定所述待分类票据与指定票据模板中相同的指定字段，其中，所述指定票据模板为票据模板数据库中的任意一个票据模板，所述指定字段为所述指定票据模板中的任一字段；

根据所有所述指定字段分别对应在所述待分类票据中的第一坐标信息，以及所有所述指定字段分别对应在所述指定票据模板中的第二坐标信息，构建所述待分类票据与所述指定票据模板之间的变换矩阵；

根据所述待分类票据与所述指定票据模板之间的变换矩阵的构建过程，构建所述待分类票据与所述票据模板数据库中的所有票据模板分别对应的变换矩阵；

通过所有票据模板分别对应的变换矩阵分别对所述待分类票据字段的坐标信息进行透射变换，一一对应得到所述待分类票据对应各票据模板的变换后坐标信息；

根据各所述变换后坐标信息与所述指定票据模板中字段的坐标信息，分别计算所述待分类票据与各所述票据模板的匹配得分；

将匹配得分最小值对应的票据模板，作为所述待分类票据对应的分类模板。

本申请还提供了一种票据分类的装置，包括：

第一获取模块，用于获取待分类票据的字段信息，其中，所述字段信息包括字段的字符内容和字段的坐标信息；

确定模块，用于根据所述字段的字符内容确定所述待分类票据与指定票据模板中相同的指定字段，其中，所述指定票据模板为票据模板数据库中的任意一个票据模板，所述指定字段为所述指定票据模板中的任一字段；

第一构建模块，用于根据所有所述指定字段分别对应在所述待分类票据中的第一坐标信息，以及所有所述指定字段分别对应在所述指定票据模板中的第二坐标信息，构建所述待分类票据与所述指定票据模板之间的变换矩阵；

第二构建模块，用于根据所述待分类票据与所述指定票据模板之间的变换矩阵的构建过程，构建所述待分类票据与所述票据模板数据库中的所有票据模板分别对应的变换矩阵；

透射变换模块，用于通过所有票据模板分别对应的变换矩阵分别对所述待分类票据字段的坐标信息进行透射变换，一一对应得到所述待分类票据对应各票据模板的变换后坐标信息；

计算模块，用于根据各所述变换后坐标信息与所述指定票据模板中字段的坐标信息，分别计算所述待分类票据与各所述票据模板的匹配得分；

第一作为模块，用于将匹配得分最小值对应的票据模板，作为所述待分类票据对应的分类模板。

本申请还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现一种票据分类的方法，所述方法包括：

本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现一种票据分类的方法，所述方法包括：

有益效果

本申请通过待分类票据中字段的坐标信息，以及票据模板中相应字段的坐标信息，构建待分类票据与票据模板之间的变换矩阵，并通过变换矩阵进行透射变换，得到待分类票据经过透射变换后的坐标信息，根据变换后坐标信息与票据模板中字段的坐标信息，计算待分类票据与票据模板的匹配得分，避免了分类模型的训练，达到了快速高效的票据分类。

附图说明

图1本申请一实施例的票据分类的方法流程示意图；

图2本申请一实施例的票据分类的系统流程示意图；

图3本申请一实施例的计算机设备内部结构示意图。

本发明的最佳实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，本申请一实施例的票据分类的方法，包括：

S1：获取待分类票据的字段信息，其中，所述字段信息包括字段的字符内容和字段的坐标信息；

S2：根据所述字段的字符内容确定所述待分类票据与指定票据模板中相同的指定字段，其中，所述指定票据模板为票据模板数据库中的任意一个票据模板，所述指定字段为所述指定票据模板中的任一字段；

S3：根据所有所述指定字段分别对应在所述待分类票据中的第一坐标信息，以及所有所述指定字段分别对应在所述指定票据模板中的第二坐标信息，构建所述待分类票据与所述指定票据模板之间的变换矩阵；

S4：根据所述待分类票据与所述指定票据模板之间的变换矩阵的构建过程，构建所述待分类票据与所述票据模板数据库中的所有票据模板分别对应的变换矩阵；

S5：通过所有票据模板分别对应的变换矩阵分别对所述待分类票据字段的坐标信息进行透射变换，一一对应得到所述待分类票据对应各票据模板的变换后坐标信息；

S6：根据各所述变换后坐标信息与所述指定票据模板中字段的坐标信息，分别计算所述待分类票据与各所述票据模板的匹配得分；

S7：将匹配得分最小值对应的票据模板，作为所述待分类票据对应的分类模板。

本申请实施例中，通过字段检测模型以及字段识别模型获取票据的字段信息，字段检测模型是基于卷积神经网络CNN(Convolutional Neural Networks，卷积神经网络)的像素级分割的检测模型，对输入票据图片的像素进行分类，区分出票据中的文字区域和背景区域，然后再通过连通域分析聚合得到字段对应的文本框，进而确定该字段处于票据中的坐标信息。字段识别模型基于CNN+CTC(Connectionist Temporal Classification，连接时序分类)的模型，根据输入的票据图片预测字段的文字序列，再基于CTC解码规则得到字段的字符串，进而识别得到字段的字符内容。

本申请实施例的票据模板，由图片清晰、打印标准、背景干扰少、图片角度端正的不同类版式的财务票据形成，每类版式只需选定一张作为票据模板进行参考字段的框选和标注。上述参考字段包括凸显版式的标志字段，比如票据名称等与其他票据中具有不同字符内容的字段。在框选和标注上述参考字段时，尽可能选择分散分布的标志字段进行标准，提高匹配精准度。上述框选和标注过程指框选标志字段对应的文本框，标注文本框对应的坐标信息。

本申请实施例通过将待分类票据的字段信息与模板中的参考字段的字段信息进行匹配，并计算匹配得分对待分类票据进行有效分类，匹配得分为匹配误差与完全匹配字段数量的比值，匹配得分最小时对应的模板票据即为待分类票据对应的票据版式或类型。本申请为提高匹配精准度，避免票据尺寸差异等因素影响匹配效果，对字段的坐标信息进行了透射变换，将二维数据变换成三维的空间展示数据，并进行全景拼接，提高匹配的精准度。每一个票据模板对应一个变换矩阵。本申请的坐标信息可通过以端正放置的票据的左上角为坐标原点，票据的一条边为x轴，相邻的另一条边为y轴形成坐标系，以标识票据中各字段的文本框的坐标位置。举例地，透视变换前一字段的坐标信息表示为(x,y),变换中该字段的三维坐标信息表示为(X,Y,Z),该字段变换后的坐标信息表示为(x`,y`)。根据变换前后的坐标信息构建线性方程X＝m11x+m12y+m13、Y＝m21x+m22y+m23以及Z＝m31x+m32y+m33。本申请为提高计算精准度，预先标注四组映射点的对应关系，形成12个线性方程，并通过最小二乘法估算求解出12个线性方程组成的线性方程组的变量，其中m11,m12,m13,m21,m22,m23,m31,m32,m33分别为线性方程组的变量，以近似确定出m11,m12,m13,m21,m22,m23,m31,m32,m33的取值，得到变换矩阵，然后再适用于除上述预先标注四组映射点之外的点坐标的变换映射。上述预先标注四组映射点变换前后的坐标信息为已知的，比如为变换前后方形票据的四个顶角点的坐标值。上述变换矩阵表示为(m11,m12,m13,m21,m22,m23,m31,m32,m33)。即

假设除上述预先标注四组映射点之外的点，在变换之前的z值为1，表示为(x,y,1)，即在二维平面上的投影是(x,y)，通过变换矩阵变换成三维空间中的点(X,Y,Z)，再通过除以三维空间中Z轴的值，变换后转换成二维平面中的点(x`,y`)，即

然后通过估算变换后的该字段的坐标信息c`与票据模板中的字段坐标信息c之间的匹配误差，进而计算出匹配得分。

本申请通过待分类票据中字段的坐标信息，以及票据模板中相应字段的坐标信息，构建待分类票据与票据模板之间的变换矩阵，并通过变换矩阵进行透射变换，得到待分类票据经过透射变换后的坐标信息，根据变换后坐标信息与票据模板中字段的坐标信息，计算待分类票据与票据模板的匹配得分，避免了分类模型的训练，达到了快速高效的票据分类，相比于之前基于分类模型进行票据分类，本申请不需要提供大量的每一版式类型的票据图片用于模型训练，只需根据公式计算待分类票据与每张票据模板之间的匹配得分即可实现分类，更方便快捷。而且可扩展性强，当新增票据模版时，只需再计算待分类票据与新增票据模版间的匹配得分即可，方便移动端部署，并提高工作效率。

进一步地，所述根据各所述变换后坐标信息与所述指定票据模板中字段的坐标信息，分别计算所述待分类票据与各所述票据模板的匹配得分的步骤S6，包括：

S61：获取所述指定票据模板对应的图片尺寸；

S62：根据所述指定票据模板对应的图片尺寸、所述待分类票据对应于所述指定票据模板的变换后坐标信息，以及指定票据模板中字段的坐标信息，计算所述待分类票据与所述指定票据模板的匹配误差；

S63：统计所述待分类票据与所述指定票据模板中相同字段的数量；

S64：根据所述匹配误差以及相同字段的数量，计算所述待分类票据与所述指定票据模板的匹配得分；

S65：根据所述待分类票据与所述指定票据模板的匹配得分的计算方式，分别计算所述待分类票据与各所述票据模板的匹配得分。

本申请实施例中，计算匹配得分时先计算匹配误差，并依据票据模板的图片尺寸、待分类票据与所述指定票据模板中相同字段的数量，综合计算匹配得分，使匹配得分的大小更能显示待分类票据与票据模板的类型一致的评价精准性，且为减少计算量提高计算精度，采用票据模板中尽量多的分散分布的标志字段参与计算。

进一步地，根据所述指定票据模板对应的图片尺寸、所述待分类票据对应于所述指定票据模板的变换后坐标信息，以及指定票据模板中字段的坐标信息，计算所述待分类票据与所述指定票据模板的匹配误差的步骤S62，包括：

S621：将所述指定票据模板对应的图片尺寸、所述待分类票据对应于所述指定票据模板的变换后坐标信息，以及所述待分类票据中字段的坐标信息，输入第一计算公式，其中，所述第一计算公式为error＝|c-c`|/min(w,h),error表示匹配误差，(w,h)为所述指定票据模板对应的图片尺寸，w表示图片宽度，h表示图片高度，c表示所述指定票据模板中字段的坐标信息，c`表示所述待分类票据对应于所述指定票据模板的变换后坐标信息；

S622：运行所述第一计算公式，输出所述待分类票据与所述指定票据模板的匹配误差。

进一步地，所述根据所述匹配误差以及相同字段的数量，计算所述待分类票据与所述指定票据模板的匹配得分的步骤S64，包括：

S641：将所述匹配误差以及相同字段的数量，输入第二计算公式，其中，所述第二计算公式为score＝error/loge(matched_num)，score表示匹配得分，matched_num表示相同字段的数量；

S642：运行所述第二计算公式，输出所述待分类票据与所述指定票据模板的匹配得分。

进一步地，所述运行所述第二计算公式，输出所述待分类票据与所述指定票据模板的匹配得分的步骤S642之后，包括：

S643：将所述匹配得分输入第三计算公式，其中，所述第三计算公式为confidence＝softmax(-score*200)，confidence表示置信度得分；

S644：运行所述第三计算公式，输出所述待分类票据与所述指定票据模板的匹配得分的置信度得分。

本申请在计算匹配得分后，根据该匹配得分计算出一个取值在0至100之间的置信度得分。选取匹配得分最小的票据模版作为该待分类票据最终的分类模版，同时返回相应的置信度得分。例如：待分类票据I与两张不同的票据模版的图片T1、T2之间，匹配得分分别为：score1和score2，且score1<score2，置信度得分分别为：confidence1和confidence2，则T1为待分类票据对应的分类模版，置信度得分为confidence1,本申请的置信度得分在90以上。

进一步地，所述获取待分类票据的字段信息的步骤S1之前，包括：

S11：获取各类型票据分别对应的预选定样本；

S12：将各所述预选定样本输入字段检测识别模型中，检测各所述预选定样本分别对应的字段集合；

S13：判断各所述字段集合中的字段重复度，是否大于或等于预设重复度阈值；

S14：若是，则删除各所述字段集合中的重复字段，至各所述字段集合中的字段重复度小于所述预设重复度阈值；

S15：将各所述字段集合中的剩余字段，作为待标注字段；

S16：将各所述字段集合中的待标注字段，按照预设规则对应标注在各所述预选定样本上，形成票据模板存储于所述票据模板数据库中。

本申请在制作票据模板的过程中，每个票据模板上选定的标志字段的数量为8个以上，且筛选字符不同的差异化字段作为待标注字段，即标志字段。每个票据模板中所有识别到的字段形成字段集合，然后将所有票据模板分别对应的字段集合进行综合分析，计算票据模板分别对应的字段集合中字段的重复度。举例地，通过字符串比对，保证每个票据模版的字段与其他票据模版的字段，重复度不超过50％，比如待标注的字段为8个，则至少其中4个或4个以上的字段是该票据模版中的特有字段。且在字段识别过程中，排除携带各种符号、印章、图标等的字段，以提高字段比对精准度。

进一步地，所述字段集合包括字段的字符内容以及字段的坐标信息，所述将各所述字段集合中的待标注字段，按照预设规则对应标注在各所述预选定样本上，形成票据模板存储于所述票据模板数据库中的步骤S16，包括：

S161：获取指定字段集合对应的指定预选定样本；

S162：根据字段的坐标信息，判断所述指定预选定样本的预设数量的均分区域中，是否至少包含一个所述指定字段集合中对应的待标注字段；

S163：若是，则将所述待标注字段标注在所述指定预选定样本上，形成所述指定预选定样本对应的票据模板；

S164：根据所述指定预选定样本的标注方式，分别标注各所述预选定样本，形成各所述预选定样本分别对应的票据模板；

S165：将各所述预选定样本分别对应的票据模板存储于所述票据模板数据库中。

本申请在筛选每个票据模板对应的标志字段时，可先根据重复度的要求将多次重复的字段从字段集合中删除，预留满足重复度要求的字段，然后再根据保留下的待标注字段在每张票据模版中分散位置信息进行再次筛选，以实现分散化标注。上述预设数量的均分区域不作具体限定，举例地，本申请根据每张票据模版的宽和高，将票据模板的页面均分为四块区域，根据待标注字段的文本框所处的坐标位置与每一块区域的坐标信息，确保页面中每一分块区域内至少包含一个待标注字段的文本框。上述四块区域包括以中心点为相互垂直的两条分界线的交点，通过两条分界点划分得到的四个区域，也包括通过三条平行的分界线，划分得到的四个均分区域。

参照图2，本申请一实施例的票据分类的装置，包括：

第一获取模块1，用于获取待分类票据的字段信息，其中，所述字段信息包括字段的字符内容和字段的坐标信息；

确定模块2，用于根据所述字段的字符内容确定所述待分类票据与指定票据模板中相同的指定字段，其中，所述指定票据模板为票据模板数据库中的任意一个票据模板，所述指定字段为所述指定票据模板中的任一字段；

第一构建模块3，用于根据所有所述指定字段分别对应在所述待分类票据中的第一坐标信息，以及所有所述指定字段分别对应在所述指定票据模板中的第二坐标信息，构建所述待分类票据与所述指定票据模板之间的变换矩阵；

第二构建模块4，用于根据所述待分类票据与所述指定票据模板之间的变换矩阵的构建过程，构建所述待分类票据与所述票据模板数据库中的所有票据模板分别对应的变换矩阵；

透射变换模块5，用于通过所有票据模板分别对应的变换矩阵分别对所述待分类票据字段的坐标信息进行透射变换，一一对应得到所述待分类票据对应各票据模板的变换后坐标信息；

计算模块6，用于根据各所述变换后坐标信息与所述指定票据模板中字段的坐标信息，分别计算所述待分类票据与各所述票据模板的匹配得分；

第一作为模块7，用于将匹配得分最小值对应的票据模板，作为所述待分类票据对应的分类模板。

本申请装置部分的实施例解释，同方法部分，不赘述。

进一步地，计算模块6，包括：

第一获取单元，用于获取所述指定票据模板对应的图片尺寸；

第一计算单元，用于根据所述指定票据模板对应的图片尺寸、所述待分类票据对应于所述指定票据模板的变换后坐标信息，以及指定票据模板中字段的坐标信息，计算所述待分类票据与所述指定票据模板的匹配误差；

统计单元，用于统计所述待分类票据与所述指定票据模板中相同字段的数量；

第二计算单元，用于根据所述匹配误差以及相同字段的数量，计算所述待分类票据与所述指定票据模板的匹配得分；

第三计算单元，用于根据所述待分类票据与所述指定票据模板的匹配得分的计算方式，分别计算所述待分类票据与各所述票据模板的匹配得分。

进一步地，第一计算单元，包括：

第一输入子单元，用于将所述指定票据模板对应的图片尺寸、所述待分类票据对应于所述指定票据模板的变换后坐标信息，以及所述待分类票据中字段的坐标信息，输入第一计算公式，其中，所述第一计算公式为error＝|c-c`|/min(w,h),error表示匹配误差，(w,h)为所述指定票据模板对应的图片尺寸，w表示图片宽度，h表示图片高度，c表示所述指定票据模板中字段的坐标信息，c`表示所述待分类票据对应于所述指定票据模板的变换后坐标信息；

第一运行子单元，用于运行所述第一计算公式，输出所述待分类票据与所述指定票据模板的匹配误差。

进一步地，第二计算单元，包括：

第二输入子单元，用于将所述匹配误差以及相同字段的数量，输入第二计算公式，其中，所述第二计算公式为score＝error/loge(matched_num)，score表示匹配得分，matched_num表示相同字段的数量；

第二运行子单元，用于运行所述第二计算公式，输出所述待分类票据与所述指定票据模板的匹配得分。

进一步地，第二计算单元包括：

第三输入子单元，用于将所述匹配得分输入第三计算公式，其中，所述第三计算公式为confidence＝softmax(-score*200)，confidence表示置信度得分；

第三运行子单元，用于运行所述第三计算公式，输出所述待分类票据与所述指定票据模板的匹配得分的置信度得分。

进一步地，票据分类的装置，包括：

第二获取模块，用于获取各类型票据分别对应的预选定样本；

检测模块，用于将各所述预选定样本输入字段检测识别模型中，检测各所述预选定样本分别对应的字段集合；

判断模块，用于判断各所述字段集合中的字段重复度，是否大于或等于预设重复度阈值；

删除模块，用于若大于或等于预设重复度阈值，则删除各所述字段集合中的重复字段，至各所述字段集合中的字段重复度小于所述预设重复度阈值；

第二作为模块，用于将各所述字段集合中的剩余字段，作为待标注字段；

形成模块，用于将各所述字段集合中的待标注字段，按照预设规则对应标注在各所述预选定样本上，形成票据模板存储于所述票据模板数据库中。

进一步地，所述字段集合包括字段的字符内容以及字段的坐标信息，形成模块，包括：

第二获取单元，用于获取指定字段集合对应的指定预选定样本；

判断单元，用于根据字段的坐标信息，判断所述指定预选定样本的预设数量的均分区域中，是否至少包含一个所述指定字段集合中对应的待标注字段；

第一标注单元，用于若至少包含一个所述指定字段集合中对应的待标注字段，则将所述待标注字段标注在所述指定预选定样本上，形成所述指定预选定样本对应的票据模板；

第二标注单元，用于根据所述指定预选定样本的标注方式，分别标注各所述预选定样本，形成各所述预选定样本分别对应的票据模板；

存储单元，用于将各所述预选定样本分别对应的票据模板存储于所述票据模板数据库中。

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储票据分类的过程需要的所有数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现上述任一实施例中的票据分类的方法。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请一实施例还提供一种计算机可读存储介质，可以是非易失性，也可以是易失性，其上存储有计算机程序，计算机程序被处理器执行时实现上述任一实施例中的票据分类的方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，上述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

一种票据分类的方法，其中，包括：

获取待分类票据的字段信息，其中，所述字段信息包括字段的字符内容和字段的坐标信息；

根据所述字段的字符内容确定所述待分类票据与指定票据模板中相同的指定字段，其中，所述指定票据模板为票据模板数据库中的任意一个票据模板，所述指定字段为所述指定票据模板中的任一字段；

根据所有所述指定字段分别对应在所述待分类票据中的第一坐标信息，以及所有所述指定字段分别对应在所述指定票据模板中的第二坐标信息，构建所述待分类票据与所述指定票据模板之间的变换矩阵；

根据所述待分类票据与所述指定票据模板之间的变换矩阵的构建过程，构建所述待分类票据与所述票据模板数据库中的所有票据模板分别对应的变换矩阵；

通过所有票据模板分别对应的变换矩阵分别对所述待分类票据字段的坐标信息进行透射变换，一一对应得到所述待分类票据对应各票据模板的变换后坐标信息；

根据各所述变换后坐标信息与所述指定票据模板中字段的坐标信息，分别计算所述待分类票据与各所述票据模板的匹配得分；

将匹配得分最小值对应的票据模板，作为所述待分类票据对应的分类模板。
根据权利要求1所述的票据分类的方法，其中，所述根据各所述变换后坐标信息与所述指定票据模板中字段的坐标信息，分别计算所述待分类票据与各所述票据模板的匹配得分的步骤，包括：

获取所述指定票据模板对应的图片尺寸；

根据所述指定票据模板对应的图片尺寸、所述待分类票据对应于所述指定票据模板的变换后坐标信息，以及指定票据模板中字段的坐标信息，计算所述待分类票据与所述指定票据模板的匹配误差；

统计所述待分类票据与所述指定票据模板中相同字段的数量；

根据所述匹配误差以及相同字段的数量，计算所述待分类票据与所述指定票据模板的匹配得分；

根据所述待分类票据与所述指定票据模板的匹配得分的计算方式，分别计算所述待分类票据与各所述票据模板的匹配得分。
根据权利要求2所述的票据分类的方法，其中，所述根据所述指定票据模板对应的图片尺寸、所述待分类票据对应于所述指定票据模板的变换后坐标信息，以及指定票据模板中字段的坐标信息，计算所述待分类票据与所述指定票据模板的匹配误差的步骤，包括：

将所述指定票据模板对应的图片尺寸、所述待分类票据对应于所述指定票据模板的变换后坐标信息，以及所述待分类票据中字段的坐标信息，输入第一计算公式，其中，所述第一计算公式为error＝|c-c`|/min(w,h),error表示匹配误差，(w,h)为所述指定票据模板对应的图片尺寸，w表示图片宽度，h表示图片高度，c表示所述指定票据模板中字段的坐标信息，c`表示所述待分类票据对应于所述指定票据模板的变换后坐标信息；

运行所述第一计算公式，输出所述待分类票据与所述指定票据模板的匹配误差。
根据权利要求2所述的票据分类的方法，其中，所述根据所述匹配误差以及相同字段的数量，计算所述待分类票据与所述指定票据模板的匹配得分的步骤，包括：

将所述匹配误差以及相同字段的数量，输入第二计算公式，其中，所述第二计算公式为score＝error/loge(matched_num)，score表示匹配得分，matched_num表示相同字段的数量；

运行所述第二计算公式，输出所述待分类票据与所述指定票据模板的匹配得分。
根据权利要求4所述的票据分类的方法，其中，所述运行所述第二计算公式，输出所述待分类票据与所述指定票据模板的匹配得分的步骤之后，包括：

将所述匹配得分输入第三计算公式，其中，所述第三计算公式为confidence＝softmax(-score*200)，confidence表示置信度得分；

运行所述第三计算公式，输出所述待分类票据与所述指定票据模板的匹配得分的置信度得分。
根据权利要求1所述的票据分类的方法，其中，所述获取待分类票据的字段信息的步骤之前，包括：

获取各类型票据分别对应的预选定样本；

将各所述预选定样本输入字段检测识别模型中，检测各所述预选定样本分别对应的字段集合；

判断各所述字段集合中的字段重复度，是否大于或等于预设重复度阈值；

若是，则删除各所述字段集合中的重复字段，至各所述字段集合中的字段重复度小于所述预设重复度阈值；

将各所述字段集合中的剩余字段，作为待标注字段；

将各所述字段集合中的待标注字段，按照预设规则对应标注在各所述预选定样本上，形成票据模板存储于所述票据模板数据库中。
根据权利要求6所述的票据分类的方法，其中，所述字段集合包括字段的字符内容以及字段的坐标信息，所述将各所述字段集合中的待标注字段，按照预设规则对应标注在各所述预选定样本上，形成票据模板存储于所述票据模板数据库中的步骤，包括：

获取指定字段集合对应的指定预选定样本；

根据字段的坐标信息，判断所述指定预选定样本的预设数量的均分区域中，是否至少包含一个所述指定字段集合中对应的待标注字段；

若是，则将所述待标注字段标注在所述指定预选定样本上，形成所述指定预选定样本对应的票据模板；

根据所述指定预选定样本的标注方式，分别标注各所述预选定样本，形成各所述预选定样本分别对应的票据模板；

将各所述预选定样本分别对应的票据模板存储于所述票据模板数据库中。
一种票据分类的装置，其中，包括：

第一获取模块，用于获取待分类票据的字段信息，其中，所述字段信息包括字段的字符内容和字段的坐标信息；

确定模块，用于根据所述字段的字符内容确定所述待分类票据与指定票据模板中相同的指定字段，其中，所述指定票据模板为票据模板数据库中的任意一个票据模板，所述指定字段为所述指定票据模板中的任一字段；

第一构建模块，用于根据所有所述指定字段分别对应在所述待分类票据中的第一坐标信息，以及所有所述指定字段分别对应在所述指定票据模板中的第二坐标信息，构建所述待分类票据与所述指定票据模板之间的变换矩阵；

第二构建模块，用于根据所述待分类票据与所述指定票据模板之间的变换矩阵的构建过程，构建所述待分类票据与所述票据模板数据库中的所有票据模板分别对应的变换矩阵；

透射变换模块，用于通过所有票据模板分别对应的变换矩阵分别对所述待分类票据字段的坐标信息进行透射变换，一一对应得到所述待分类票据对应各票据模板的变换后坐标信息；

计算模块，用于根据各所述变换后坐标信息与所述指定票据模板中字段的坐标信息，分别计算所述待分类票据与各所述票据模板的匹配得分；

第一作为模块，用于将匹配得分最小值对应的票据模板，作为所述待分类票据对应的分类模板。
一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其中，所述处理器执行所述计算机程序时实现一种票据分类的方法，所述方法包括：

获取待分类票据的字段信息，其中，所述字段信息包括字段的字符内容和字段的坐标信息；

根据所述字段的字符内容确定所述待分类票据与指定票据模板中相同的指定字段，其中，所述指定票据模板为票据模板数据库中的任意一个票据模板，所述指定字段为所述指定票据模板中的任一字段；

根据所有所述指定字段分别对应在所述待分类票据中的第一坐标信息，以及所有所述指定字段分别对应在所述指定票据模板中的第二坐标信息，构建所述待分类票据与所述指定票据模板之间的变换矩阵；

根据所述待分类票据与所述指定票据模板之间的变换矩阵的构建过程，构建所述待分类票据与所述票据模板数据库中的所有票据模板分别对应的变换矩阵；

通过所有票据模板分别对应的变换矩阵分别对所述待分类票据字段的坐标信息进行透射变换，一一对应得到所述待分类票据对应各票据模板的变换后坐标信息；

根据各所述变换后坐标信息与所述指定票据模板中字段的坐标信息，分别计算所述待分类票据与各所述票据模板的匹配得分；

将匹配得分最小值对应的票据模板，作为所述待分类票据对应的分类模板。
根据权利要求9所述的计算机设备，其中，所述根据各所述变换后坐标信息与所述指定票据模板中字段的坐标信息，分别计算所述待分类票据与各所述票据模板的匹配得分的步骤，包括：

获取所述指定票据模板对应的图片尺寸；

根据所述指定票据模板对应的图片尺寸、所述待分类票据对应于所述指定票据模板的变换后坐标信息，以及指定票据模板中字段的坐标信息，计算所述待分类票据与所述指定票据模板的匹配误差；

统计所述待分类票据与所述指定票据模板中相同字段的数量；

根据所述匹配误差以及相同字段的数量，计算所述待分类票据与所述指定票据模板的匹配得分；

根据所述待分类票据与所述指定票据模板的匹配得分的计算方式，分别计算所述待分类票据与各所述票据模板的匹配得分。
根据权利要求10所述的计算机设备，其中，所述根据所述指定票据模板对应的图片尺寸、所述待分类票据对应于所述指定票据模板的变换后坐标信息，以及指定票据模板中字段的坐标信息，计算所述待分类票据与所述指定票据模板的匹配误差的步骤，包括：

将所述指定票据模板对应的图片尺寸、所述待分类票据对应于所述指定票据模板的变换后坐标信息，以及所述待分类票据中字段的坐标信息，输入第一计算公式，其中，所述第一计算公式为error＝|c-c`|/min(w,h),error表示匹配误差，(w,h)为所述指定票据模板对应的图片尺寸，w表示图片宽度，h表示图片高度，c表示所述指定票据模板中字段的坐标信息，c`表示所述待分类票据对应于所述指定票据模板的变换后坐标信息；

运行所述第一计算公式，输出所述待分类票据与所述指定票据模板的匹配误差。
根据权利要求10所述的计算机设备，其中，所述根据所述匹配误差以及相同字段的数量，计算所述待分类票据与所述指定票据模板的匹配得分的步骤，包括：

将所述匹配误差以及相同字段的数量，输入第二计算公式，其中，所述第二计算公式为score＝error/loge(matched_num)，score表示匹配得分，matched_num表示相同字段的数量；

运行所述第二计算公式，输出所述待分类票据与所述指定票据模板的匹配得分。
根据权利要求12所述的计算机设备，其中，所述运行所述第二计算公式，输出所述待分类票据与所述指定票据模板的匹配得分的步骤之后，包括：

将所述匹配得分输入第三计算公式，其中，所述第三计算公式为confidence＝softmax(-score*200)，confidence表示置信度得分；

运行所述第三计算公式，输出所述待分类票据与所述指定票据模板的匹配得分的置信度得分。
根据权利要求9所述的计算机设备，其中，所述获取待分类票据的字段信息的步骤之前，包括：

获取各类型票据分别对应的预选定样本；

将各所述预选定样本输入字段检测识别模型中，检测各所述预选定样本分别对应的字段集合；

判断各所述字段集合中的字段重复度，是否大于或等于预设重复度阈值；

若是，则删除各所述字段集合中的重复字段，至各所述字段集合中的字段重复度小于所述预设重复度阈值；

将各所述字段集合中的剩余字段，作为待标注字段；

将各所述字段集合中的待标注字段，按照预设规则对应标注在各所述预选定样本上，形成票据模板存储于所述票据模板数据库中。
一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现一种票据分类的方法，所述包括：

获取待分类票据的字段信息，其中，所述字段信息包括字段的字符内容和字段的坐标信息；

根据所述字段的字符内容确定所述待分类票据与指定票据模板中相同的指定字段，其中，所述指定票据模板为票据模板数据库中的任意一个票据模板，所述指定字段为所述指定票据模板中的任一字段；

根据所有所述指定字段分别对应在所述待分类票据中的第一坐标信息，以及所有所述指定字段分别对应在所述指定票据模板中的第二坐标信息，构建所述待分类票据与所述指定票据模板之间的变换矩阵；

根据所述待分类票据与所述指定票据模板之间的变换矩阵的构建过程，构建所述待分类票据与所述票据模板数据库中的所有票据模板分别对应的变换矩阵；

通过所有票据模板分别对应的变换矩阵分别对所述待分类票据字段的坐标信息进行透射变换，一一对应得到所述待分类票据对应各票据模板的变换后坐标信息；

根据各所述变换后坐标信息与所述指定票据模板中字段的坐标信息，分别计算所述待分类票据与各所述票据模板的匹配得分；

将匹配得分最小值对应的票据模板，作为所述待分类票据对应的分类模板。
根据权利要求15所述的计算机可读存储介质，其中，所述根据各所述变换后坐标信息与所述指定票据模板中字段的坐标信息，分别计算所述待分类票据与各所述票据模板的匹配得分的步骤，包括：

获取所述指定票据模板对应的图片尺寸；

根据所述指定票据模板对应的图片尺寸、所述待分类票据对应于所述指定票据模板的变换后坐标信息，以及指定票据模板中字段的坐标信息，计算所述待分类票据与所述指定票据模板的匹配误差；

统计所述待分类票据与所述指定票据模板中相同字段的数量；

根据所述匹配误差以及相同字段的数量，计算所述待分类票据与所述指定票据模板的匹配得分；

根据所述待分类票据与所述指定票据模板的匹配得分的计算方式，分别计算所述待分类票据与各所述票据模板的匹配得分。
根据权利要求16所述的计算机可读存储介质，其中，所述根据所述指定票据模板对应的图片尺寸、所述待分类票据对应于所述指定票据模板的变换后坐标信息，以及指定票据模板中字段的坐标信息，计算所述待分类票据与所述指定票据模板的匹配误差的步骤，包括：

将所述指定票据模板对应的图片尺寸、所述待分类票据对应于所述指定票据模板的变换后坐标信息，以及所述待分类票据中字段的坐标信息，输入第一计算公式，其中，所述第一计算公式为error＝|c-c`|/min(w,h),error表示匹配误差，(w,h)为所述指定票据模板对应的图片尺寸，w表示图片宽度，h表示图片高度，c表示所述指定票据模板中字段的坐标信息，c`表示所述待分类票据对应于所述指定票据模板的变换后坐标信息；

运行所述第一计算公式，输出所述待分类票据与所述指定票据模板的匹配误差。
根据权利要求16所述的计算机可读存储介质，其中，所述根据所述匹配误差以及相同字段的数量，计算所述待分类票据与所述指定票据模板的匹配得分的步骤，包括：

将所述匹配误差以及相同字段的数量，输入第二计算公式，其中，所述第二计算公式为score＝error/loge(matched_num)，score表示匹配得分，matched_num表示相同字段的数量；

运行所述第二计算公式，输出所述待分类票据与所述指定票据模板的匹配得分。
根据权利要求18所述的计算机可读存储介质，其中，所述运行所述第二计算公式，输出所述待分类票据与所述指定票据模板的匹配得分的步骤之后，包括：

将所述匹配得分输入第三计算公式，其中，所述第三计算公式为confidence＝softmax(-score*200)，confidence表示置信度得分；

运行所述第三计算公式，输出所述待分类票据与所述指定票据模板的匹配得分的置信度得分。
根据权利要求15所述的计算机可读存储介质，其中，所述获取待分类票据的字段信息的步骤之前，包括：

获取各类型票据分别对应的预选定样本；

将各所述预选定样本输入字段检测识别模型中，检测各所述预选定样本分别对应的字段集合；

判断各所述字段集合中的字段重复度，是否大于或等于预设重复度阈值；

若是，则删除各所述字段集合中的重复字段，至各所述字段集合中的字段重复度小于所述预设重复度阈值；

将各所述字段集合中的剩余字段，作为待标注字段；

将各所述字段集合中的待标注字段，按照预设规则对应标注在各所述预选定样本上，形成票据模板存储于所述票据模板数据库中。