WO2022006829A1

WO2022006829A1 - 一种票据图像识别方法、系统、电子设备和存储介质

Info

Publication number: WO2022006829A1
Application number: PCT/CN2020/101168
Authority: WO
Inventors: 杨东伟; 王栋; 郑开发; 李宏伟; 汪洋; 王彬栩; 高明; 段军红; 袁宝
Original assignee: 国网电子商务有限公司; 国网区块链科技(北京)有限公司; 国网金融科技集团有限公司
Priority date: 2020-07-09
Filing date: 2020-07-09
Publication date: 2022-01-13

Abstract

本申请实施例公开了一种票据图像识别方法、系统、电子设备和存储介质。所述方法包括：获得票据图像；检测所述票据图像中的文本串，确定文本串在所述票据图像中的位置信息；基于所述位置信息获得对应于所述文本串的第一图像，对所述第一图像进行特征提取，获得所述文本串的特征，基于所述文本串的特征确定所述文本串对应的文字。

Description

一种票据图像识别方法、系统、电子设备和存储介质

技术领域

本申请涉及图像识别技术，具体涉及一种票据图像识别方法、系统、电子设备和存储介质。

背景技术

目前，票据图像的识别主要采用以下两种方式：一是采用传统模板匹配方式，二是采用全版面分析方式。采用传统模板匹配方式是基于票据模板识别票据图像的类型，一旦票据模板需要调整或者新增，则需要人工绘制票据模板。采用全版面分析方式，由于文本检测与图形形式的目标检测不同，文本线是一个序列，不同于目标检测中的独立的目标，同一文本线上不同字符可能差异大，距离远，作为整体检测出的难度要高于独立目标，因此采用常规的目标检测框架得不到较好的检测效果。

发明内容

为解决现有存在的技术问题，本申请实施例提供一种票据图像识别方法、系统、电子设备和存储介质。

为达到上述目的，本申请实施例的技术方案是这样实现的：

本申请实施例提供了一种票据图像识别方法，所述方法包括：

获得票据图像；

检测所述票据图像中的文本串，确定文本串在所述票据图像中的位置信息；

基于所述位置信息获得对应于所述文本串的第一图像，对所述第一图像进行特征提取，获得所述文本串的特征，基于所述文本串的特征确定所述文本串对应的文字。

在本申请的一些可选实施例中，所述检测所述票据图像中的文本串之前，所述方法还包括：

对所述票据图像进行预处理，所述预处理包括以下至少之一：图像校正处理、图像增强处理、图像标注处理；

所述检测所述票据图像中的文本串，包括：检测预处理后的票据图像中的文本串。

在本申请的一些可选实施例中，所述检测所述票据图像中的文本串，确定文本串在所述票据图像中的位置信息，包括：

基于卷积神经网络对所述票据图像进行特征提取，获得特征图；

基于预设尺寸的滑动窗口对所述特征图进行卷积处理，获得所述票据图像中的文字检测区域对应的特征向量；

分别基于循环神经网络和全连接对所述特征向量进行处理，得到文本串的多个预测位置以及每个预测位置对应的文本分类的概率；

采用非极大值抑制算法从所述文本串的预测位置确定所述文本串在所述票据图像中的位置信息。

在本申请的一些可选实施例中，所述基于卷积神经网络对所述票据图像进行特征提取，获得特征图，包括：

基于VGG16网络对所述票据图像进行特征提取，将所述VGG16网络中的第五个卷积块中的第三个卷积层输出的结果作为所述特征图。

在本申请的一些可选实施例中，所述对所述第一图像进行特征提取，获得所述文本串的特征，包括：

将所述第一图像进行格式转换，得到YUV格式的第二图像；

采用ResNet对所述第二图像进行特征提取，获得所述文本串的特征。

本申请实施例还提供了一种票据图像识别系统，所述系统包括：图像获取单元、检测单元和识别单元；其中，

所述图像获取单元，配置为获得票据图像；

所述检测单元，配置为检测所述票据图像中的文本串，确定文本串在所述票据图像中的位置信息；

所述识别单元，配置为基于所述位置信息获得对应于所述文本串的第一图像，对所述第一图像进行特征提取，获得所述文本串的特征，基于所述文本串的特征确定所述文本串对应的文字。

在本申请的一些可选实施例中，所述系统还包括预处理单元，配置为对所述票据图像进行预处理，所述预处理包括以下至少之一：图像校正处理、图像增强处理、图像标注处理；

所述检测单元，配置为检测预处理后的票据图像中的文本串。

在本申请的一些可选实施例中，所述检测单元，配置为基于卷积神经网络对所述票据图像进行特征提取，获得特征图；基于预设尺寸的滑动窗口对所述特征图进行卷积处理，获得所述票据图像中的文字检测区域对应的特征向量；分别基于循环神经网络和全连接对所述特征向量进行处理，得到文本串的多个预测位置以及每个预测位置对应的文本分类的概率；采用非极大值抑制算法从所述文本串的预测位置确定所述文本串在所述票据图像中的位置信息。

在本申请的一些可选实施例中，所述检测单元，配置为基于VGG16网络对所述票据图像进行特征提取，将所述VGG16网络中的第五个卷积块中的第三个卷积层输出的结果作为所述特征图。

在本申请的一些可选实施例中，所述识别单元，配置为将所述第一图像进行格式转换，得到YUV格式的第二图像；采用ResNet对所述第二图像进行特征提取，获得所述文本串的特征。

本申请实施例还提供了一种电子设备，包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器，其中，所述处理器用于运行所述计算机程序时，执行本申请实施例所述票据图像识别方法的步骤。

本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现本申请实施例所述票据图像识别方法的步骤。

本申请实施例提供的票据图像识别方法、系统、电子设备和存储介质，所述方法包括：获得票据图像；检测所述票据图像中的文本串，确定文本串在所述票据图像中的位置信息；基于所述位置信息获得对应于所述文本串的第一图像，对所述第一图像进行特征提取，获得所述文本串的特征，基于所述文本串的特征确定所述文本串对应的文字。采用本申请实施例的技术方案，通过对票据图像中的文本串的位置进行检测，基于检测到的位置对文本串的特征进行提取，从而识别出文本串对应的文字，进而识别出票据图像中的内容，实现了各种票据外形尺寸或者各种类型的票据图像的识别，同时保证了电子数据安全性，保护数据隐私。

附图说明

图1为本申请实施例的票据图像识别方法的流程示意图；

图2为本申请实施例的票据图像识别系统的组成结构示意图；

图3为本申请实施例的电子设备的硬件结构示意图。

具体实施方式

下面结合附图及具体实施例对本申请作进一步详细的说明。

本申请实施例提供了一种票据图像识别方法。图1为本申请实施例的票据图像识别方法的流程示意图；如图1所示，所述方法包括：

步骤101：获得票据图像；

步骤102：检测所述票据图像中的文本串，确定文本串在所述票据图像中的位置信息；

步骤103：基于所述位置信息获得对应于所述文本串的第一图像，对所述第一图像进行特征提取，获得所述文本串的特征，基于所述文本串的特征确定所述文本串对应的文字。

本实施例中，票据图像识别方法可应用于票据图像识别系统中，票据图像识别系统可设置与各种类型的电子设备中，例如，电子设备可以是个人计算机(PC，Personal Computer)、移动设备或服务器中；移动设备可以是手机、平板电脑等移动设备。以下均以电子设备作为执行主体为例进行说明。

本实施例中，票据图像指的是包含有票据的图像。票据可以是指由出票人签发的、约定自己或者委托付款人在见票时或指定的日期向收款人或持票人无条件支付一定金额的有价证券，例如汇票、银行本票、支票等等；或者，票据也可以包括各种有价证券和凭证等，例如发票、车票等等。本实施例中以票据为各种类型的发票为例进行说明。

本实施例中，在一些可选实施例中，电子设备中可设置有图像采集组件，图像采集组件例如摄像头；则电子设备可通过自身的图像采集组件获得票据图像。在另一些可选实施例中，电子设备可通过通信组件获得其他电子设备传输的票据图像；其他电子设备可具有图像采集组件，其他电子设备通过图像采集组件采集票据图像，并通过通信组件传输至电子设备。示例性的，电子设备和其他电子设备之间可通过有线通信或无线通信的方式传输票据图像；无线通信的方式可采用无线保真(Wi-Fi)、蓝牙等无线通信方式，也可采用移动通信网络(例如2G、3G、4G、5G等通信网络)进行无线传输。在又一些可选实施例中，电子设备也可从存储区域中获得已存储的票据图像。

在本申请的一些可选实施例中，所述检测所述票据图像中的文本串之前，所述方法还包括：对所述票据图像进行预处理，所述预处理包括以下至少之一：图像校正处理、图像增强处理、图像标注处理；所述检测所述票据图像中的文本串，包括：检测预处理后的票据图像中的文本串。

本实施例中，预处理过程为可选处理过程，即可针对票据图像执行上述预处理过程，再对预处理后的票据图像中的文本串进行检测，也可不对票据图像执行上述预处理过程，直接对票据图像中的文本串进行检测，本实施例中对此不做限定。

本实施例中，由于票据图像中的票据信息可能出现倾斜的情况，或者票据图像的清晰度有限，为了方便后续对票据图像中的文字进行检测，则针对票据图像中的票据信息出现倾斜的情况，对票据信息进行校正，也即对票据图像进行校正处理；针对票据图像的清晰度不高的情况，则对票据图像进行增强处理。

示例性的，上述对票据图像进行校正处理，可包括：对票据图像进行旋转处理。实际应用中，票据中可具有水平方向和/或垂直方向的线段，则可将线段与票据图像的边缘之间的角度进行比较，以水平方向的线段为例，若水平方向的线段与水平方向的边缘平行，则表明票据图像中的票据信息并未倾斜，无需进行校正处理；若水平方向的线段与水平方向的边缘之间呈现的一定角度，则可表明票据图像中的票据信息倾斜，则可将票据图像旋转上述角度，使的旋转后的票据图像中的水平方向的线段与水平方向的边缘平行。

示例性的，上述对票据图像进行增强处理，可包括以下方式的至少之一：灰度线性变换、直方图均衡变换、同态滤波器等方式，但本实施例中不限于上述图像增强处理方式。

本实施例中，通过检测票据图像中的文本串，确定文本串在票据图像中的位置信息。其中，文本串可以是票据图像中包括的连续的文字或字符串。在一些可选示例中，票据图像中的不同位置可具有表明不同含义的连续的文字，例如发票中，发票的抬头区域写明发票的类型，例如“增值税专用发票”，发票的内容可通过表格的形式体现，表格中的不同区域对应不同的内容，例如可包括“购买方”、“密码区”、“销售方”以及货物的相关信息(包括货物名称、型号、数量、单价、全价等等)。则本实施例中的文本串可以是票据图像中上述不同区域内的、连续的文本串，文本串中可包括文字和/或字符等。

本实施例中，可通过卷积神经网络(CNN，Convolutional Neural Networks)检测票据图像中的文本串，确定文本串在所述票据图像中的位置信息。上述位置信息可通过检测到的文本串所在区域的区域范围表示。示例性的，上述位置信息可通过中心点、宽度和高度表示；其中，中心点表示文本串所在区域的中心点，宽度和高度表示文本串所在区域的宽度和高度，则可通过上述中心点、宽度和高度确定票据图像中的文本串的所在位置。

在本申请的一些可选实施例中，所述检测所述票据图像中的文本串，确定文本串在所述票据图像中的位置信息，包括：基于卷积神经网络对所述票据图像进行特征提取，获得特征图；基于预设尺寸的滑动窗口对所述特征图进行卷积处理，获得所述票据图像中的文字检测区域对应的特征向量；分别基于循环神经网络和全连接对所述特征向量进行处理，得到文本串的多个预测位置以及每个预测位置对应的文本分类的概率；采用非极大值抑制算法从所述文本串的预测位置确定所述文本串在所述票据图像中的位置信息。

在本申请的一些可选实施例中，所述基于卷积神经网络对所述票据图像进行特征提取，获得特征图，包括：基于VGG16网络对所述票据图像进行特征提取，将所述VGG16网络中的第五个卷积块中的第三个卷积层输出的结果作为所述特征图。

本实施例中，可通过卷积神经网络对票据图像进行特征提取，得到特征图；可选地，可通过VGG16网络对票据图像进行特征提取，得到特征图。示例性的，VGG16网络中包括五个块结构，上述第五个卷积块也即VGG16网络中的第五个块结构。第五个块结构中包括多层卷积层，本实施例中将票据图像输入至VGG16网络，经VGG16网络的各个块结构进行处理，将第五个卷积块中的第三个卷积层输出的结果作为所述特征图。

当然，本申请实施例中不限于上述所示，也可以将VGG16网络的输出结果作为特征图，或者将VGG16网络其他块结构的卷积层输出的结果作为特征图，或者也可基于其他卷积神经网络、将其他卷积神经网络的输出结果作为特征图，本实施例中不做限定。

需要说明的是，VGG是一种卷积神经网络模型，根据卷积核大小和卷积层述目的不同分为不同配置，其中的一种配置称为VGG16。

本实施例中，获得特征图后，在特征图上利用预设尺寸的滑动窗口对所述特征图进行卷积处理，获得所述票据图像中的文字检测区域对应的特征向量。示例性的，可利用3×3的卷积核作为滑动窗口对特征图进行卷积处理，得到文字检测区域对应的特征向量。

本实施例中，分别基于循环神经网络和全连接对所述特征向量进行处理，得到文本串的多个预测位置以及每个预测位置对应的文本分类的概率。示例性的，将上述特征向量输入至循环神经网络，再经过全连接层，得到文本串的多个预测位置以及每个预测位置对应的文本分类的概率。可选地，循环神经网络可以是双向的长短期记忆(LSTM，Long Short Term Memory)网络，通过LSTM网络对特征向量进行处理，再经过一个全连接层，得到文本串的多个预测位置以及每个预测位置对应的文本分类的概率。

本实施例中，通过上述方式可得到文本串的多个预测位置，也即文本串的多个预测框，以及每个预测位置对应的文本分类的概率，需要采用非极大值抑制(NMS，Non-Maximum Suppression)算法从多个预测位置中滤除冗余的预测位置，得到文本串的实际的位置信息。示例性的，针对每个文本串的多个预测位置以及每个预测位置对应的文本分类的概率采用非极大值抑制算法得到最佳的位置，从而可基于文本串的位置信息得到文本串的检测框。

在本申请的一些可选实施例中，所述对所述第一图像进行特征提取，获得所述文本串的特征，包括：将所述第一图像进行格式转换，得到YUV格式的第二图像；采用DenseNet对所述第二图像进行特征提取，获得所述文本串的特征。

本实施例中，针对票据图像中的文本串所在的位置的图像进行文字书别，也即从票据图像中分割出文本串的检测框对应的第一图像，对第一图像进行格式转换，得到YUV格式的第二图像。

可以理解，YUV是一种颜色编码方式。参照YUV通道，引入色度通道(UV)作为灰度通道的扩展。当不使用色度通道时，模型退化为原始的深度卷积神经网络。其中“Y”表示亮度(Luminance或Luma)通道，也即灰度通道；而“U”和“V”表示色度(Chrominance或Chroma)通道，作用是描述图像色彩和饱和度，用于确定每个像素的颜色。如果只有Y信号分量而没有U、V分量，则得到的图像就是灰度图像。

本实施例中，得到YUV格式的第二图像后，可将第二图像按照比例缩放至高32像数之后进行文本串的特征提取。可选的，本实施例中采用DenseNet对所述第二图像进行特征提取，获得所述文本串的特征。可以理解，本实施例中针对每一层处理层，均互相连接所有的处理层，即每个处理层会接收该处理层之前的所有层的输出数据作为额外的输入；示例性的，若DenseNet具有L层，则共有L(L+1)/2个连接。可以理解，DenseNet 是一种具有密集连接的网络，每一层的输入数据包括之前所有层的输出数据，实现特征重用，提升效率。

本实施例中，利用色度通道(UV)作为灰度通道的扩展，提升了票据图像中文字的对比度；利用Densenet提取文本串的特征，既减少了网络模型的参数，又提高了模型训练的收敛速度。区别于传统文字识别网络采用RNN完成上下文关联，本实施例中仅应用了CNN+全连接层的方式实现，避免了RNN训练难、参数多的问题。

采用本申请实施例的技术方案，通过对票据图像中的文本串的位置进行检测，基于检测到的位置对文本串的特征进行提取，从而识别出文本串对应的文字，进而识别出票据图像中的内容，实现了各种票据外形尺寸或者各种类型的票据图像的识别，同时保证了电子数据安全性，保护数据隐私。

本申请实施例提供了一种票据图像识别系统。图2为本申请实施例的票据图像识别系统的组成结构示意图；如图2所示，所述系统包括：图像获取单元21、检测单元22和识别单元23；其中，

所述图像获取单元21，配置为获得票据图像；

所述检测单元22，配置为检测所述票据图像中的文本串，确定文本串在所述票据图像中的位置信息；

所述识别单元23，配置为基于所述位置信息获得对应于所述文本串的第一图像，对所述第一图像进行特征提取，获得所述文本串的特征，基于所述文本串的特征确定所述文本串对应的文字。

在本申请的一些可选实施例中，所述系统还包括预处理单元24，配置为对所述票据图像进行预处理，所述预处理包括以下至少之一：图像校正处理、图像增强处理、图像标注处理；

所述检测单元22，配置为检测预处理后的票据图像中的文本串。

在本申请的一些可选实施例中，所述检测单元22，配置为基于卷积神经网络对所述票据图像进行特征提取，获得特征图；基于预设尺寸的滑动窗口对所述特征图进行卷积处理，获得所述票据图像中的文字检测区域对应的特征向量；分别基于循环神经网络和全连接对所述特征向量进行处理，得到文本串的多个预测位置以及每个预测位置对应的文本分类的概率；采用非极大值抑制算法从所述文本串的预测位置确定所述文本串在所述票据图像中的位置信息。

在本申请的一些可选实施例中，所述检测单元22，配置为基于VGG16网络对所述票据图像进行特征提取，将所述VGG16网络中的第五个卷积块中的第三个卷积层输出的结果作为所述特征图。

在本申请的一些可选实施例中，所述识别单元23，配置为将所述第一图像进行格式转换，得到YUV格式的第二图像；采用DenseNet对所述第二图像进行特征提取，获得所述文本串的特征。

本发明实施例中，所述系统中的图像获取单元21、检测单元22和识别单元23和预处理单元24，在实际应用中均可由所述终端中的中央处理器(CPU，Central Processing Unit)、数字信号处理器(DSP，Digital Signal Processor)、微控制单元(MCU，Microcontroller Unit)或可编程门阵列(FPGA，Field－Programmable Gate Array)实现。

需要说明的是：上述实施例提供的票据图像识别系统在进行票据图像识别时，仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述处理分配由不同的程序模块完成，即将系统的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分处理。另外，上述实施例提供的票据图像识别系统与票据图像识别方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本申请实施例还提供了一种电子设备。图3为本申请实施例的电子设备的硬件结构示意图，如图3所示，电子设备包括：处理器31和用于存储能够在处理器31上运行的计算机程序的存储器32，其中，所述处理器31用于运行所述计算机程序时，执行本申请实施例所述票据图像识别方法的步骤。

可以理解，电子设备中的各个组件通过总线系统33耦合在一起。可理解，总线系统33用于实现这些组件之间的连接通信。总线系统33除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图3中将各种总线都标为总线系统33。

可以理解，存储器32可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM，Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM，ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM，Compact Disc Read-Only Memory)；磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM，Random Access Memory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM，Static Random Access Memory)、同步静态随机存取存储器(SSRAM，Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM，Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM，Synchronous Dynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM，Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM，Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM，SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM，Direct Rambus Random Access Memory)。本发明实施例描述的存储器32旨在包括但不限于这些和任意其它适合类型的存储器。

上述本发明实施例揭示的方法可以应用于处理器31中，或者由处理器31实现。处理器31可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器31中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器31可以是通用处理器、DSP，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器31可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤，可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中，该存储介质位于存储器32，处理器31读取存储器32中的信息，结合其硬件完成前述方法的步骤。

在示例性实施例中，电子设备可以被一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、FPGA、通用处理器、控制器、MCU、微处理器(Microprocessor)、或其他电子元件实现，用于执行前述方法。

在示例性实施例中，本申请实施例还提供了一种计算机可读存储介质，例如包括计算机程序的存储器32，上述计算机程序可由电子设备的处理器31执行，以完成前述方法所述步骤。计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

本申请实施例提供的计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现本申请实施例所述票据图像识别方法的步骤。

本申请所提供的几个方法实施例中所揭露的方法，在不冲突的情况下可以任意组合，得到新的方法实施例。

本申请所提供的几个产品实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的产品实施例。

本申请所提供的几个方法或设备实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的方法实施例或设备实施例。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

一种票据图像识别方法，所述方法包括：

获得票据图像；

检测所述票据图像中的文本串，确定文本串在所述票据图像中的位置信息；

基于所述位置信息获得对应于所述文本串的第一图像，对所述第一图像进行特征提取，获得所述文本串的特征，基于所述文本串的特征确定所述文本串对应的文字。
根据权利要求1所述的方法，其中，所述检测所述票据图像中的文本串之前，所述方法还包括：

对所述票据图像进行预处理，所述预处理包括以下至少之一：图像校正处理、图像增强处理、图像标注处理；

所述检测所述票据图像中的文本串，包括：检测预处理后的票据图像中的文本串。
根据权利要求1或2所述的方法，其中，所述检测所述票据图像中的文本串，确定文本串在所述票据图像中的位置信息，包括：

基于卷积神经网络对所述票据图像进行特征提取，获得特征图；

基于预设尺寸的滑动窗口对所述特征图进行卷积处理，获得所述票据图像中的文字检测区域对应的特征向量；

分别基于循环神经网络和全连接对所述特征向量进行处理，得到文本串的多个预测位置以及每个预测位置对应的文本分类的概率；

采用非极大值抑制算法从所述文本串的预测位置确定所述文本串在所述票据图像中的位置信息。
根据权利要求3所述的方法，其中，所述基于卷积神经网络对所述票据图像进行特征提取，获得特征图，包括：

基于VGG16网络对所述票据图像进行特征提取，将所述VGG16网络中的第五个卷积块中的第三个卷积层输出的结果作为所述特征图。
根据权利要求1或2所述的方法，其中，所述对所述第一图像进行特征提取，获得所述文本串的特征，包括：

将所述第一图像进行格式转换，得到YUV格式的第二图像；

采用DenseNet对所述第二图像进行特征提取，获得所述文本串的特征。
一种票据图像识别系统，所述系统包括：图像获取单元、检测单元和识别单元；其中，

所述图像获取单元，配置为获得票据图像；

所述检测单元，配置为检测所述票据图像中的文本串，确定文本串在所述票据图像中的位置信息；

所述识别单元，配置为基于所述位置信息获得对应于所述文本串的第一图像，对所述第一图像进行特征提取，获得所述文本串的特征，基于所述文本串的特征确定所述文本串对应的文字。
根据权利要求6所述的系统，其中，所述系统还包括预处理单元，配置为对所述票据图像进行预处理，所述预处理包括以下至少之一：图像校正处理、图像增强处理、图像标注处理；

所述检测单元，配置为检测预处理后的票据图像中的文本串。
根据权利要求6或7所述的系统，其中，所述检测单元，配置为基于卷积神经网络对所述票据图像进行特征提取，获得特征图；基于预设尺寸的滑动窗口对所述特征图进行卷积处理，获得所述票据图像中的文字检测区域对应的特征向量；分别基于循环神经网络和全连接对所述特征向量进行处理，得到文本串的多个预测位置以及每个预测位置对应的文本分类的概率；采用非极大值抑制算法从所述文本串的预测位置确定所述文本串在所述票据图像中的位置信息。
根据权利要求8所述的系统，其中，所述检测单元，配置为基于VGG16网络对所述票据图像进行特征提取，将所述VGG16网络中的第五个卷积块中的第三个卷积层输出的结果作为所述特征图。
根据权利要求6或7所述的系统，其中，所述识别单元，配置为将所述第一图像进行格式转换，得到YUV格式的第二图像；采用DenseNet对所述第二图像进行特征提取，获得所述文本串的特征。
一种电子设备，包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器，

其中，所述处理器用于运行所述计算机程序时，执行权利要求1至5任一项所述票据图像识别方法的步骤。
一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现权利要求1至5任一项所述票据图像识别方法的步骤。