WO2020098078A1

WO2020098078A1 - Ocr训练样本的生成方法、装置、设备及可读存储介质

Info

Publication number: WO2020098078A1
Application number: PCT/CN2018/123225
Authority: WO
Inventors: 高梁梁
Original assignee: 平安科技（深圳）有限公司
Priority date: 2018-11-12
Filing date: 2018-12-24
Publication date: 2020-05-22
Also published as: CN109711396A

Abstract

一种OCR训练样本的生成方法、装置、设备及可读存储介质，所述方法包括：接收样本图片，并在接收到对所述样本图片中文本行的框选操作时，识别与所述框选操作对应选框的坐标信息（S10）；接收基于所述框选操作录入的标签信息，并将所述坐标信息和所述标签信息建立对应关系，形成文本行信息（S20）；获取文件头信息，并将所述文本头信息、与所述样本图片对应的图片信息以及各所述文本行信息添加到预设文件中存储，生成OCR训练样本（S30）。该方法基于图像处理生成OCR训练样本的文件头信息、图片信息以及文本行信息，不需要对样本图片进行切分，避免存储切分的样本图片，节省了存储空间；同时节省切分花费的时间，提高了OCR训练样本的生成效率。

Description

OCR训练样本的生成方法、装置、设备及可读存储介质

本申请要求于2018年11月12日提交中国专利局、申请号为201811342303.6、发明名称为“OCR训练样本的生成方法、装置、设备及可读存储介质”的中国专利申请的优先权，其全部内容通过引用结合在申请中。

技术领域

本申请主要涉及图片处理技术领域，具体地说，涉及一种OCR训练样本的生成方法、装置、设备及可读存储介质。

背景技术

OCR（Optical Character Recognition光学字符识别）是对纸质文件上的字符进行识别的技术，在识别之前需要通过样本进行训练，训练通常使用各种带有文本文字的样本图片进行。

目前，在用样本图片进行OCR训练的过程中，先将样本图片中的文字部分进行切分，形成文本行图片，并针对文本行图片设置对应的标签（label）进行存储；当样本图片中涉及到多处文字部分时，会形成多个文本行图片及对应的label；多个文本行图片的存储占用较多空间，且对各文字部分的切分需要花费较多时间，降低了生成OCR训练样本的效率。

发明内容

本申请的主要目的是提供一种OCR训练样本的生成方法、装置、设备及可读存储介质，旨在解决现有技术中对样本图片中的文字部分逐一切分并添加标签存储，导致生成OCR训练样本的效率低，且占用存储空间大的问题。

为实现上述目的，本申请提供一种OCR训练样本的生成方法，所述OCR训练样本的生成方法包括以下步骤：

接收样本图片，并在接收到对所述样本图片中文本行的框选操作时，识别与所述框选操作对应选框的坐标信息；

接收基于所述框选操作录入的标签信息，并将所述坐标信息和所述标签信息建立对应关系，形成文本行信息；

获取文件头信息，并将所述文本头信息、与所述样本图片对应的图片信息以及各所述文本行信息添加到预设文件中存储，生成OCR训练样本。

此外，为实现上述目的，本申请还提出一种OCR训练样本的生成装置，所述OCR训练样本的生成装置包括：

识别模块，用于接收样本图片，并在接收到对所述样本图片中文本行的框选操作时，识别与所述框选操作对应选框的坐标信息；

建立模块，用于接收基于所述框选操作录入的标签信息，并将所述坐标信息和所述标签信息建立对应关系，形成文本行信息；

生成模块，用于获取文件头信息，并将所述文本头信息、与所述样本图片对应的图片信息以及各所述文本行信息添加到预设文件中存储，生成OCR训练样本。

此外，为实现上述目的，本申请还提出一种OCR训练样本的生成设备，所述OCR训练样本的生成设备包括：存储器、处理器、通信总线以及存储在所述存储器上的OCR训练样本的生成程序；

所述通信总线用于实现处理器和存储器之间的连接通信；

所述处理器用于执行所述OCR训练样本的生成程序，以实现以下步骤：

此外，为实现上述目的，本申请还提供一种可读存储介质，所述可读存储介质存储有一个或者一个以上程序，所述一个或者一个以上程序可被一个或者一个以上的处理器执行以用于：

本实施例的OCR训练样本的生成方法，当接收到针对样本图片中的文本行进行框选操作时，识别与该框选操作所对应选框的坐标信息；并在接收到基于选框操作所录入的标签信息时，将坐标信息和标签信息建立对应关系，形成文本行信息；再将获取的文件头信息、与样本图片所对应的图片信息以及各个文本行信息添加到预设文件中存储，即生成OCR训练样本。本方案中的OCR训练样本由文件头信息、图片信息以及文本行信息组成，由文件头信息可确定OCR训练样本中的图片信息以及文本行信息，而由文本行信息中的坐标信息确定图片信息中的文本行；进而由坐标信息与标签信息之间的对应关系，确定与图片信息中文本行对应的标签信息；依据文本行及其对应的标签信息即可进行OCR训练。因不需要对样本图片进行切分操作，避免了对切分的样本图片的存储，节省了存储空间；同时节省了切分所花费的时间，提高了OCR训练样本的生成效率。

附图说明

图1是本申请的OCR训练样本的生成方法第一实施例的流程示意图；

图2是本申请的OCR训练样本的生成装置第一实施例的功能模块示意图；

图3是本申请实施例方法涉及的硬件运行环境的设备结构示意图；

图4是本申请的OCR训练样本的生成方法中对样本图片进行框选操作所对应选框示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供一种OCR训练样本的生成方法。

请参照图1，图1为本申请OCR训练样本的生成方法第一实施例的流程示意图。在本实施例中，所述OCR训练样本的生成方法包括：

步骤S10，接收样本图片，并在接收到对所述样本图片中文本行的框选操作时，识别与所述框选操作对应选框的坐标信息；

本申请的OCR训练样本的生成方法应用于服务器，适用于通过服务器生成用于OCR训练的训练样本。因OCR先对文本资料扫描，再对图片文件分析处理，来获取文字及版面信息，即OCR适用于对图片文件进行识别；从而用于对OCR训练所使用的样本相应的为图片，将该图片作为样本图片。此样本图片可由开发人员预先选择并上传到服务器的存储单元中进行存储，也可由开发人员实时选择并上传到服务器，具体根据实际需求进行设定；当预先上传时，则由开发人员发送调用指令，将该存储的样本图片调用显示在终端界面上；当实时上传时，则直接将该接收的样本图片输出在终端界面显示；其中终端可以是与服务器通信连接的笔记本电脑、固定电脑等。

在将样本图片显示后，开发人员可对该显示的样本图片中的文本行进行框选操作，该框选操作其实质为将样本图片中的各文字划分选择框内，即框选操作存在对应的选框，如图4中的选框W1和W2，。在接收到该框选操作时，对其所对应选框的坐标信息进行识别，该识别依据样本图片所在的预先设定的坐标系进行；具体地，识别与框选操作对应选框的坐标信息的步骤包括：

步骤S11，读取所述选框操作对应选框中的第一边界点和第二边界点，其中所述第一边界点和所述第二边界点对应所述选框中的不同边界；

可理解地，对于用于选择文本行的选择框，可以以矩形框、正方形框、多边形框的形式存在，为了便于数据处理，优选为以矩形框的形式存在。无论哪种形式的选择框，选择框中相交的边界与边界之间会形成相应的点，将该点做为边界点。在接收到框选操作，而形成对应的选框之后，从该选框中读取两个边界点分别作为第一边界点和第二边界点，且该第一边界点和第二边界点对应于选框中的不同边界，如图4中的第一边界点p1和第二边界点p2；即形成第一边界点的边界和第二边界点的边界不存在相同的边界，可以为选择框的左上角边界点和右下角边界点，也可以为选择框的右上角边界点和左下角边界点，以通过第一边界点和第二边界点表征选框。

步骤S12，将所述第一边界点和第二边界点映射到预设坐标系上，分别确定所述第一边界点和所述第二边界点的坐标数值，并将所述坐标数值设为坐标信息。

进一步地，预先设置有体现坐标数值的预设坐标系，该预设坐标系优选为二维坐标系，在终端界面所显示的样本图片位于该预设坐标系内。将读取的第一边界点和第二边界点映射到预设坐标系中，第一边界点和第二边界点在预设坐标系中所对应的坐标点具有的坐标值，即为第一边界点和第二边界点所对应的坐标数值；如图4中p1点和p2点在预设坐标系中对应的坐标值（x1、y1）和（x2、y2），即为各自的坐标数值。将该第一边界点和第二边界点的坐标数值作为与框选操作对应选框的坐标信息，以在后续进行OCR训练的过程中通过坐标信息体现选框，进而将选框中的内容确定为用于训练的文本行。

步骤S20，接收基于所述框选操作录入的标签信息，并将所述坐标信息和所述标签信息建立对应关系，形成文本行信息；

更进一步地，开发人员在通过选框对样本图片中的文本行进行选择的同时，针对选框所选择的文本行录入对应的标签信息；该标签信息为文本行的文字信息，用于表征文本行的内容，以通过文本行和文字信息之间的对应关系进行OCR训练，实现OCR对文本行所表达文字信息的识别。为了实现依据文本行和文字信息之间的对应关系进行OCR训练，在接收到针对框选操作所录入的标签信息之后，将坐标信息和标签信息建立对应关系，形成文本行信息。因坐标信息表征了样本图片中的文本行，而标签信息为与该文本行所对应的文字信息；坐标信息与标签信息之间所形成的以对应关系存在的文本行信息，其实质为文本行与文字信息之间的对应关系；实现根据文本行所具有的坐标信息，查找到对应的标签信息，进而依据该文本行和标签信息进行OCR训练。

步骤S30，获取文件头信息，并将所述文本头信息、与所述样本图片对应的图片信息以及各所述文本行信息添加到预设文件中存储，生成OCR训练样本。

可理解地，OCR训练依据文本行信息以及样本图片进行，需要将文本行信息和样本图片存储以用于后续OCR训练。将样本图片转换为数据流，数据流为base64，其用可写的字符形式数据表征二进制数据，以让中文字或者图片在网络上顺利传输。将该由样本图片所转换的数据流作为与样本图片对应的图片信息，并将该图片信息以及文本行信息作为文字信息进行存储；预先设置有用于存储文字信息的预设文件，可将图片信息和文本行信息添加到该预设文件中进行存储。为了在预设文件中对图片信息和文本行信息的界限进行区分，可设置文件头信息；该文件头信息可由开发人员设定，也可以通过检测的方式生成，其中涉及到表征样本图片的图片字节大小，文本行信息的文本行字节大小，文本行信息的信息数量等文字信息。在由开发人员设定时，由开发人员将检测的图片字节大小、文本行字节大小以及信息数量进行输入操作；获取该开发人员输入的文件头信息，并将其和图片信息以及文本行信息依次添加到预设文件中存储，生成OCR训练样本。以依据该存储的OCR训练样本中的文件头信息，确定其中的文本行信息部分以及样本图片部分，进而结合文本行信息和样本图片进行OCR训练。需要说明的是，本实施例中的预设文件可以为由开发人员所开发的依赖专用软件打开的文件，使得所形成的OCR训练样本仅能由对专用软件具有使用权限的用户查看并使用，使得所存储的OCR训练样本具有较高的保密性。

当文件头信息以检测的方式生成时，则在本实施例的获取文件头信息之前需要生成该文件头信息，具有地，获取文件头信息的步骤之前包括：

步骤S40，检测所述样本图片的图片字节大小以及各所述文本行信息的文本行字节大小，并统计所述文本行信息的信息数量；

进一步地，开发人员预先开发针对各类信息所占用字节大小的检测工具，当接收到样本图片时，调用该检测工具对其所占用的字节大小进行检测，该检测结果即为样本图片的图片字节大小。同时在将样本图片中所涉及的各个文本行均进行框选操作，形成多个选框；并在各个选框所识别出的坐标信息以及针对各次框选操作所录入的标签信息之间创建对应关系，形成多个文本行信息后；同样的调用该检测工具对多个文本行信息所占用的字节大小进行检测，该检测结果即为各文本行信息的文本行字节大小。此外还对创建的坐标信息与标签信息之间的对应关系数量，即文本行信息的数量进行统计，将该统计的数量作为信息数量；以依据图片字节大小、文本行字节大小以及信息数量生成文件头信息。

步骤S50，将所述图片字节大小、所述文本行字节大小以及所述信息数量生成文件头信息，并统计所述文件头信息的文件头字节大小；

更进一步地，将表征图片字节大小、文本行字节大小以及信息数量的文字信息形成文件头信息，该文件头信息中包括字段名以及字段值，以表征各个文字信息的类型及其对应数值；其中字段名为各个文字信息的名称，即图片字节大小、文本行字节大小以及信息数量三者的名称，字段值为各个文字信息所对应的数值大小，即图片字节大小、文本行字节大小以及信息数量三者所对应的数值大小；如“图片字节大小：50k”，其中“图片字节大小”为字段名，而“50k”为字段值。在将各个文字信息形成文件头信息后，该文件头信息本身也占用一定的字节大小，表征文件头信息中所包括文字信息所占用的大小；相应地，调用检测工具对文件头信息所占用的字节大小进行检测，检测所得到的结果即为统计的文件头信息的文件头字节大小。

步骤S60，将所述文件头字节大小添加到所述文件头信息中，以对所述文件头信息进行更新。

进一步地，将检测所得到的文件头字节大小添加到文件头信息中，以对所形成的文件头信息进行更新；在将文件头信息、图片信息和文本行信息添加到预设文件中存储，生成OCR训练样本后，先根据该文件头字节大小确定预设文件中所涉及到的文件头信息；再由文件头信息中的图片字节大小确定预设文件中所涉及到的图片信息，以及由文件头信息中的文本行字节大小确定预设文件中所涉及到的文本行信息；进而由图片信息和文本行信息进行OCR训练。

进一步地，在本申请OCR训练样本的生成方法另一实施例中，所述生成OCR训练样本的步骤之后包括：

步骤S70，当接收到OCR训练指令时，调用所述OCR训练样本，并根据所述OCR训练样本中所述文件头信息的字节大小信息，读取所述OCR训练样本中的所述文件头信息、各所述文本行信息以及所述图片信息；

可理解地，在生成用于对OCR进行训练的训练样本后，即可使用该训练样本进行OCR训练。具体地，OCR训练由训练指令进行触发，当接收到OCR训练指令时，则对OCR训练样本进行调用，并先读取OCR训练样本中的文件头信息，再读取文件头信息中的字节大小信息；进而依据该字节大小信息，读取OCR训练样本中的文件头信息，各文件行信息以及图片信息。因文件头信息中的字节大小信息涉及到文件头字节大小、图片字节大小以及文本行字节大小，使得在依据字节大小信息读取文件头信息、各文本行信息以及图片信息时，需要以及此三类字节大小进行；具体地，根据OCR训练样本中文件头信息的字节大小信息，读取OCR训练样本中的文件头信息、各文本行信息以及图片信息的步骤包括：

步骤S71，读取所述OCR训练样本中所述文件头信息的字节大小信息，并根据所述字节大小信息确定文件头字节大小、文本行字节大小以及图片字节大小；

进一步地，因文件头信息、各文本行信息以及图片信息按照分类依次存储在预设文件中，形成OCR训练样本；即OCR训练样本中涉及到三个部分的文字信息，分别对应文件头信息、各文本行信息以及图片信息；三类文字信息之间不存在交叉的情况，且不同类型的文字信息之间具有不同的字节大小，从而可依据文件头信息中的字节大小信息，对各个部分的文字信息进行读取，来获得文件头信息、各文本行信息以及图片信息。为了便于快速确定预设文件中文件头信息、各文本行信息以及图片信息的分界，将文件头信息设定在OCR训练样本的前列，以优先对文件头信息进行读取；同时将字节大小信息优先排列在文件头信息中的前列，以优先读取文件头信息及其中的字节大小信息，而由字节大小信息确定文件头信息、各文本行信息以及图片信息。此外也可以设置字段标识的形式，优先读取文件头信息中的字节大小信息；即针对文件头信息、各文本行信息以及图片信息设定不同的标识符，先依据标识符确定文件头信息；同样地针对文件头信息中的各项信息设定不同的子标识符，进而依据该子标识符确定其中的字节大小信息。

因字节大小信息中包括文件头字节大小、图片字节大小以及文本行字节大小，预先针对不用的字节大小设定不同的字节标识符；在读取到文件头信息中的字节大小信息后，依据各个字节标识符确定其中的文件头字节大小、图片字节大小和文本行字节大小。如预先设定字节标识符f1、f2、f3，分别表征文件头字节大小、图片字节大小以及文本行字节大小；在读取到字节大小信息后，继续读取字节大小信息中各字节大小数据所携带的字节标识符；当字节大小数据所携带的字节标识符为f1，则将该字节大小数据判定为文件头字节大小；当字节大小数据所携带的字节标识符为f2，则将该字节大小数据判定为图片字节大小；当字节大小数据所携带的字节标识符为f3，则将该字节大小数据判定为文本行字节大小；实现从读取的字节大小信息中确定文件头字节大小、图片字节大小以及文本行字节大小。

步骤S72，从所述OCR训练样本中分别读取与所述文件头字节大小、文本行字节大小以及图片字节大小对应的第一样本信息、第二样本信息以及第三样本信息，并将所述第一样本信息、第二样本信息以及第三样本信息设为文件头信息、各文本行信息以及图片信息。

进一步地，在读取到表征文件头信息、各文本行信息以及图片信息所占字节大小的文件头字节大小、文本行字节大小以及图片字节大小后，即可从OCR训练样本中读取与文件头字节大小对应的第一样本信息，与文本行字节大小对应的第二样本信息以及与图片字节大小对应的第三样本信息，该第一样本信息、第二样本信息以及第三样本信息即为文件头信息、各文本行信息以及图片信息。在读取的过程中，先判断读取的信息所占用的字节大小和文件头字节大小是否一致，若一致则中断该次信息的读取过程，并将该次所读取的信息作为第一样本信息；再启动下一阶段的读取过程，并判断读取的信息所占用的字节大小和文本行字节大小是否一致，若一致则中断该次信息的读取过程，并将该次所读取的信息作为第二样本信息；此后再启动新的一次读取过程，并判断读取的信息所占用的字节大小和图片字节大小是否一致，若一致则中断该次信息的读取过程，并将该次所读取的信息作为第三样本信息；若在各次的读取过程中，所读取的信息所占用的字节大小和文件头字节大小、文本行字节大小或图片字节大小均不一致，则继续读取，直到所读取的信息所占用的字节大小和文件头字节大小、文本行字节大小或图片字节大小一致。

需要说明的是，OCR训练样本中存储的是经样本图片所转换的图片信息，而文件头信息中字节大小信息所涉及的是样本图片的图片字节大小，图片字节大小不能直接表征图片信息所占用的字节大小。因图片信息由样本图片转换而来，从而可将表征样本图片所占用字节大小的图片字节大小转换为表征图片信息所占用字节大小的图片信息字节大小；在判断读取的信息所占用的字节大小和图片字节大小是否一致的过程中，其实质为判断读取的信息所占用的字节大小和图片信息字节大小是否一致的过程，若一致，则说明对图片信息所占用字节的大小读取完成。

步骤S80，根据所述图片信息确定样本图片，并根据各所述文本行信息中的坐标信息，确定所述样本图片中与各所述坐标信息对应的目标文本行；

进一步地，在从OCR训练样本中读取到文件头信息、各文本行信息以及图片信息后，可通过对图片信息的转换即可确定对应的样本图片。同时因各文本行信息为坐标信息与标签信息之间的对应关系，而坐标信息为样本图片中各文本行的坐标，从而依据文本行信息中的坐标信息可确定样本图片中的文本行，该各文本行和坐标信息之间具有对应关系，将与各坐标信息对应的文本行作为目标文本行。因坐标信息其实质为位于预设坐标系中第一边界点和第二边界点的坐标数值，从而在确定与坐标信息对应目标文本行的过程中，可依据坐标数值进行；具体地，根据各文本行信息中的坐标信息，确定样本图片中与各坐标信息对应的目标文本行的步骤包括：

步骤S81，从各所述文本行信息中任意选取一项文本行信息作为目标文本行信息，读取所述目标文本行信息中所具有坐标信息的目标坐标数值；

因各文本行信息中涉及到多个坐标信息和标签信息之间的对应关系，从而可从各文本行信息中任意选择一项文本行信息，将该所选择的文本行信息作为目标文本行信息。形成该目标文本行信息中的坐标信息和标签信息相应的为目标坐标信息和目标标签信息，读取该目标文本行信息中的坐标信息，即目标坐标信息中的坐标数值；将该坐标数值作为目标坐标数值，该目标坐标数值即为某次框选操作所对应选框的第一边界点和第二边界点在预设坐标系中的数值。

步骤S82，将所述目标坐标数值映射到所述样本图片所在的预设坐标系中，在所述样本图片中形成数值框，并将所述样本图片中位于所述数值框中的文本行设为目标文本行。

进一步地，目标坐标数值对应于预设坐标系中的两个点，该两个点即为对样本图片中文本行进行框选操作所对应选框的第一边界点和第二边界点，由该目标坐标数值可确定样本图片中的某一文本行。将目标坐标数值映射到样本图片所在的预设坐标系中，使得目标坐标数值对应预设坐标系中的两个坐标点，由该两个点在样本图片中形成数值框。如目标坐标数值在预设坐标系中所对应的两个坐标点分别为A1和A2，且A1的坐标数值为（x3、y3），A2的坐标数值为（x4、y4），则A1和A2在样本图片中所形成的数值框为由x4减去x3，y4减去y3计算的绝对距离所形成的矩形框。数值框在样本图片中对应有文本行，将该文本行作为目标文本行，而实现依据目标文本行信息中的坐标信息，确定样本图片中与该坐标信息对应的目标文本行。当各文本行信息均选取作为目标文本行信息后，则实现依据各目标文本行信息中的坐标信息，从样本图片中确定与各坐标信息所对应的各个目标文本行。

步骤S90，根据所述坐标信息和所述标签信息之间的对应关系，在各所述目标文本行和所述对应关系中的所述标签信息之间建立映射关系，并根据各所述映射关系进行OCR训练。

更进一步地，因文本行信息中的坐标信息与标签信息之间存在对应关系，在依据各坐标信息确定样本图片中与各坐标信息所对应的目标文本行之后，依据对应关系，可确定与各目标文本行所对应的标签信息；即依据坐标信息，可在目标文本行和对应关系中的标签信息之间建立映射关系。如坐标信息w与标签信息P之间存在对应关系，而确定样本图片中与坐标信息w所对应的目标文本行为Q，则依据坐标信息w可建立目标文本行Q与对应关系中P之间的映射关系。进而依据映射关系中的目标文本行和标签信息进行OCR训练，因目标文本行为存在于样本图片中以图片形式体现的各个文字信息，而标签信息为文字信息本身，OCR训练的过程即为将目标文本行中以图片形式存在的文字信息识别为以文字信息本身所存在的标签信息。考虑到样本图片中包括多个文本行，使得所建立的映射关系涉及到多个，在进行OCR训练过程中，为了避免对各映射关系中的目标文本行和标签信息进行重复训练，设置有通过标识符进行区分的机制；具体地，根据各映射关系进行OCR训练的步骤包括：

步骤S91，将所述映射关系传输到预设模型中，进行OCR训练，并对经OCR训练的所述映射关系分配标识符；

进一步地，预先设置有用于OCR训练的预设模型，预设模型可以是诸如SVM（support vector machine，支持向量机）此类的监督式学习方法；将各对映射关系中的目标文本行和标签信息传输到预设模型中，即可进行OCR训练，同时对经传输到预设模型中进行OCR训练的映射关系分配标识符，以表征该映射关系已经进行了OCR训练。

步骤S92，统计所述标识符的数量，并判断所述标识符的数量是否和所述信息数量一致，若和所述信息数量一致，则完成对OCR训练样本的训练；

在进行OCR训练的过程中，对分配的标识符的数量进行统计，该统计的标识符数量表征了各映射关系中已经进行了OCR训练的数量；将标识符的数量和文本行信息的信息数量对比，判断标识符的数量和信息数量是否一致。若两者一致，则说明进行OCR训练的映射关系和文本行信息的信息数量一致，而文本行信息的信息数量为坐标信息与标签信息之间的对应关系数量，两者之间的一致性表征了对样本图像中经框选操作所划分的文本行均进行了OCR训练，即将各映射关系均传输到预设模板中进行了OCR训练，从而完成了对OCR训练样本的训练。

步骤S93，若和所述信息数量不一致，则从各所述映射关系中读取未分配所述标识符的目标映射关系，并将所述目标映射关系作为新的映射关系，执行将所述映射关系传输到预设模型中的步骤。

更进一步地，在当判断出标识符的数量和信息数量不一致，则说明各映射关系中存在尚未进行OCR训练的映射关系，且该未进行OCR训练的映射关系不携带有标识符；从而从各映射关系中读取未分配标识符的映射关系，该映射关系即为目标映射关系，将该目标映射关系作为新的映射关系，传输到预设模型中进行训练；直到标识符的数量和信息数量一致，各个映射关系均传输到预设模型中进行OCR训练，即完成对OCR训练样本的训练。

此外，请参照图2，本申请提供一种OCR训练样本的生成装置，在本申请OCR训练样本的生成装置第一实施例中，所述OCR训练样本的生成装置包括：

识别模块10，用于接收样本图片，并在接收到对所述样本图片中文本行的框选操作时，识别与所述框选操作对应选框的坐标信息；

建立模块20，用于接收基于所述框选操作录入的标签信息，并将所述坐标信息和所述标签信息建立对应关系，形成文本行信息；

生成模块30，用于获取文件头信息，并将所述文本头信息、与所述样本图片对应的图片信息以及各所述文本行信息添加到预设文件中存储，生成OCR训练样本。

本实施例的OCR训练样本的生成装置，当接收到针对样本图片中的文本行进行框选操作时，识别模块10识别与该框选操作所对应选框的坐标信息；并在接收到基于选框操作所录入的标签信息时，建立模块20将坐标信息和标签信息建立对应关系，形成文本行信息；再由生成模块30将获取的文件头信息、与样本图片所对应的图片信息以及各个文本行信息添加到预设文件中存储，即生成OCR训练样本。本方案中的OCR训练样本由文件头信息、图片信息以及文本行信息组成，由文件头信息可确定OCR训练样本中的图片信息以及文本行信息，而由文本行信息中的坐标信息确定图片信息中的文本行；进而由坐标信息与标签信息之间的对应关系，确定与图片信息中文本行对应的标签信息；依据文本行及其对应的标签信息即可进行OCR训练。因不需要对样本图片进行切分操作，避免了对切分的样本图片的存储，节省了存储空间；同时节省了切分所花费的时间，提高了OCR训练样本的生成效率。

其中，上述OCR训练样本的生成装置的各虚拟功能模块存储于图3所示OCR训练样本的生成设备的存储器1005中，处理器1001执行OCR训练样本的生成程序时，实现图2所示实施例中各个模块的功能。

需要说明的是，本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

参照图3，图3是本申请实施例方法涉及的硬件运行环境的设备结构示意图。

本申请实施例OCR训练样本的生成设备可以是PC( personal computer，个人计算机 )，也可以是智能手机、平板电脑、电子书阅读器、便携计算机等终端设备。

如图3所示，该OCR训练样本的生成设备可以包括：处理器1001，例如CPU（Central Processing Unit，中央处理器），存储器1005，通信总线1002。其中，通信总线1002用于实现处理器1001和存储器1005之间的连接通信。存储器1005可以是高速RAM（random access memory，随机存取存储器），也可以是稳定的存储器（non-volatile memory），例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

可选地，该OCR训练样本的生成设备还可以包括用户接口、网络接口、摄像头、RF（Radio Frequency，射频）电路，传感器、音频电路、WiFi（Wireless Fidelity，无线宽带）模块等等。用户接口可以包括显示屏（Display）、输入单元比如键盘（Keyboard），可选用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口（如WI-FI接口）。

本领域技术人员可以理解，图3中示出的OCR训练样本的生成设备结构并不构成对OCR训练样本的生成设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图3所示，作为一种可读存储介质的存储器1005中可以包括操作系统、网络通信模块以及OCR训练样本的生成程序。操作系统是管理和控制OCR训练样本的生成设备硬件和软件资源的程序，支持OCR训练样本的生成程序以及其它软件和/或程序的运行。网络通信模块用于实现存储器1005内部各组件之间的通信，以及与OCR训练样本的生成设备中其它硬件和软件之间通信。

在图3所示的OCR训练样本的生成设备中，处理器1001用于执行存储器1005中存储的OCR训练样本的生成程序，实现上述OCR训练样本的生成方法各实施例中的步骤。

本申请提供了一种可读存储介质，所述可读存储介质存储有一个或者一个以上程序，所述一个或者一个以上程序还可被一个或者一个以上的处理器执行以用于实现上述OCR训练样本的生成方法各实施例中的步骤。

还需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个可读存储介质（如ROM/RAM、磁碟、光盘）中，包括若干指令用以使得一台终端设备（可以是手机，计算机，服务器，或者网络设备等）执行本申请各个实施例所述的方法。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是在本申请的构思下，利用本申请说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本申请的专利保护范围内。

Claims

一种OCR训练样本的生成方法，其特征在于，所述OCR训练样本的生成方法包括以下步骤：

接收样本图片，并在接收到对所述样本图片中文本行的框选操作时，识别与所述框选操作对应选框的坐标信息；

接收基于所述框选操作录入的标签信息，并将所述坐标信息和所述标签信息建立对应关系，形成文本行信息；

获取文件头信息，并将所述文本头信息、与所述样本图片对应的图片信息以及各所述文本行信息添加到预设文件中存储，生成OCR训练样本。
如权利要求1所述的OCR训练样本的生成方法，其特征在于，所述生成OCR训练样本的步骤之后包括：

当接收到OCR训练指令时，调用所述OCR训练样本，并根据所述OCR训练样本中所述文件头信息的字节大小信息，读取所述OCR训练样本中的所述文件头信息、各所述文本行信息以及所述图片信息；

根据所述图片信息确定样本图片，并根据各所述文本行信息中的坐标信息，确定所述样本图片中与各所述坐标信息对应的目标文本行；

根据所述坐标信息和所述标签信息之间的对应关系，在各所述目标文本行和所述对应关系中的所述标签信息之间建立映射关系，并根据各所述映射关系进行OCR训练。
如权利要求2所述的OCR训练样本的生成方法，其特征在于，所述根据所述OCR训练样本中所述文件头信息的字节大小信息，读取所述OCR训练样本中的所述文件头信息、各所述文本行信息以及所述图片信息的步骤包括：

读取所述OCR训练样本中所述文件头信息的字节大小信息，并根据所述字节大小信息确定文件头字节大小、文本行字节大小以及图片字节大小；

从所述OCR训练样本中分别读取与所述文件头字节大小、文本行字节大小以及图片字节大小对应的第一样本信息、第二样本信息以及第三样本信息，并将所述第一样本信息、第二样本信息以及第三样本信息设为文件头信息、各文本行信息以及图片信息。
如权利要求2所述的OCR训练样本的生成方法，其特征在于，所述识别与所述框选操作对应选框的坐标信息的步骤包括：

读取所述选框操作对应选框中的第一边界点和第二边界点，其中所述第一边界点和所述第二边界点对应所述选框中的不同边界；

将所述第一边界点和第二边界点映射到预设坐标系上，分别确定所述第一边界点和所述第二边界点的坐标数值，并将所述坐标数值设为坐标信息。
如权利要求4所述的OCR训练样本的生成方法，其特征在于，所述根据各所述文本行信息中的坐标信息，确定所述样本图片中与各所述坐标信息对应的目标文本行的步骤包括：

从各所述文本行信息中任意选取一项文本行信息作为目标文本行信息，读取所述目标文本行信息中所具有坐标信息的目标坐标数值；

将所述目标坐标数值映射到所述样本图片所在的预设坐标系中，在所述样本图片中形成数值框，并将所述样本图片中位于所述数值框中的文本行设为目标文本行。
如权利要求2所述的OCR训练样本的生成方法，其特征在于，所述获取文件头信息的步骤之前包括：

检测所述样本图片的图片字节大小以及各所述文本行信息的文本行字节大小，并统计所述文本行信息的信息数量；

将所述图片字节大小、所述文本行字节大小以及所述信息数量生成文件头信息，并统计所述文件头信息的文件头字节大小；

将所述文件头字节大小添加到所述文件头信息中，以对所述文件头信息进行更新。
如权利要求6所述的OCR训练样本的生成方法，其特征在于，所述根据各所述映射关系进行OCR训练的步骤包括：

将所述映射关系传输到预设模型中，进行OCR训练，并对经OCR训练的所述映射关系分配标识符；

统计所述标识符的数量，并判断所述标识符的数量是否和所述信息数量一致，若和所述信息数量一致，则完成对OCR训练样本的训练；

若和所述信息数量不一致，则从各所述映射关系中读取未分配所述标识符的目标映射关系，并将所述目标映射关系作为新的映射关系，执行将所述映射关系传输到预设模型中的步骤。
一种OCR训练样本的生成装置，其特征在于，所述OCR训练样本的生成装置包括：

识别模块，用于接收样本图片，并在接收到对所述样本图片中文本行的框选操作时，识别与所述框选操作对应选框的坐标信息；

建立模块，用于接收基于所述框选操作录入的标签信息，并将所述坐标信息和所述标签信息建立对应关系，形成文本行信息；

生成模块，用于获取文件头信息，并将所述文本头信息、与所述样本图片对应的图片信息以及各所述文本行信息添加到预设文件中存储，生成OCR训练样本。
一种OCR训练样本的生成设备，其特征在于，所述OCR训练样本的生成设备包括：存储器、处理器、通信总线以及存储在所述存储器上的OCR训练样本的生成程序；

所述通信总线用于实现处理器和存储器之间的连接通信；

所述处理器用于执行所述OCR训练样本的生成程序，以实现以下步骤：

接收样本图片，并在接收到对所述样本图片中文本行的框选操作时，识别与所述框选操作对应选框的坐标信息；

接收基于所述框选操作录入的标签信息，并将所述坐标信息和所述标签信息建立对应关系，形成文本行信息；

获取文件头信息，并将所述文本头信息、与所述样本图片对应的图片信息以及各所述文本行信息添加到预设文件中存储，生成OCR训练样本。
如权利要求9所述的OCR训练样本的生成设备，其特征在于，所述生成OCR训练样本的步骤之后，所述处理器用于执行所述OCR训练样本的生成程序，以实现以下步骤：

当接收到OCR训练指令时，调用所述OCR训练样本，并根据所述OCR训练样本中所述文件头信息的字节大小信息，读取所述OCR训练样本中的所述文件头信息、各所述文本行信息以及所述图片信息；

根据所述图片信息确定样本图片，并根据各所述文本行信息中的坐标信息，确定所述样本图片中与各所述坐标信息对应的目标文本行；

根据所述坐标信息和所述标签信息之间的对应关系，在各所述目标文本行和所述对应关系中的所述标签信息之间建立映射关系，并根据各所述映射关系进行OCR训练。
如权利要求10所述的OCR训练样本的生成设备，其特征在于，所述根据所述OCR训练样本中所述文件头信息的字节大小信息，读取所述OCR训练样本中的所述文件头信息、各所述文本行信息以及所述图片信息的步骤包括：

读取所述OCR训练样本中所述文件头信息的字节大小信息，并根据所述字节大小信息确定文件头字节大小、文本行字节大小以及图片字节大小；

从所述OCR训练样本中分别读取与所述文件头字节大小、文本行字节大小以及图片字节大小对应的第一样本信息、第二样本信息以及第三样本信息，并将所述第一样本信息、第二样本信息以及第三样本信息设为文件头信息、各文本行信息以及图片信息。
如权利要求10所述的OCR训练样本的生成设备，其特征在于，所述识别与所述框选操作对应选框的坐标信息的步骤包括：

读取所述选框操作对应选框中的第一边界点和第二边界点，其中所述第一边界点和所述第二边界点对应所述选框中的不同边界；

将所述第一边界点和第二边界点映射到预设坐标系上，分别确定所述第一边界点和所述第二边界点的坐标数值，并将所述坐标数值设为坐标信息。
如权利要求12所述的OCR训练样本的生成设备，其特征在于，所述根据各所述文本行信息中的坐标信息，确定所述样本图片中与各所述坐标信息对应的目标文本行的步骤包括：

从各所述文本行信息中任意选取一项文本行信息作为目标文本行信息，读取所述目标文本行信息中所具有坐标信息的目标坐标数值；

将所述目标坐标数值映射到所述样本图片所在的预设坐标系中，在所述样本图片中形成数值框，并将所述样本图片中位于所述数值框中的文本行设为目标文本行。
如权利要求10所述的OCR训练样本的生成设备，其特征在于，所述获取文件头信息的步骤之前，所述处理器用于执行所述OCR训练样本的生成程序，以实现以下步骤：

检测所述样本图片的图片字节大小以及各所述文本行信息的文本行字节大小，并统计所述文本行信息的信息数量；

将所述图片字节大小、所述文本行字节大小以及所述信息数量生成文件头信息，并统计所述文件头信息的文件头字节大小；

将所述文件头字节大小添加到所述文件头信息中，以对所述文件头信息进行更新。
一种可读存储介质，其特征在于，所述可读存储介质上存储有OCR训练样本的生成程序，所述OCR训练样本的生成程序被处理器执行，实现以下步骤：

接收样本图片，并在接收到对所述样本图片中文本行的框选操作时，识别与所述框选操作对应选框的坐标信息；

接收基于所述框选操作录入的标签信息，并将所述坐标信息和所述标签信息建立对应关系，形成文本行信息；

获取文件头信息，并将所述文本头信息、与所述样本图片对应的图片信息以及各所述文本行信息添加到预设文件中存储，生成OCR训练样本。
如权利要求15所述的可读存储介质，其特征在于，所述生成OCR训练样本的步骤之后，所述OCR训练样本的生成程序被处理器执行，实现以下步骤：

当接收到OCR训练指令时，调用所述OCR训练样本，并根据所述OCR训练样本中所述文件头信息的字节大小信息，读取所述OCR训练样本中的所述文件头信息、各所述文本行信息以及所述图片信息；

根据所述图片信息确定样本图片，并根据各所述文本行信息中的坐标信息，确定所述样本图片中与各所述坐标信息对应的目标文本行；

根据所述坐标信息和所述标签信息之间的对应关系，在各所述目标文本行和所述对应关系中的所述标签信息之间建立映射关系，并根据各所述映射关系进行OCR训练。
如权利要求16所述的可读存储介质，其特征在于，所述根据所述OCR训练样本中所述文件头信息的字节大小信息，读取所述OCR训练样本中的所述文件头信息、各所述文本行信息以及所述图片信息的步骤包括：

读取所述OCR训练样本中所述文件头信息的字节大小信息，并根据所述字节大小信息确定文件头字节大小、文本行字节大小以及图片字节大小；

从所述OCR训练样本中分别读取与所述文件头字节大小、文本行字节大小以及图片字节大小对应的第一样本信息、第二样本信息以及第三样本信息，并将所述第一样本信息、第二样本信息以及第三样本信息设为文件头信息、各文本行信息以及图片信息。
如权利要求16所述的可读存储介质，其特征在于，所述识别与所述框选操作对应选框的坐标信息的步骤包括：

读取所述选框操作对应选框中的第一边界点和第二边界点，其中所述第一边界点和所述第二边界点对应所述选框中的不同边界；

将所述第一边界点和第二边界点映射到预设坐标系上，分别确定所述第一边界点和所述第二边界点的坐标数值，并将所述坐标数值设为坐标信息。
如权利要求18所述的可读存储介质，其特征在于，所述根据各所述文本行信息中的坐标信息，确定所述样本图片中与各所述坐标信息对应的目标文本行的步骤包括：

从各所述文本行信息中任意选取一项文本行信息作为目标文本行信息，读取所述目标文本行信息中所具有坐标信息的目标坐标数值；

将所述目标坐标数值映射到所述样本图片所在的预设坐标系中，在所述样本图片中形成数值框，并将所述样本图片中位于所述数值框中的文本行设为目标文本行。
如权利要求16所述的可读存储介质，其特征在于，所述获取文件头信息的步骤之前，所述OCR训练样本的生成程序被处理器执行，实现以下步骤：

检测所述样本图片的图片字节大小以及各所述文本行信息的文本行字节大小，并统计所述文本行信息的信息数量；

将所述图片字节大小、所述文本行字节大小以及所述信息数量生成文件头信息，并统计所述文件头信息的文件头字节大小；

将所述文件头字节大小添加到所述文件头信息中，以对所述文件头信息进行更新。