WO2017143973A1

WO2017143973A1 - 文本识别模型建立方法和装置

Info

Publication number: WO2017143973A1
Application number: PCT/CN2017/074291
Authority: WO
Inventors: 李洁
Original assignee: 中兴通讯股份有限公司
Priority date: 2016-02-25
Filing date: 2017-02-21
Publication date: 2017-08-31
Also published as: CN107122785B; CN107122785A

Abstract

一种文本识别模型建立方法和装置。其中，该方法包括：获取文本文件集合（S102）；从文本文件集合中选择互不相同的文本文件作为特征文本文件（S104）；使用特征文本文件建立文本识别模型（S106），其中，文本识别模型用于识别待识别的文本文件中的文本信息。本方法和装置解决了相关技术中使用重复获取到的相同的文本文件所建立的文本识别模型的准确性较低的问题，从而实现了提高所建立的文本识别模型的准确性的效果。

Description

文本识别模型建立方法和装置

技术领域

本发明实施例涉及通信领域，具体而言，涉及一种文本识别模型建立方法和装置。

背景技术

随着互联网的发展和移动设备的普及，产生了大量含有复杂噪音或者各种变形的网络合成的文本图片，为了从大量公开的多媒体数据中挖掘出有价值的信息，识别这些复杂的网络合成的文本图片的意义十分重大。

然而，识别复杂网络合成文本图片具有相当大的挑战性：一方面，复杂的网络合成的文本图片具有多样性，它们可能具有不同的字体、颜色、大小、方向和排列方式；另一方面，复杂的网络合成的文本图片中存在噪声、模糊、光照和遮挡等问题，这给文字的检测和识别带来巨大的困难。

若使用传统的光学字符识别(Optical Character Recognition，简称为OCR)方法识别这些网络合成的文本图片，则在识别速率和准确性方面将难以达到预定要求。随着机器学习方法的出现，使得复杂背景文本图片的OCR得到了突破性的进展，但是使用机器学习来进行文字识别之前，需要大量的文本文件作为训练样本来建立文本识别模型。然而，目前在相关的文本识别模型建立过程中，往往会重复获取到相同的文本文件，这样采用相同的文本文件所建立的文本识别模型将无法覆盖所有文本内容，从而使得采用该文本识别模型无法进行准确地文本识别。

针对相关技术中使用重复获取到的相同的文本文件所建立的文本识别模型的准确性较低的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种文本识别模型建立方法和装置，以至少解决相关技术中使用重复获取到的相同的文本文件所建立的文本识别模型的准确性较低的问题。

根据本发明实施例的一个方面，提供了一种文本识别模型建立方法，包括：获取文本文件集合；从所述文本文件集合中选择互不相同的文本文件作为特征文本文件；使用所述特征文本文件建立文本识别模型，其中，所述文本识别模型用于识别待识别的文本文件中的文本信息。

可选地，从所述文本文件集合中选择所述互不相同的文本文件作为所述特征文本文件包括：根据所述文本文件集合中文本文件的文件标识和/或所述文本文件集合中文本文件的存储位置标识，从所述文本文件集合中选择所述互不相同的文本文件作为所述特征文本文件。

可选地，根据所述文本文件集合中文本文件的所述文件标识和/或所述文本文件集合中文本文件的所述存储位置标识从所述文本文件集合中选择所述互不相同的文本文件作为所述特征文本文件包括：根据预设算法获取第一预设数量的所述文本文件集合中的所述文件标识，得到文件标识集合，其中，所述文件标识集合中相同的文本文件标识所对应的文本文件的存储位置标识相同；获取所述文件标识集合中的所述文件标识对应的互不相同的存储位置标识；根据所述互不相同的存储位置标识从所述文件标识集合中筛选出第二预设数量的互不相同的文件标识；从所述文本文件集合中提取所述互不相同的文件标识对应的文本文件作为所述特征文本文件。

可选地，所述获取文本文件集合包括：获取文本信息；批量复制所述文本信息，得到多个所述文本信息；分别为多个所述文本信息设置文本参数，得到互不相同的文本文件，其中，所述文本文件集合包括所述互不相同的文本文件。

可选地，所述获取文本信息包括：接收输入的第一文本字符串作为所述文本信息；或者读取系统中存储的第二文本字符串；根据预设策略分割所述第二文本字符串，得到文本字符串集合；提取所述文本字符串集合中的一个第三文本字符串作为所述文本信息。

可选地，所述文本参数包括以下至少之一：所述文本信息中文字的字体格式参数、所述文本信息中文字的字体显示大小参数、所述文本信息中空白字符大小比例参数、所述文本信息中文字的间隔大小比例参数、所述文本信息中文字的旋转角度参数、所述文本信息中文字的字体颜色参数、所述文本信息中文字的透明度参数、所述文本信息中文字的加粗程度参数、所述文本信息中文字的倾斜程度参数、所述文本信息中文字的下划线绘制参数、背景图片、所述文本信息在所述背景图片中的显示位置参数。

根据本发明实施例的另一个方面，还提供了一种文本识别模型建立装置，包括：获取模块，设置为获取文本文件集合；选择模块，设置为从所述文本文件集合中选择互不相同的文本文件作为特征文本文件；建立模块，设置为使用所述特征文本文件建立文本识别模型，其中，所述文本识别模型用于识别待识别的文本文件中的文本信息。

可选地，所述选择模块设置为：根据所述文本文件集合中文本文件的文件标识和/或所述文本文件集合中文本文件的存储位置标识从所述文本文件集合中选择所述互不相同的文本文件作为所述特征文本文件。

可选地，所述选择模块包括：第一获取单元，设置为根据预设算法获取第一预设数量的所述文本文件集合中的所述文件标识，得到文件标识集合，其中，所述文件标识集合中相同的文本文件标识所对应的文本文件的存储位置标识相同；第二获取单元，设置为获取所述文件标识集合中的所述文件标识对应的互不相同的存储位置标识；选择单元，设置为根据所述互不相同的存储位置标识从所述文件标识集合中选择第二预设数量的互不相同的文件标识；提取单元，设置为从所述文本文件集合中提取所述互不相同的文件标识对应的文本文件作为所述特征文本文件。

可选地，所述获取模块包括：第三获取单元，设置为获取文本信息；复制单元，设置为批量复制所述文本信息，得到多个所述文本信息；设置单元，设置为分别为多个所述文本信息设置文本参数，得到互不相同的文本文件，其中，所述文本文件集合包括所述互不相同的文本文件。

可选地，所述第三获取单元设置为：接收输入的第一文本字符串作为所述文本信息；或者读取系统中存储的第二文本字符串；根据预设策略分割所述第二文本字符串，得到文本字符串集合；提取所述文本字符串集合中的一个第三文本字符串作为所述文本信息。

在本发明实施例中，还提供了一种计算机存储介质，该计算机存储介质可以存储有执行指令，该执行指令用于执行上述实施例中的文本识别模型建立方法。

通过本发明实施例，在获取文本文件集合后；通过从文本文件集合中选择互不相同的文本文件作为特征文本文件；以实现使用上述特征文本文件建立文本识别模型，其中，文本识别模型用于识别待识别的文本文件中的文本信息。也就是说，通过从文本文件集合中自动选取互不相同的文本文件作为特征文本文件，来建立用于识别文本文件中文本信息的文本识别模型，从而使所建立的文本识别模型可以覆盖不同的文本文件，以保证所建立的文本识别模型的准确性，并克服相关技术中使用重复获取到的相同的文本文件所建立的文本识别模型的准确性较低的问题。进而保证采用本实施例中提供的文本识别模型建立方法所建立的文本识别模型可以准确识别出文本图片中的文本信息。

此外，通过从文本文件集合中自动选取互不相同的文本文件来建立文本识别模型的方式，还可以减少作为训练样本，用于建立文本识别模型的文本文件的数量，即减少重复获取到的文本文件的数量，从而实现提高建立文本识别模型的效率，进而避免所获取的文本文件数量过多所导致的建立文本识别模型的效率较低问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的文本识别模型建立方法的流程图；

图2是根据本发明可选实施例的文本识别模型建立方法的流程图；

图3是根据本发明可选实施例的新型的改进型线性同余随机数发生器的流程图；

图4是根据本发明实施例的一种可选的文本识别模型建立装置的结构框图；

图5是根据本发明实施例的另一种可选的文本识别模型建立装置的结构框图；

图6是根据本发明实施例的另一种可选的文本识别模型建立装置的结构框图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

实施例一

在本实施例中提供了一种文本识别模型建立方法，图1是根据本发明实施例的一种可选的文本识别模型建立方法的流程图，如图1所示，该流程包括如下步骤：

步骤S102，获取文本文件集合；

步骤S104，从文本文件集合中选择互不相同的文本文件作为特征文本文件；

步骤S106，使用特征文本文件建立文本识别模型，其中，文本识别模型用于识别待识别的文本文件中的文本信息。

可选地，本实施例可以但不限于应用于建立文本识别模型的场景中。特别是在光学字符识别(Optical Character Recognition，简称为OCR)场景下建立用于机器学习的文本识别模型。例如，可以但不限于应用于文本定位、文本检测或文本识别的过程中。上述场景仅是一种示例，本实施例中对此不做任何限定。

通过上述步骤，通过从文本文件集合中自动选取互不相同的文本文件作为特征文本文件，来建立用于识别文本文件中文本信息的文本识别模型，从而使所建立的文本识别模型可以覆盖不同的文本文件，以保证所建立的文本识别模型的准确性，并克服相关技术中使用重复获取到的相同的文本文件所建立的文本识别模型的准确性较低的问题。进而保证采用本实施例中提供的文本识别模型建立方法所建立的文本识别模型可以准确识别出文本图片中的文本信息。

在本实施例中，文本识别模型可以用于OCR文本识别模型的训练，OCR可以理解为让计算机将图片中的文字识别出来，例如，图片在计算机中，计算机并不能自动认识图片里的文字，在OCR技术中，就是先把图片中的文字识别出来，转化成文本格式，令计算机能够将其内容读出来。要实现上述功能，需要建立一个OCR模型，这个模型是通过训练得到的。在进行训练前，需要获取用于训练的OCR文本文件，组成文本识别模型，相关技术中的办法是搜集有文字的图片，搜集到海量的文字图片，并逐一标注文字图片里的内容(即：使计算机可读取该内容)。让计算机的模型去学习这些标注好的文本文件。使用海量的文本文件去训练OCR模型，OCR模型遇到新的有文字的图片，就能识别图片上的文字，并输出计算机可读的文字格式。

但是，在OCR模型训练中，样本必须是非常海量的，保证足够训练出一个可用的OCR模型。海量有两个缺点：1、这么多样本，搜集起来加以标注，必须是人看到图片，知道了图中文字内容，然后标注这个内容为文本格式(即：使计算机可读)，每一个图片都要这样操作。人工消耗非常大，而且不能保证人工不出错。2、样本必须有非常好的多样性。比如“好”这个字，有各种不同的颜色，字体，背景，甚至阴影，倾斜，粗细，不同角度光照等等变化。需要尽可能让这些各种表现形式的“好”字作为样本给OCR模型学习训练，OCR模型才会在今后使用时，正确地识别出新遇到的“好”字。但是收集丰富表现形式的样本，人工寻找筛选，工程量非常大。

在本实施例中，首先，由于文本识别模型是由计算机可读的文本文件生成的，因此文本图片人工标注的问题就不存在了。其次，用于生成文本识别模型的文本文件中的同一文本信息有各种各样不同的表现形式。此外，生成文本文件后，加入随机算法，二次随机选取文本文件，作为训练使用。如果不加入随机算法，例如“好”字，生成1000种表现形式的“好”字的图片，“坏”字也生成1000种，每次程序输入内容，输出的表现形式都是1000种，这样反而会降低计算机识别的准确率。在本实施例中，生成1000种“好”字，随机选取500种，生成1000种“坏”字，随机选取500种。这样能够保证样本的丰富和随机。

在本实施例中，可以但不限于根据文本文件集合中文本文件的文件标识和/或文本文件集合中文本文件的存储位置标识，从文本文件集合中选择互不相同的文本文件作为特征文本文件。

下面通过三个示例说明从所述文本文件集合中选择互不相同的文本文件作为特征文本文件的过程。

示例一是根据文本文件集合中文本文件的文件标识，从文本文件集合中选择互不相同的文本文件作为特征文本文件的过程。

在示例一中，由于在文本文件集合中不同的文本文件携带有不同的文件标识，因此可以通过预设算法批量选择文件标识，再删除其中相同的文件标识，保留互不相同的文件标识。然后，根据筛选出的互不相同的文件标识从文本文件集合中提取对应的文本文件作为特征文本文件建立文本识别模型。通过上述步骤，根据不同文本文件携带不同文本标识的特点获取特征文本文件，使所建立的文本识别模型可以覆盖不同的文本文件，以保证所建立的文本识别模型的准确性，并克服相关技术中使用重复获取到的相同的文本文件所建立的文本识别模型的准确性较低的问题。进而保证采用本实施例中提供的文本识别模型建立方法所建立的文本识别模型可以准确识别出文本图片中的文本信息。

示例二是根据文本文件集合中文本文件的存储位置标识，从文本文件集合中选择互不相同的文本文件作为特征文本文件的过程。

在示例二中，由于在文本文件集合中不同的文本文件存储位置不同，因此携带有不同的存储位置标识，可以通过预设算法批量选择存储位置标识，再删除其中相同的存储位置标识，保留互不相同的存储位置标识。然后，根据筛选出的互不相同的存储位置标识从文本文件集合中提取对应的文本文件作为特征文本文件建立文本识别模型。通过上述步骤，根据不同文本文件存储位置不同导致携带不同存储位置标识的特点获取特征文本文件，使所建立的文本识别模型可以覆盖不同的文本文件，以保证所建立的文本识别模型的准确性，并克服相关技术中使用重复获取到的相同的文本文件所建立的文本识别模型的准确性较低的问题。进而保证采用本实施例中提供的文本识别模型建立方法所建立的文本识别模型可以准确识别出文本图片中的文本信息。

示例三是根据文本文件集合中文本文件的文件标识和文本文件集合中文本文件的存储位置标识，从文本文件集合中选择互不相同的文本文件作为特征文本文件的过程。

在示例三中，可以首先根据文本标识从文本文件集合中批量选取文本标识，此时，批量选取的文本标识可能相同，再将不同的文本标识存储在不同的存储位置上，相同的文本标识存储在相同的存储位置上，使不同的文本标识携带有互不相同的存储位置标识，然后，批量选取互不相同的存储位置标识，根据互不相同的存储位置标识得到互不相同的文件标识，从而在文本文件集合中获取对应的互不相同的文本文件作为特征文本文件，建立文本识别模型。通过上述步骤，将批量获取的可能重复的文件标识中相同的文件标识存储在相同的位置，保证了互不相同的文件标识对应互不相同的存储位置标识，根据不同存储位置标识筛选出不同的文件标识从文本文件集合中提取特征文本文件，使所建立的文本识别模型可以覆盖不同的文本文件，以保证所建立的文本识别模型的准确性，并克服相关技术中使用重复获取到的相同的文本文件所建立的文本识别模型的准确性较低的问题。进而保证采用本实施例中提供的文本识别模型建立方法所建立的文本识别模型可以准确识别出文本图片中的文本信息。

需要说明的是，本实施例仅以文本标识和存储位置标识为例说明如何获取互不相同的文本文件建立文本识别模型，其他可以区分互不相同的文本文件的标识或参数等信息也可以用来获取互不相同的文本文件，属于本发明的保护范围，在此不再赘述。

在上述步骤S102中，获取文本文件集合的方式可以是获取相关的文本文件集合，也可以是根据预定规则生成文本文件集合。生成文本文件集合的方式可以但不限于批量生成文本文件，再从生成的文本文件中选取组成文本文件集合的文本文件，也可以选取已有的文本文件组成文本文件集合。

在生成文本文件集合前，还可以判断是否对文本文件进行处理，其中，处理方式包括但不限于：模糊、噪声、锐化、光照等。

在本实施例中，为了获取文本文件集合，可以将获取的文本信息批量复制，得到大量的该文本信息，为每个文本信息设置不同的文本参数，得到互不相同的大量文本文件组成文本文件集合。通过上述步骤，为大量相同的文本信息设置不同的文本参数，得到互不相同的文本文件组成文本文件集合，保证了文本文件集合中存储的是文本信息相同但文本参数互不相同的文本文件，确保在之后对文本文件的识别过程中可以从各种形式的文本文件中识别出该文本信息。

此外，在本实施例中，文本信息的获取形式可以但不限于接收输入的文本字符串，或者，读取系统中已存储的文本字符串。

如果通过读取系统中已存储的文本字符串的方式获取文本信息，那么将读取的文本字符串按照预定规则分割成若干个不同的文本字符串，再在其中提取一个作为生成文本文件的文本信息。其中，分割单位可以但不限于是一行，多行，一个字，多个字，一个单词，多个单词等。

通过上述步骤，可以保证生成的文本文件携带有相同的文本信息，但文本信息的文本参数互不相同。满足了文本识别模型的建立条件。

在本实施例中，文本参数可以但不限于包括以下至少之一：字体格式、字体显示大小、空白字符大小比例、文字的间隔大小比例、文字的旋转角度、文字的字体颜色、文字的透明度参数、文字的加粗程度、文字的倾斜程度、文字的下划线绘制、背景图片、文本信息在背景图片中的显示位置。可选地，在本实施例中，可以但不限于调用开源计算机视觉库(OPENCV)的端口来设置上述文本信息的文本参数。

下面以背景图片为例说明文本参数的设置过程。

在获取文本信息后，然后为文本信息批量设置不同的文本参数，分别将文本参数互不相同的文本信息添加到从背景图片库中获取一张或多张背景图片中，同一个文本信息可以添加到不同的背景图片中生成不同的文本文件，不同的文本信息可以添加到同一张背景图片中生成不同的文本文件，从而得到大量的文本文件。

可选地，在上述步骤S104中，可以根据文本文件集合中文本文件的文件标识和/或文本文件集合中文本文件的存储位置标识从文本文件集合中选择互不相同的文本文件作为特征文本文件。

可选地，在根据文本文件集合中文本文件的文件标识和/或文本文件集合中文本文件的存储位置标识从文本文件集合中选择互不相同的文本文件作为特征文本文件时，可以根据预设算法获取第一预设数量的文本文件集合中的文件标识，得到文件标识集合，其中，文件标识集合中相同的文本文件标识所对应的文本文件的存储位置标识相同；获取文件标识集合中的文件标识对应的互不相同的存储位置标识；根据互不相同的存储位置标识从文件标识集合中筛选出第二预设数量的互不相同的文件标识；从文本文件集合中提取互不相同的文件标识对应的文本文件作为特征文本文件。

下面举例说明上述过程。

例1：根据互不相同的存储位置标识从文件标识集合中筛选出第二预设数量的互不相同的文件标识可以但不限于是如下过程：重复执行以下步骤，直至获取到的互不相同的文件标识的数量达到第二预设数量：判断当前获取到的互不相同的文件标识的数量是否达到第二预设数量；在数量未达到第二预设数量时，从存储位置标识集合中获取存储位置标识，并根据获取到的存储位置标识生成当前变量，其中，存储位置标识集合用于存储还未用于生成变量的存储位置标识；在预设随机数组中获取与当前变量对应的随机数；从文件标识集合中获取与该随机数对应的文件标识作为当前获取到的互不相同的文件标识；更新当前获取到的互不相同的文件标识的

为将存储位置标识转化为二进制后的二进制位的数量，W为将存储位置标识转化为二进制后的二进制位的编号(从0开始按低位到高位的顺序依次分别取值)，l表示存储位置标识的编号，l依次取从0到L-1的整数，I_W+l为从存储位置标识集合中获取的存储位置标识，存储位置标识集合用于存储还未用于生成n的I_W+l；赋值y_i＝V[n]，其中，V[n]是n在随机数组V[N]中对应的随机数；从文件标识集合中获取与yi对应的文件标识作为当前获取到的互不相同的文件标识。在上述过程中，L可以但不限于为预先设置的，W和l的编号依次递增，I_W+l对应存储位置标识集合中的存储位置标识，因为存储位置标识是不重复的，I_W+l本身就是不重复的，乘以2l，可以打乱存储位置标识的排列顺序，进一步保证获取的存储位置标识的随机性，其中，L越大，则存储位置标识的排列越随机，打乱存储位置标识的排列顺序后得到的随机数组V[N]也就越大。进一步为了兼顾存储位置标识的随机性和存储量之间的平衡，在本实施例中可以根据实际情况，在实现过程中合理选取L。

例2：根据预设算法获取第一预设数量的文本文件集合中的文件标识的过程可以是：根据预设随机数发生器(例如：线性同余随机数发生器)获取第一预设数量的所述文件标识。

可以通过以下公式根据线性同余随机数发生器获取第一预设数量的所述文件标识：由x_i＝(ax_i-1+c)mod(M)生成的随机数x1，x2…xi-1，xi构成第一预设数量的文件标识，其中，a，c，M，x0为预设参数，M>0，0<a<M，0≤c<M。

可选地，获取文本文件集合的过程可以是：获取文本信息；批量复制文本信息，得到多个文本信息；分别为多个文本信息设置文本参数，得到互不相同的文本文件，其中，所述文本文件集合包括所述互不相同的文本文件。

可选地，可以通过接收输入的第一文本字符串作为文本信息；或者读取系统中存储的第二文本字符串；根据预设策略分割第二文本字符串，得到文本字符串集合；提取文本字符串集合中的一个第三文本字符串作为文本信息的方式获取文本信息。

可选地，文本参数可以但不限于包括以下至少之一：文本信息中文字的字体格式参数、文本信息中文字的字体显示大小参数、文本信息中空白字符大小比例参数、文本信息中文字的间隔大小比例参数、文本信息中文字的旋转角度参数、文本信息中文字的字体颜色参数、文本信息中文字的透明度参数、文本信息中文字的加粗程度参数、文本信息中文字的倾斜程度参数、文本信息中文字的下划线绘制参数、背景图片、文本信息在背景图片中的显示位置参数。

在下面的示例和可选实施例中，文本文件以样本为例，文本文件集合以批量样本集合为例，特征文本文件以特征样本为例。

为了使本发明实施例的描述更加清楚，下面结合可选实施例进行描述和说明。

本可选实施例提出了一种用于文本定位、检测与识别的批量样本生成方法。

本可选实施例解决了相关的基于机器学习进行复杂背景文本图片的OCR时，可能重复获取到相同的文本文件导致建立的文本识别模型的准确性较低的问题。

本可选实施例的一种用于文本定位、检测与识别的文本识别模型生成方法包括如下步骤：

步骤1，加载文本信息，可提供两种加载方式：输入文本字符串，若为此种模式，执行步骤3；或者读取相关文本字符串，若为此种模式，执行步骤2；

步骤2，选取预定规则将读入的文本字符串分割成若干对象，将分割完成的若干文本字符串保存至指定路径；

步骤3，从背景图片库中选择要加载的背景图片；

步骤4，读取分割后文本字符串或读取输入的字符串，对其进行批量文本参数设置，文本参数包括以下至少之一：字体格式、字体显示大小、空白字符大小比例、间隔大小比例、旋转角度、显示位置、字体颜色、透明度设置、加粗程度、倾斜程度、下划线绘制等；

步骤5，将批量设置文本参数后的各类不同的文本信息添加到图片背景中，生成文本文件；

步骤6，根据需求，判断是否对文本文件进行图像处理：如需图像处理，执行步骤7，如无需图像处理，执行步骤8；

步骤7，对文本文件进行图像处理，其中，图像处理包括：模糊、噪声、锐化以及光照等；

步骤8，提供一种新型的改进型线性同余随机数发生器，保证获取特征文本文件的任意随机性：

步骤8-1、设定随机规则给生成的文本文件：

x_i＝(ax_i-1+c)mod(M)

其中，x0为初始文本文件，M为模数，M>0，a为乘子，0<a<M，c为增量，0≤c<M；x0，M，a，c为预设值。

步骤8-2、由步骤8-1生成x_i和ax_i-1，其中，x_i和ax_i-1为从文本文件集

进制后的二进制位的数量，W为将存储位置标识转化为二进制后的二进制位的编号(从0开始按低位到高位的顺序依次分别取值)，l表示存储位置标识的编号，l依次取从0到L-1的整数，I_W+l为整数ax_i-1或x_i在计算机中的存储位置指示的存储位置标识；

步骤8-4、赋值y_i＝V[n]，其中V[n]为辅助随机数组V[N]中的随机数；

步骤8-5、将得到的预设个数的随机数yi对应的xi提取，并获取其对应的文本文件作为特征文本文件；

步骤9，重新保存被选中的特征文本文件，对其重命名(例如：以顺序数字重命名)，生成文本识别模型。

具体结合以下示例进行说明，如图2所示是根据本发明可选实施例的文本识别模型建立方法的流程图，其中，文本字符串以格式为*.txt的文本文档为例。该流程包括如下步骤：

步骤S202，加载文本信息，判断是否读取文本字符串。其中，加载文本信息包括两种加载方式：输入文本字符串，或者从预存的文本字符串中获取。判断出是读取文本字符串(即需要从预存的文本字符串中获取)时，则执行步骤S204-2，判断出不是读取文本字符串(即需要输入文本字符串)时，则执行步骤S204-1。

步骤S204-1、输入文本字符串。

步骤S204-2、选取预定规则将读入的文本字符串分割成若干对象，根据需求选择“行分割”或“单词分割”；将分割完成的若干文本字符串(格式为*.txt)保存至指定路径，命名为路径_A(Path_A)；在文件路径Path_A下找到需要处理的分割好的文本文件，命名为文件source-text.txt。

步骤S206，加载背景图片。

从相关的背景图片库中选择要加载的背景图片(命名为background)，背景图片库为开放的，可根据需要添加新的图片文件进入，支持的图片格式为：Windows位图文件BMP、DIB，JPEG文件JPEG、JPG、JPE，便携式网络图PNG；便携式图像PBM，PGM，PPM、Sun rasters图像SR，RAS、TIFF图像TIFF，TIF、OpenEXR HDR图像EXR、JPEG 2000图片jp2。

步骤S208、批量操作，其中，步骤S208包括：

步骤S208-1、对文本字符串source-text.txt或输入的文本字符串进行文本参数批量设置：

批量字体格式设置：可选的格式包括但不限于如下字体库的各种字体：

TrueType fonts(and collections)、Type 1fonts、CID-keyed Type 1fonts、CFF fonts、OpenType fonts(both TrueType and CFF variants)、SFNT-based bitmap fonts、X11PCF fonts、Windows FNT fonts、BDF fonts(including anti-aliased ones)；

批量字体尺寸设置：通过调整字体尺寸参数，可以批量地设置字体显示大小、空白字符大小比例、间隔大小比例、旋转角度等尺寸参数；

批量字体位置设置：设置文本显示在图片的位置，可以但不限于通过批量地设置文本左上角第一个像素点的横纵坐标进行批量文本位置显示设置；

批量字体颜色设置：采用RGB格式，通过设置R\G\B的不同数值组合预先设定好的数组，生成批量的不同颜色字体；

批量字体透明度设置：设置范围可以为0～100％；

批量字体渲染效果设置：加粗(可单独设置加粗程度、垂直加粗或水平加粗)、倾斜(可设置不同的倾斜角度)、描边绘制、阴影绘制、下划线绘制等。

步骤S208-2、将批量调参后的各类不同的文本文件分别写入背景图片(background)。

步骤S208-3、根据需求，判断是否进行图像处理：如需进行图像处理，执行步骤S208-4，如无需进行图像处理，执行步骤S208-5。

步骤S208-4、组合选择对步骤S208-2中得到的一系列文本文件进行图像处理，图像处理可以包括模糊、噪声、锐化以及光照等；在图像处理后继续执行步骤S208-5。

步骤S208-5、重命名批量生成的文本文件(例如：以顺序数字重命名)，将文本文件存储为新的格式，并选取其保存路径_B(Path_B)。

步骤S210、生成特征文本文件。

在步骤S210中，提供了一种新型的改进型线性同余随机数发生器，保证生成特征样本的任意随机性；上述新型的改进型线性同余随机数发生器的生成过程可以如图3所示，通过上述改进型线性同余随机数发生器可以保证生成的特征文本文件的任意随机性。上述生成过程的流程如图3所示，包括如下步骤：

步骤S302、载入批量文本文件xi，设定随机规则给生成的批量文本文件：

x_i＝(ax_i-1+c)mod(M)

步骤S304、由步骤S302生成x_i和ax_i-1，其中，x_i和ax_i-1为从文本文件

化为二进制后的二进制位的数量，W为将存储位置标识转化为二进制后的二进制位的编号(从0开始按低位到高位的顺序依次分别取值)，l表示存储位置标识的编号，l依次取从0到L-1的整数，I_W+l为整数ax_i-1或x_i在计算机中的存储位置指示的存储位置标识。

步骤S308、为yi赋值，其中，y_i＝V[n]，V[n]为辅助随机数组V[N]中的随机数。

步骤S310、将得到的预设个数的随机数yi对应的xi提取，并在保存路径Path_B找到其对应的文本文件。

步骤S312、重新保存被选中的文本文件重命名(以顺序数字重命名)，保存为目标路径(Path_target)，生成批量特征文本文件。

需要说明的是，本发明并不限于使用上述方法来得到能够满足训练机器学习的样本数量，其他的随机方法也可以用来生成特征文本文件。

步骤S212、选取特征文本文件的保存格式和路径。

步骤S214、保存特征文本文件。

综上所述，本发明实施例和可选实施例能够根据需求大批量生成所需各种各样的文本文件，其优势如下：首先，输入的文本既可以通过编辑命令“个性化”输入，又可以直接读取相关的文本字符串，分割得到所需的文本段落。其次，加入大量方法，实现字体格式、字体显示大小、空白字符大小比例、间隔大小比例、旋转角度、显示位置、字体颜色、透明度设置、加粗程度、倾斜程度、下划线绘制等不同文本格式批量一次性生成，又加入模糊、噪声、锐化以及光照等一系列的图像处理操作，进一步扩展样本的多样性。此外，提供一种新型的改进型线性同余随机数发生器方法，保证了生成样本的“随机性”，为后续的基于机器学习的模型训练提供更加完善合理的样本，确保其训练出的模型具有更高的准确性。同时，文本识别模型建立方法，显著节约了人力成本，大幅度提高机器学习的训练效率。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例二

在本实施例中还提供了一种文本识别模型建立装置，该装置用于实现上述实施例及可选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图4是根据本发明实施例的一种可选的文本识别模型建立装置的结构框图，如图4所示，该装置包括：

1)获取模块42，设置为获取文本文件集合；

2)选择模块44，耦合至获取模块42，设置为从文本文件集合中选择互不相同的文本文件作为特征文本文件；

3)建立模块46，耦合至选择模块44，设置为使用特征文本文件建立文本识别模型，其中，文本识别模型用于识别待识别的文本文件中的文本信息。

可选地，本实施例可以但不限于应用于建立文本识别模型的场景中。特别是在光学字符识别场景下建立用于机器学习的文本识别模型。

通过上述装置，首先获取模块42获取大量的文本文件组成文本文件集合，选择模块44再从文本文件集合中自动选取互不相同的文本文件由建立模块46来建立用于识别文本文件中文本信息的文本识别模型，使所建立的文本识别模型可以覆盖不同的文本文件，以保证所建立的文本识别模型的准确性，并克服相关技术中使用重复获取到的相同的文本文件所建立的文本识别模型的准确性较低的问题。进而保证采用本实施例中提供的文本识别模型建立方法所建立的文本识别模型可以准确识别出文本图片中的文本信息。

在本实施例中，选择模块44可以但不限于设置为根据文本文件集合中文本文件的文件标识和/或文本文件集合中文本文件的存储位置标识从文本文件集合中选择互不相同的文本文件作为特征文本文件。

下面通过三个示例说明选择模块44从所述文本文件集合中选择互不相同的文本文件作为特征文本文件的过程。

示例一是选择模块44根据文本文件集合中文本文件的文件标识，从文本文件集合中选择互不相同的文本文件作为特征文本文件的过程。

在示例一中，由于在文本文件集合中不同的文本文件携带有不同的文件标识，因此选择模块44可以通过预设算法批量选择文件标识，再删除其中相同的文件标识，保留互不相同的文件标识。然后，根据筛选出的互不相同的文件标识从文本文件集合中提取对应的文本文件作为特征文本文件建立文本识别模型。通过上述装置，根据不同文本文件携带不同文本标识的特点获取特征文本文件，使所建立的文本识别模型可以覆盖不同的文本文件，以保证所建立的文本识别模型的准确性，并克服相关技术中使用重复获取到的相同的文本文件所建立的文本识别模型的准确性较低的问题。进而保证采用本实施例中提供的文本识别模型建立方法所建立的文本识别模型可以准确识别出文本图片中的文本信息。

示例二是选择模块44根据文本文件集合中文本文件的存储位置标识，从文本文件集合中选择互不相同的文本文件作为特征文本文件的过程。

在示例二中，由于在文本文件集合中不同的文本文件存储位置不同，因此携带有不同的存储位置标识，选择模块44可以通过预设算法批量选择存储位置标识，再删除其中相同的存储位置标识，保留互不相同的存储位置标识。然后，根据筛选出的互不相同的存储位置标识从文本文件集合中提取对应的文本文件作为特征文本文件建立文本识别模型。通过上述装置，根据不同文本文件存储位置不同导致携带不同存储位置标识的特点获取特征文本文件，使所建立的文本识别模型可以覆盖不同的文本文件，以保证所建立的文本识别模型的准确性，并克服相关技术中使用重复获取到的相同的文本文件所建立的文本识别模型的准确性较低的问题。进而保证采用本实施例中提供的文本识别模型建立方法所建立的文本识别模型可以准确识别出文本图片中的文本信息。

示例三是选择模块44根据文本文件集合中文本文件的文件标识和文本文件集合中文本文件的存储位置标识，从文本文件集合中选择互不相同的文本文件作为特征文本文件的过程。

在示例三中，选择模块44可以首先根据文本标识从文本文件集合中批量选取文本标识，此时，批量选取的文本标识可能相同，再将不同的文本标识存储在不同的存储位置上，相同的文本标识存储在相同的存储位置上，使不同的文本标识携带有互不相同的存储位置标识，然后，批量选取互不相同的存储位置标识，根据互不相同的存储位置标识得到互不相同的文件标识，从而在文本文件集合中获取对应的互不相同的文本文件作为特征文本文件，建立文本识别模型。通过上述装置，将批量获取的可能重复的文件标识中相同的文件标识存储在相同的位置，保证了互不相同的文件标识对应互不相同的存储位置标识，根据不同存储位置标识筛选出不同的文件标识从文本文件集合中提取特征文本文件，使所建立的文本识别模型可以覆盖不同的文本文件，以保证所建立的文本识别模型的准确性，并克服相关技术中使用重复获取到的相同的文本文件所建立的文本识别模型的准确性较低的问题。进而保证采用本实施例中提供的文本识别模型建立方法所建立的文本识别模型可以准确识别出文本图片中的文本信息。

上述获取模块42获取文本文件集合的方式可以是获取相关的文本文件集合，也可以是根据预定规则生成文本文件集合。生成文本文件集合的方式可以但不限于批量生成文本文件，再从生成的文本文件中选取组成文本文件集合的文本文件，也可以选取已有的文本文件组成文本文件集合。

获取模块42还可以在生成文本文件集合前，判断是否对文本文件进行处理，其中，处理方式包括但不限于：模糊、噪声、锐化、光照等。

在本实施例中，获取模块42为了获取文本文件集合，可以将获取的文本信息批量复制，得到大量的该文本信息，为每个文本信息设置不同的文本参数，得到互不相同的大量文本文件组成文本文件集合。通过上述装置，为大量相同的文本信息设置不同的文本参数，得到互不相同的文本文件组成文本文件集合，保证了文本文件集合中存储的是文本信息相同但文本参数互不相同的文本文件，确保在之后对文本文件的识别过程中可以从各种形式的文本文件中识别出该文本信息。

此外，在本实施例中，获取模块42获取文本信息的形式可以但不限于接收输入的文本字符串，或者，读取系统中已存储的文本字符串。

如果通过读取系统中已存储的文本字符串的方式获取文本信息，那么获取模块42将读取的文本字符串按照预定规则分割成若干个不同的文本字符串，再在其中提取一个作为生成文本文件的文本信息。其中，分割单位可以但不限于是一行，多行，一个字，多个字，一个单词，多个单词等。

通过上述装置，可以保证生成的文本文件携带有相同的文本信息，但文本信息的文本参数互不相同。满足了文本识别模型的建立条件。

在本实施例中，文本参数可以但不限于包括以下至少之一：字体格式、字体显示大小、空白字符大小比例、文字的间隔大小比例、文字的旋转角度、文字的字体颜色、文字的透明度参数、文字的加粗程度、文字的倾斜程度、文字的下划线绘制、背景图片、文本信息在背景图片中的显示位置。可选地，在本实施例中，可以但不限于调用OPENCV的端口来设置上述文本信息的文本参数。

下面以背景图片为例说明文本参数的设置过程。

获取模块42在获取文本信息后，为文本信息批量设置不同的文本参数，分别将文本参数互不相同的文本信息添加到从背景图片库中获取一张或多张背景图片中，同一个文本信息可以添加到不同的背景图片中生成不同的文本文件，不同的文本信息可以添加到同一张背景图片中生成不同的文本文件，从而得到大量的文本文件。

可选地，选择模块44设置为：根据文本文件集合中文本文件的文件标识和/或文本文件集合中文本文件的存储位置标识从文本文件集合中选择互不相同的文本文件作为特征文本文件。

图5是根据本发明实施例的另一种可选的文本识别模型建立装置的结构框图，如图5所示，可选地，选择模块44包括：

1)第一获取单元52，设置为根据预设算法获取第一预设数量的文本文件集合中的文件标识，得到文件标识集合，其中，文件标识集合中相同的文本文件标识所对应的文本文件的存储位置标识相同；

2)第二获取单元54，耦合至第一获取单元52，设置为获取文件标识集合中的文件标识对应的互不相同的存储位置标识；

3)选择单元56，耦合至第二获取单元54，设置为根据互不相同的存储位置标识从文件标识集合中选择第二预设数量的互不相同的文件标识；

4)提取单元58，耦合至选择单元56，设置为从文本文件集合中提取互不相同的文件标识对应的文本文件作为特征文本文件。

图6是根据本发明实施例的另一种可选的文本识别模型建立装置的结构框图，如图6所示，可选地，获取模块42包括：

1)第三获取单元62，设置为获取文本信息；

2)复制单元64，耦合至第三获取单元62，设置为批量复制文本信息，得到多个文本信息；

3)设置单元66，耦合至复制单元64，设置为分别为多个文本信息设置文本参数，得到互不相同的文本文件，其中，文本文件集合包括互不相同的文本文件。

可选地，第三获取单元62设置为：接收输入的第一文本字符串作为文本信息；或者读取系统中存储的第二文本字符串；根据预设策略分割第二文本字符串，得到文本字符串集合；提取文本字符串集合中的一个第三文本字符串作为文本信息。

可选地，文本参数包括以下至少之一：文本信息中文字的字体格式参数、文本信息中文字的字体显示大小参数、文本信息中空白字符大小比例参数、文本信息中文字的间隔大小比例参数、文本信息中文字的旋转角度参数、文本信息中文字的字体颜色参数、文本信息中文字的透明度参数、文本信息中文字的加粗程度参数、文本信息中文字的倾斜程度参数、文本信息中文字的下划线绘制参数、背景图片、文本信息在背景图片中的显示位置参数。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述模块分别位于多个处理器中。

实施例三

本发明的实施例还提供了一种存储介质。在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的程序代码：

步骤S1，获取文本文件集合；

步骤S2，从文本文件集合中选择互不相同的文本文件作为特征文本文件；

步骤S3，使用特征文本文件建立文本识别模型，其中，文本识别模型用于识别待识别的文本文件中的文本信息。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的可选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

工业实用性

在本发明实施例中，通过本发明实施例，在获取文本文件集合后；通过从文本文件集合中选择互不相同的文本文件作为特征文本文件；以实现使用上述特征文本文件建立文本识别模型，其中，文本识别模型用于识别待识别的文本文件中的文本信息。也就是说，通过从文本文件集合中自动选取互不相同的文本文件作为特征文本文件，来建立用于识别文本文件中文本信息的文本识别模型，从而使所建立的文本识别模型可以覆盖不同的文本文件，以保证所建立的文本识别模型的准确性，并克服相关技术中使用重复获取到的相同的文本文件所建立的文本识别模型的准确性较低的问题。进而保证采用本实施例中提供的文本识别模型建立方法所建立的文本识别模型可以准确识别出文本图片中的文本信息。此外，通过从文本文件集合中自动选取互不相同的文本文件来建立文本识别模型的方式，还可以减少作为训练样本，用于建立文本识别模型的文本文件的数量，即减少重复获取到的文本文件的数量，从而实现提高建立文本识别模型的效率，进而避免所获取的文本文件数量过多所导致的建立文本识别模型的效率较低问题。

Claims

一种文本识别模型建立方法，包括：

获取文本文件集合；

从所述文本文件集合中选择互不相同的文本文件作为特征文本文件；

使用所述特征文本文件建立文本识别模型，其中，所述文本识别模型用于识别待识别的文本文件中的文本信息。
根据权利要求1所述的方法，其中，从所述文本文件集合中选择所述互不相同的文本文件作为所述特征文本文件包括：

根据所述文本文件集合中文本文件的文件标识和/或所述文本文件集合中文本文件的存储位置标识，从所述文本文件集合中选择所述互不相同的文本文件作为所述特征文本文件。
根据权利要求2所述的方法，其中，根据所述文本文件集合中文本文件的所述文件标识和/或所述文本文件集合中文本文件的所述存储位置标识从所述文本文件集合中选择所述互不相同的文本文件作为所述特征文本文件包括：

根据预设算法获取第一预设数量的所述文本文件集合中的所述文件标识，得到文件标识集合，其中，所述文件标识集合中相同的文本文件标识所对应的文本文件的存储位置标识相同；

获取所述文件标识集合中的所述文件标识对应的互不相同的存储位置标识；

根据所述互不相同的存储位置标识从所述文件标识集合中筛选出第二预设数量的互不相同的文件标识；

从所述文本文件集合中提取所述互不相同的文件标识对应的文本文件作为所述特征文本文件。
根据权利要求1所述的方法，其中，所述获取文本文件集合包括：

获取文本信息；

批量复制所述文本信息，得到多个所述文本信息；

分别为多个所述文本信息设置文本参数，得到互不相同的文本文件，其中，所述文本文件集合包括所述互不相同的文本文件。
根据权利要求4所述的方法，其中，所述获取文本信息包括：

接收输入的第一文本字符串作为所述文本信息；或者

读取系统中存储的第二文本字符串；根据预设策略分割所述第二文本字符串，得到文本字符串集合；提取所述文本字符串集合中的一个第三文本字符串作为所述文本信息。
根据权利要求4或5所述的方法，其中，所述文本参数包括以下至少之一：所述文本信息中文字的字体格式参数、所述文本信息中文字的字体显示大小参数、所述文本信息中空白字符大小比例参数、所述文本信息中文字的间隔大小比例参数、所述文本信息中文字的旋转角度参数、所述文本信息中文字的字体颜色参数、所述文本信息中文字的透明度参数、所述文本信息中文字的加粗程度参数、所述文本信息中文字的倾斜程度参数、所述文本信息中文字的下划线绘制参数、背景图片、所述文本信息在所述背景图片中的显示位置参数。
一种文本识别模型建立装置，包括：

获取模块，设置为获取文本文件集合；

选择模块，设置为从所述文本文件集合中选择互不相同的文本文件作为特征文本文件；

建立模块，设置为使用所述特征文本文件建立文本识别模型，其中，所述文本识别模型用于识别待识别的文本文件中的文本信息。
根据权利要求7所述的装置，其中，所述选择模块设置为：

根据所述文本文件集合中文本文件的文件标识和/或所述文本文件集合中文本文件的存储位置标识从所述文本文件集合中选择所述互不相同的文本文件作为所述特征文本文件。
根据权利要求8所述的装置，其中，所述选择模块包括：

第一获取单元，设置为根据预设算法获取第一预设数量的所述文本文件集合中的所述文件标识，得到文件标识集合，其中，所述文件标识集合中相同的文本文件标识所对应的文本文件的存储位置标识相同；

第二获取单元，设置为获取所述文件标识集合中的所述文件标识对应的互不相同的存储位置标识；

选择单元，设置为根据所述互不相同的存储位置标识从所述文件标识集合中选择第二预设数量的互不相同的文件标识；

提取单元，设置为从所述文本文件集合中提取所述互不相同的文件标识对应的文本文件作为所述特征文本文件。
根据权利要求7所述的装置，其中，所述获取模块包括：

第三获取单元，设置为获取文本信息；

复制单元，设置为批量复制所述文本信息，得到多个所述文本信息；

设置单元，设置为分别为多个所述文本信息设置文本参数，得到互不相同的文本文件，其中，所述文本文件集合包括所述互不相同的文本文件。
根据权利要求10所述的装置，其中，所述第三获取单元设置为：

接收输入的第一文本字符串作为所述文本信息；或者

读取系统中存储的第二文本字符串；根据预设策略分割所述第二文本字符串，得到文本字符串集合；提取所述文本字符串集合中的一个第三文本字符串作为所述文本信息。