WO2022033095A1

WO2022033095A1 - 一种文本区域的定位方法及装置

Info

Publication number: WO2022033095A1
Application number: PCT/CN2021/093660
Authority: WO
Inventors: 费志军; 邱雪涛; 何朔
Original assignee: 中国银联股份有限公司
Priority date: 2020-08-14
Filing date: 2021-05-13
Publication date: 2022-02-17
Also published as: CN112016546A; TW202207077A; TWI821671B

Abstract

一种文本区域的定位方法及装置，属于计算机技术领域，涉及人工智能和计算机视觉技术，用于提高对商户门头图片中文字区域定位的精确性。其中，文本区域的定位方法包括：获取目标图像中各个像素点的像素值（201）；根据像素值，从所述目标图像的所有像素点中确定文本像素点，并由文本像素点形成多个文本连通域（202）；针对任意两个文本连通域，根据文本连通域中各个像素点的颜色值，计算所述两个文本连通域之间的差异特征值，并根据所述两个文本连通域之间的距离，计算所述两个文本连通域之间的邻接特征值（203）；根据差异特征值和邻接特征值，将所述多个文本连通域进行合并（204）；根据合并后的文本连通域的面积，确定所述目标图像中的目标文本区域（205）。

Description

一种文本区域的定位方法及装置

相关申请的交叉引用

本申请要求在2020年08月14日提交中国专利局、申请号为202010817763.0、申请名称为“一种文本区域的定位方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及计算机技术领域，尤其涉及一种文本区域的定位方法及装置。

背景技术

门头，是指企业、事业单位和个体工商户在门口设置的牌匾及相关设施，是一个商铺店门外的装饰形式，是美化销售场所和装饰店铺、吸引顾客的一种手段。

商户的门头中一般包含有商户名称、商户地址等文字内容，在审核商户真实性时，需要巡检人员前往商铺的地址进行拍照，然后再由审核人员进行信息核对，效率低且易出错。目前，为了实现商户门头图片中自动识别文字，需要在街拍的商户门头图片中定位商户名称的文字位置。

现有的图像文字识别一般是对图像中的全部文字进行识别，不能对商户门头图片中的商户名称文字区域和其他文字区域进行有效区分，影响后续商户名称识别的准确性。

发明内容

本发明实施例提供了一种文本区域的定位方法及装置，用于提高对商户门头图片中文字区域定位的精确性。

一方面，本发明实施例提供了一种文本区域的定位方法，包括：

获取目标图像中各个像素点的像素值；

根据像素值，从所述目标图像的所有像素点中确定文本像素点，并由文本像素点形成多个文本连通域；

针对任意两个文本连通域，根据文本连通域中各个像素点的颜色值，计算所述两个文本连通域之间的差异特征值，并根据所述两个文本连通域之间的距离，计算所述两个文本连通域之间的邻接特征值；

根据差异特征值和邻接特征值，将所述多个文本连通域进行合并；

根据合并后的文本连通域的面积，确定所述目标图像中的目标文本区域。

可选的，所述根据像素值，从所述目标图像的所有像素点中确定文本像素点，包括：

将所述目标图像输入已训练的像素分类模型中，通过像素分类模型中交替的卷积操作和池化操作得到所有像素点的像素特征提取结果；

根据所述像素分类模型学习到的历史图像中像素点的分类结果，确定所述目标图像中每个像素点的分类结果，所述像素点的分类结果为所述像素点为文本像素点或非文本像素点。

可选的，所述由文本像素点形成多个文本连通域，包括：

针对每一个文本像素点，确定所述文本像素点与所述文本像素点相邻的像素点之前的邻接关系；

根据邻接关系，连通文本像素点，形成多个文本连通域。

可选的，所述由文本像素点形成多个文本连通域之后，还包括：

确定每个文本连通域的最小外接矩形；

所述根据文本连通域中各个像素点的颜色值，计算所述两个文本连通域之间的差异特征值，包括：

根据每个文本连通域对应的最小外接矩形中各个像素的颜色值，计算两个最小外接矩形之间的差异特征值；

所述根据所述两个文本连通域之间的距离，计算所述两个文本连通域之间的邻接特征值，包括：

根据两个文本连通域的最小外接矩形之间的重叠面积，计算所述两个最小外接矩形之间的邻接特征值。

可选的，所述根据每个文本连通域对应的最小外接矩形中各个像素的颜色值，计算两个最小外接矩形之间的差异特征值，包括：

针对每一个文本连通域的最小外接矩形，获取所述最小外接矩形中各个像素点的颜色值；计算所有像素点的颜色值的均值，作为所述最小外接矩形的颜色特征值；所述颜色特征值包括红色分量值、绿色分量值和蓝色分量值；

根据最小外接矩形的颜色特征值，计算所述两个最小外接矩形之间的多个颜色差异分量；

选取值最大的颜色差异分量作为所述两个最小外接矩形之间的差异特征值。

可选的，所述根据两个文本连通域的最小外接矩形之间的重叠面积，计算所述两个最小外接矩形之间的邻接特征值，包括：

将两个最小外接矩形之间的重叠面积与所述两个最小外接矩形的面积之和相比，得到所述两个最小外接矩形之间的邻接特征值。

可选的，所述根据差异特征值和邻接特征值，将所述多个文本连通域进行合并，包括：

确定差异特征值小于颜色阈值，并且邻接特征值大于面积阈值的两个最小外接矩形存在关联关系；

利用并查集算法，根据关联关系对所有最小外接矩形进行合并。

另一方面，本发明实施例还提供一种图像文字识别方法，所述方法包括：

确定目标图像中的目标文本区域，其中，所述目标图像中的目标文本区域是通过如上述文本区域的定位方法得到的；

将所述目标文本区域输入已训练的特征提取模型中，得到所述目标文本区域的目标特征向量，所述特征提取模型利用训练文本图像以及对应的文字信息进行训练；

将所述目标特征向量与标注样本的标注特征向量进行相似度对比，确定相似度最大的标注文本图像，所述标注样本包括标注文本图像、对应的标注特征向量以及文字信息；

将所述相似度最大的标注图像的文字信息作为所述目标文本区域的文字信息。

另一方面，本发明实施例还提供一种文本区域的定位装置，所述装置包括：

获取单元，用于获取目标图像中各个像素点的像素值；

连通单元，用于根据像素值，从所述目标图像的所有像素点中确定文本像素点，并由文本像素点形成多个文本连通域；

计算单元，用于针对任意两个文本连通域，根据文本连通域中各个像素点的颜色值，计算所述两个文本连通域之间的差异特征值，并根据所述两个文本连通域之间的距离，计算所述两个文本连通域之间的邻接特征值；

合并单元，用于根据差异特征值和邻接特征值，将所述多个文本连通域进行合并；

过滤单元，用于根据合并后的文本连通域的面积，确定所述目标图像中的目标文本区域。

可选的，所述连通单元，具体用于：

根据邻接关系，连通文本像素点，形成多个文本连通域。

可选的，所述计算单元，具体用于：

针对任一文本连通域，获取所述文本连通域中各个像素点的颜色值；计算所有像素点的颜色值的均值，作为所述文本连通域的颜色特征值；所述颜色特征值包括红色分量值、绿色分量值和蓝色分量值；

根据文本连通域的颜色特征值，计算所述两个文本连通域之间的多个颜色差异分量；

选取值最大的颜色差异分量作为所述两个连通域之间的差异特征值。

可选的，所述计算单元，具体用于：

将所述两个文本连通域之间的距离与所述两个文本连通域的面积之和相比，得到所述两个文本连通域之间的邻接特征值；

可选的，所述合并单元，具体用于：

确定差异特征值小于颜色阈值，并且邻接特征值大于面积阈值的两个文本连通域存在关联关系；

根据关联关系，利用并查集算法对所有文本连通域进行合并。

可选的，所述连通单元，还用于确定每个文本连通域的最小外接矩形；

所述计算单元，还用于根据每个文本连通域对应的最小外接矩形中各个像素的颜色值，计算所述两个文本连通域之间的差异特征值；根据两个文本连通域的最小外接矩形之间的重叠面积，计算所述两个文本连通域之间的邻接特征值。

另一方面，本发明实施例还提供一种图像文字识别装置，所述装置包括：

定位单元，所述定位单元包括如上述的文本区域的定位装置；

将所述目标文本区域输入特征提取模型中，得到所述目标文本区域的目标特征向量；

将所述目标特征向量与标注样本的标注特征向量相对比，确定相似度最大的标注图像，所述标注样本包括标注图像、对应的标注特征向量以及文字信息；

另一方面，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时，实现第一方面的文本区域的定位方法。

另一方面，本发明实施例还提供一种电子设备，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，当所述计算机程序被所述处理器执行时，使得所述处理器实现第一方面的文本区域的定位方法。

本发明实施例在对目标图像进行文本区域定位时，获取目标图像中各个像素点的像素值。根据像素值，从目标图像的所有像素点中确定文本像素点，并由文本像素点形成多个文本连通域。针对任意两个文本连通域，根据文本连通域中各个像素点的颜色值，计算这两个文本连通域之间的差异特征值，同时，根据两个文本连通域之间的距离，计算这两个文本连通域之间的邻接特征值。之后，根据差异特征值和邻接特征值，将多个文本连通域进行合并，并根据合并后的文本连通域的面积，确定目标图像中的目标文本区域。本发明实施例中，计算文本连通域之间的差异特征值和邻接特征值，根据这两个条件将多个文本连通域进行合并，从而将颜色相近且距离相近的文本连通域合并，这样，通过颜色和距离可将商户门头图片中名称的文字进行合并，形成目标文本区域。且由于商户门头图片中商户名称所占面积最大，因此商户名称对应的合并后的文本连通域的面积最大，可以根据面积对合并后的文本连通域进行筛选，从而确定出目标文本区域。本发明实施例可以对商户门头图片中文字区域与图片区域进行有效区分，且对不同文字区域进行有效区分，从而提高了目标文本区域定位的准确性，进一步保证后续商户名称识别的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种文本区域的定位方法的系统架构示意图；

图2为本发明实施例提供的一种文本区域的定位方法的流程图；

图3为本发明实施例提供的一种CNN像素分类模型的结构示意图；

图4为本发明实施例提供的另一种文本区域的定位方法的流程图；

图5为本发明实施例提供的一种文本区域的定位装置的结构示意图；

图6为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

下文中所用的词语“示例性”的意思为“用作例子、实施例或说明性”。作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

文中的术语“第一”、“第二”仅用于描述目的，而不能理解为明示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征，在本发明实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。此外，术语“包括”以及它们任何变形，意图在于覆盖不排他的保护。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

以下对本发明实施例中的部分用语进行解释说明，以便于本领域技术人员理解。

CNN：(Convolutional Neural Networks，卷积神经网络)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks)，是深度学习(deep learning)的代表算法之一。卷积神经网络具有表征学习(representation learning)能力，能够按其阶层结构对输入信息进行平移不变分类(shift-invariant classification)，因此也被称为“平移不变人工神经网络。

DBN：(Deep belief network，深度置信网络)神经网络的一种，包含全连接计算且具有深度结构的前馈神经网络，既可以用于非监督学习，类似于一个自编码机；也可以用于监督学习，作为分类器来使用。从非监督学习来讲，其目的是尽可能地保留原始特征的特点，同时降低特征的维度。从监督学习来讲，其目的在于使得分类错误率尽可能地小。而不论是监督学习还是非监督学习，DBN的本质都是如何得到更好的特征表达。

RNN：(Recurrent neural network，递归神经网络)包含循环链接结构且具有深度结构的前馈神经网络。是一类以序列(sequence)数据为输入，在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络(recursive neural network)。递归神经网络具有记忆性、参数共享并且图灵完备(Turing completeness)，因此在对序列的非线性特征进行学习时具有一定优势。递归神经网络在自然语言处理(Natural Language Processing,NLP)，例如语音识别、语言建模、机器翻译等领域有应用，也被用于各类时间序列预报。引入了CNN构筑的递归神经网络可以处理包含序列输入的计算机视觉问题。

CRAFT：(Character Region Awareness For Text detection，文本检测中的字符区域识别)一种用于文本定位的深度网络结构，提出单字分割以及单字间分割的方法，更符合目标检测这一核心概念，不是把文本框当做目标，这样使用小感受野也能预测大文本和长文本，只需要关注字符级别的内容而不需要关注整个文本实例，还提出如何利用现有文本检测数据集合成数据得到真实数据的单字标注的弱监督方法。

CTPN：(Connectionist Text Proposal Network，基于链接关系的文本区域建议网络)一种用于文本定位的深度网络结构，CTPN结合CNN与LSTM深度网络，能有效的检测出复杂场景的横向分布的文字，是目前效果比较好的文字检测算法。

PSEnet：(Progressive Scale Expansion Network，渐进式规模扩张网络)，一种用于文本定位的深度网络结构，是一种新的实例分割网络，有两方面的优势。首先，PSEnet作为一种基于分割的方法，能够对任意形状的文本进行定位；其次，该模型提出了一种渐进的尺度扩展算法，该算法可以成功地识别相邻文本实例。

VGG：(Very Deep Convolutional Networks For Large-scale Image Recognition，面向大规模图像识别的深度卷积网络)包含卷积计算且具有深度结构的前馈神经网络，在VGG中，使用了3个3×3卷积核来代替7×7卷积核，使用了2个3×3卷积核来代替5×5卷积核，这样做的主要目的是在保证具有相同感知野的条件下，提升了网络的深度，在一定程度上提升了神经网络的效果。

最小外接矩形：是指以二维坐标表示的若干二维形状(例如点、直线、多边形)的最大范围，即以给定的二维形状各顶点中的最大横坐标、最小横坐标、最大纵坐标、最小纵坐标定下边界的矩形。这样的一个矩形包含给定的二维形状，且边与坐标轴平行。最小外接矩形是最小外接框(minimum bounding box)的二维形式。

像素点：是指在由一个数字序列表示的图像中的一个最小单位，也称为像素。像素是整个图像中不可分割的单位或者是元素。每一个点阵图像包含了一定量的像素，这些像素决定图像在屏幕上所呈现的大小。一张图片由好多的像素点组成。例如图片尺寸是500×338的，表示图片是由一个500×338的像素点矩阵构成的，这张图片的宽度是500个像素点的长度，高度是338个像素点的长度，共有500×338＝149000个像素点。把鼠标放在一个图片上，这个时候会显示尺寸和大小，这里的尺寸就是像素。

颜色值：即RGB(Red Green Blue，红绿蓝)色彩模式，是工业界的一种颜色标准，是通过对红(R)、绿(G)、蓝(B)三个颜色通道的变化以及它们相互之间的叠加来得到各式各样的颜色的，RGB即是代表红、绿、蓝三个通道的颜色，这个标准几乎包括了人类视力所能感知的所有颜色，是运用最广的颜色系统之一。电脑屏幕上的所有颜色，都由这红色绿色蓝色三种色光按照不同的比例混合而成的。一组红色绿色蓝色就是一个最小的显示单位。屏幕上的任何一个像素点的颜色都可以由一组RGB值来记录和表达。在电脑中，RGB的所谓“多少”就是指亮度，并使用整数来表示。通常情况下，RGB各有256级亮度，用数字表示为从0、1、2...直到255。按照计算，256级的RGB色彩总共能组合出约1678万种色彩，即256×256×256＝16777216。

并查集：是一种用来管理元素分组情况的树型的数据结构，用于处理一些不相交集合(Disjoint Sets)的合并及查询问题。常常在使用中以森林来表示。并查集可以高效地进行如下操作：查询元素a和元素b是否属于同一组；合并元素a和元素b所在的组。

为了解决相关技术中的技术问题，本发明实施例提供了一种文本区域的定位方法及装置。本发明实施例提供的文本区域的定位方法可以应用于目标文本区域的定位场景、文本识别场景等。

下面对本申请实施例的技术方案能够适用的应用场景做一些简单介绍，需要说明的是，以下介绍的应用场景仅用于说明本申请实施例而非限定。在具体实施时，可以根据实际需要灵活地应用本申请实施例提供的技术方案。

为进一步说明本申请实施例提供的技术方案，下面结合附图以及具体实施方式对此进行详细的说明。虽然本申请实施例提供了如下述实施例或附图所示的方法操作步骤，但基于常规或者无需创造性的劳动在所述方法中可以包括更多或者更少的操作步骤。在逻辑上不存在必要因果关系的步骤中，这些步骤的执行顺序不限于本申请实施例提供的执行顺序。

本发明实施例提供的文本区域的定位方法的一种应用场景可以参见图1所示，该应用场景中包括终端设备101、服务器102和数据库103。

其中，终端设备101为具有拍照或摄像功能，可以安装各类客户端，并且能够将已安装的客户端的运行界面进行显示的电子设备，该电子设备可以是移动的，也可以是固定的。例如，手机、平板电脑、笔记本电脑、台式电脑、各类可穿戴设备、智能电视、车载设备或其它能够实现上述功能的电子设备等。客户端可以是视频客户端或浏览器客户端等。各终端设备101通过通信网络与服务器102连接，该通信网络可以是有线网络或无线网络。服务器102可以是客户端对应的服务器，可以是一台服务器或由若干台服务器组成的服务器集群或云计算中心，或者是一个虚拟化平台。

其中，图1是以数据库103独立于所述服务器102存在进行说明的，在其他可能的实现方式中，数据库103也可以位于服务器102中。

服务器102与数据库103连接，数据库103中存储有历史图像、标注样本、训练文本图像等，服务器102接收终端设备101发送的待定位的目标图像，根据目标图像中各个像素点的像素值，确定文本像素点，并形成多个文本连通域，再计算任意两个文本连通域之间的差异特征值和邻接特征值，根据差异特征值和邻接特征值将多个文本连通域合并，并根据合并后的文本连通域的面积，确定目标图像中的目标文本区域，从而实现文本区域的定位。进一步地，服务器102还将确定出的目标文本区域输入已训练的特征提取模型中，得到目标特征向量，并将目标特征向量与标注样本的标注特征向量进行相似度对比，确定相似度最大的标注文本图像，将相似度最大的标注图像的文字信息作为目标文本区域的文字信息，从而实现图像中目标文本区域的文字识别。

需要说明的是，本发明提供的文本区域的定位方法可以应用于服务器102，由服务器执行本发明实施例提供的文本区域的定位方法；也可以应用于终端设备的客户端中，由终端设备101实施本发明提供的文本区域的定位方法，还可以由服务器102与终端设备101中的客户端配合完成。

图2示出了本发明一个实施例提供的文本区域的定位方法的流程图。如图2所示，该方法包括如下步骤：

步骤S201，获取目标图像中各个像素点的像素值。

其中，目标图像可以包括但不限于jpg、bmp、tif、gif、png等格式的图像文件，目标图像也可以是截图。目标图像可以是终端设备实时拍摄后上传的图像，或者目标图像可以是从网络中获取的图像，或者，目标图像可以是本地存储的图像。

服务器获取目标图像后，确定目标图像中各个像素点的像素值。像素值是图像被数字化时由计算机赋予的值，它代表了一个像素点的平均亮度信息，或者说是该像素点的平均反射(透射)密度信息。本发明实施例中，像素点的像素值可以是RGB色彩模式的颜色值，也可以是HSV(Hue-Saturation-Value，色调-饱和度-明度)颜色模型的颜色值，还可以是像素点的灰度值。

本领域技术人员应能理解，上述几种场景和图像来源仅为举例，基于这些范例进行的适当变化也可适用于本发明，本发明实施例并不对目标图像的来源和场景进行限定。

步骤S202、根据像素值，从所述目标图像的所有像素点中确定文本像素点，并由文本像素点形成多个文本连通域。

具体实施过程中，目标图像中的像素点可以分为文本像素点和非文本像素点，根据像素点的像素值可以将目标图像中的所有像素点进行分类，确定每一个像素点是文本像素点还是非文本像素点。具体地，可以利用算法模型对像素点进行分类，将目标图像输入CNN网络中，对目标图像进行特征提取，输出的结果与像素点一一对应，例如，若像素点为文本像素点，则对该像素点标记为1，若像素点为非文本像素点，则对该像素点标记为0。

然后，根据像素点的分类，将所有文本像素点聚集在一起，相邻的文本像素点可以形成一个文本连通域，所有文本像素点可以形成一个或多个文本连通域。对于所有文本像素点形成一个文本连通域的情况，该文本连通域即为目标文本区域，无需后续的定位过程。对于所有文本像素点形成多个文本连通域的情况，需要从这多个文本连通域中确定出目标文本区域。

本发明实施例中对像素点进行分类的算法模型，可以是CNN网络，也可以是其它深度学习网络模型，这里仅为举例，不做限制。

步骤S203、针对任意两个文本连通域，根据文本连通域中各个像素点的颜色值，计算所述两个文本连通域之间的差异特征值，并根据所述两个文本连通域之间的距离，计算所述两个文本连通域之间的邻接特征值。

其中，像素点的像素值可以是该像素点的RGB色彩模式的颜色值，具体可以用M _i＝{R _i，G _i，B _i}表示第i个像素点的颜色值，其中，R _i为该像素点的红色分量值，G _i为像素点的绿色分量值，B _i为像素点的蓝色分量值。

根据文本连通域中各个像素点的颜色值可以计算出该文本连通域的颜色值，两个文本连通域之间的差异特征值可以根据两个文本连通域的颜色值计算得出。差异特征值表征了两个文本连通域之间颜色的差异程度，文本连通域之间的差异特征值越大，表明两个文本连通域之间的颜色差异越大，文本连通域之间的差异特征值越小，表明两个文本连通域之间的颜色差异越小。

另一方面，还需要计算两个文本连通域之间的邻接特征值，这里的邻接特征值为根据两个文本连通域之间的距离计算得出，表征了两个文本连通域之间的距离，文本连通域之间的重叠面积越大，表明两个文本连通域之间的距离越近，文本连通域之间的重叠面积越小，表明两个文本连通域之间的距离越远。

步骤S204、根据差异特征值和邻接特征值，将所述多个文本连通域进行合并。

具体实施过程中，需要将颜色差异较小、相距较小的两个文本连通域进行合并。因此，针对任意两个文本连通域，根据两个文本连通域之间的差异特征值和邻接特征值，确定两个文本连通域是否合并。进而，多个文本连通域之间进行合并后，得到一个或多个合并后的文本连通域。

一般来说，一个合并后的文本连通域对应一个文本区域，例如商户门头图片中包括商户名称、商户地址、商户商标等，其中，商户名称的文本区域对应一个合并后的文本连通域，商户地址的文本区域对应一个合并后的文本连通域。由于商户门头图片中商户名称的面积最大，因此，可以根据合并后的文本连通域的面积，对合并后的文本连通域进行过滤，将过滤后留下的一个或两个合并后的文本连通域作为目标文本区域。

步骤S205、根据合并后的文本连通域的面积，确定所述目标图像中的目标文本区域。

进一步地，上述步骤S202、根据像素值，从所述目标图像的所有像素点中确定文本像素点，包括：

具体实施过程中，像素分类模型可以为CNN网络模型，也可以为DBN网络模型，或者RNN网络模型等。本发明实施例CNN网络模型为例，介绍如何目标图像中各个像素点的分类过程。

本发明实施例采用类Unet的CNN网络结构，对目标图像进行特征重构，即将目标图像中每一个像素点的像素值输入已训练的CNN网络模型中，特征提取结果与目标图像中的像素点一一对应。本发明实施例中的特征提取结果分为两类，即文本像素点或非文本像素点。具体实施过程中，可以将文本像素点设置为1，非文本像素点设置为0，即若经过CNN网络模型计算得出某像素点的分类结果为文本像素点，则将该像素点的分类结果设置为1，若经过CNN网络模型计算出该像素点的分类结果为非文本像素点，则将该像素点的分类结果设置为0。

可选的，本申请实施例中的CNN网络结构包括2n+1级卷积层、n级池化层和n级反卷积层，其中，第1至第n级卷积层中，每级卷积层之后设置有一级池化层，即前n级卷积层与n级池化层交替设置。可选的，每级卷积层用于进行至少一次卷积处理。相应的，目标图像经过n级卷积层和n即池化层处理后，即得到目标图像对应的特征图，其中，特征图的通道数等于目标图像的通道数，且特征图的尺寸等于目标图像的尺寸。

下面以CNN像素分类模型为7级卷积层、3级池化层和3级反卷积层构成的U型的网络结构为例进行说明。卷积层用于提取特征的层，分为卷积操作和激活操作两部分。其中，进行卷积操作时，使用预先经过训练学习得到的卷积核进行特征提取，进行激活操作时，使用激活函数对卷积得到的特征图进行激活处理，常用的激活函数包括线性整流(Rectified Linear Unit，ReLU)函数、S型(Sigmoid)函数和双曲正切(Tanh)函数等。

池化(pooling)层，位于卷积层之后，用于降低卷积层输出的特征向量，即缩小特征图的尺寸，同时改善过拟合问题。常用的池化方式包括平均池化(mean-pooling)、最大池化(max-pooling)和随机池化(stochastic-pooling)等。

反卷积层(deconvolution)，用于对特征向量进行上采样的层，即用于增大特征图的尺寸。

如图3所示，首先通过第i级卷积层对第i-1特征图进行卷积以及激活处理，并将处理后的第i-1特征图输入第i级池化层，2≤i≤n。对于第一级卷积层，其输入为目标图像；而对于第i级卷积层，其输入则为第i-1级池化层输出的特征图。可选的，第一级卷积层获取到目标图像后，通过预设卷积核对目标图像进行卷积操作，再通过预设激活函数进行激活操作；第i级卷积层获取第i-1池化层输出的第i-1特征图后，通过预设卷积核对第i-1特征图进行卷积操作，再通过预设激活函数进行激活操作，从而起到提取特征的作用，其中，进行卷积处理后，特征图的通道数增加。如图3所示，第一级卷积层对目标图像进行两次卷积处理；第二级卷积层对第一池化层输出的第一特征图进行两次卷积处理，第三级卷积层对第二池化层输出的第二特征图进行两次卷积处理，第四级卷积层对第三池化层输出的第三特征图进行两次卷积处理。其中，多通道特征图的高度用于表示尺寸，而宽度则用于表示通道数。

其次，通过第i级池化层对处理后的第i-1特征图进行池化处理，得到第i特征图。第i级卷积层完成卷积处理后，将处理后的第i-1特征图输入第i-1级池化层，由第i-1级池化层进行池化处理，从而输出第i特征图。其中，各级池化层用于缩小特征图的尺寸，并保留特征图中的重要信息。可选的，各级池化层对输入的特征图进行最大池化处理。示意性的，如图3所示，第一级池化层对第一级卷积层输出特征图进行处理，得到第一特征图，第二级池化层对第二级卷积层输出特征图进行处理，得到第二特征图，第三级池化层对第三级卷积层输出特征图进行处理，得到第三特征图。

最后，将第i特征图输入第i+1级卷积层。完成池化处理后，第i级池化层将第i特征图输入下一级卷积层，由下一级卷积层进一步进行特征提取。如图3所示，目标图像依次经过第一级卷积层、第一级池化层、第二级卷积层和第二级池化层、第三卷积层以及第三池化层后，由第三级池化层将第三特征图输入第四级卷积层。上述实施例仅以进行三次卷积、池化操作为例进行说明，在其他可能的实施方式中，CNN网络结构可以进行多次卷积、池化操作，本实施例并不对此构成限定。

在进行了交替的卷积层和池化层的处理操作后，还需要通过反卷积层得到分类结果图，通过第n+1至第2n+1级卷积层和n级反卷积层，对中间特征图进行卷积以及反卷积处理，得到分类结果图。其中，分类结果图的尺寸等于目标图像的尺寸。

在一种可能的实施方式中，通过第n+1至第2n+1级卷积层和n级反卷积层进行处理时包括如下步骤：

首先，通过第j级反卷积层对第j+n级卷积层输出的特征图进行反卷积处理，1≤j≤n。示意性的，如图3所示，通过第一级反卷积层对第四级卷积层输出的特征图进行反卷积处理；通过第二级反卷积层对第五级卷积层输出的特征图进行反卷积处理；通过第三级反卷积层对第六级卷积层输出的特征图进行反卷积处理。其中，反卷积处理作为卷积处理的逆过程，用于对特征图进行上采样，从而缩小特征图的尺寸。如图3所示，经过反卷积层处理后，特征图的尺寸减小。

其次，对反卷积处理后的特征图与第n-j+1级卷积层输出的特征图进行拼接，并将拼接后的特征图输入第j+n+1级卷积层，反卷积处理后的特征图与第n-j+1级卷积层输出的特征图的尺寸相同。示意性的，如图3所示，将第三级卷积层输出的特征图以及第一级反卷积层输出的特征图拼接，作为第五级卷积层的输入；将第二级卷积层输出的特征图以及第二级反卷积层输出的特征图拼接，作为第六级卷积层的输入，将第一级卷积层输出的特征图以及第三级反卷积层输出的特征图拼接，作为第七级卷积层的输入。

最后，通过第j+n+1级卷积层对拼接后的特征图进行卷积处理，最终输出与目标图像尺寸一致的分类结果图。

在确定了CNN网络结构和处理过程后，就可以通过历史图像的分类结果训练CNN网络结构，然后根据训练完成的CNN网络结构提取出分类结果。

将每一个像素点分类后，可根据分类结果，将文本像素点形成文本连通域。其中，由文本像素点形成多个文本连通域，包括：

根据邻接关系，连通文本像素点，形成多个文本连通域。

具体实施过程中，通过像素分类模型得到每一个像素点的分类结果，根据分类结果可以得出每个像素点与相邻像素点之间的邻接关系，其中，除了目标图像四边上的像素点，目标图像内部的每个像素点存在8个相邻的像素点，即上、下、左、右，右上、右下、左上、左下8个像素点。针对每一个文本像素点，可以对该文本像素点与任一个相邻像素点之间的关系进行标记，例如，若相邻像素点也为文本像素点，标记为1，若相邻像素点为非文本像素点，标记为0，则每一个文本像素点对应8个邻接关系。

进而，根据邻接关系，可以将相邻的文本像素点连通，形成文本连通域，其中，一个文本连通域可以用一个集合CC标记，则CC＝{C ₁，C ₂，...,C _n}，C _n为文本连通域集合CC中的第n个文本像素点。

进一步地，为了便于计算，本发明实施例中，针对每个文本连通域，确定每个文本连通域的最小外接矩形。

由于文本连通域的形状不确定，不同形状不便于后续计算，因此，为了减少计算难度，本发明实施例对每个文本连通域均确定最小外接矩形。最小外接矩形即为在给出一个多边形(或一群点)，求出面积最小且外接多边形的矩形。

以直角坐标系为例，其求解方法如下：

(1)先确定文本连通域的简单外接矩形。简单外接矩形是指边平行于x轴或y轴的外接矩形。简单外接矩形很有可能不是最小外接矩形，却是非常容易求得的外接矩形。

(2)将文本连通域在平面上绕某一固定点旋转某一角度。数学基础是，设平面上点(x ₁，y ₁)绕另一点(x ₀，y ₀)逆时针旋转A角度后的点为(x ₂，y ₂)，则有：

x ₂＝(x ₁-x ₀)×cosA-(y ₁-y ₀)×sinA+x ₀……公式1

y ₂＝(x ₁-x ₀)×sinA+(y ₁-y ₀)×cosA+y ₀……公式2

顺时针时，A改写成-A即可。

(3)旋转文本连通域(循环，0-90°，间距设为1°)，求旋转每个度数后的文本连通域的简单外接矩形，记录简单外接矩形的面积、顶点坐标以及此时旋转的度数。

(4)比较在旋转过程中文本连通域求得的所有简单外接矩形，得到面积最小的简单外接矩形，获取该简单外接矩形的顶点坐标和旋转的角度。

(5)旋转外接矩形。将上一步获得面积最小的简单外接矩形反方向(与第3步方向相反)旋转相同的角度，即得最小外接矩形。

得到文本连通域的最小外接矩形后，后续步骤均可利用对应的最小外接矩形代替文本连通域进行计算。

根据每个文本连通域对应的最小外接矩形中各个像素的颜色值，计算两个最小外接矩形之间的差异特征值。

具体实施过程中，计算两个文本连通域之间的差异特征值即计算这两个文本连通域对应的最小外接矩形的差异特征值，包括：

具体来说，本发明实施例中像素点的颜色值可以是RGB色彩模式的颜色值，也可以是HSV颜色模型的颜色值，这里以RGB色彩模式的颜色值为例进行介绍。针对一个文本连通域对应的最小外接矩形，获取该最小外接矩形中各个像素点的RGB值，RGB值中包括该像素点的红色分量、绿色分量、蓝色分量，可以用M _i＝{R _i，G _i，B _i}表示。

根据所有像素点的RGB值计算该最小外接矩形的颜色特征值，最小外接矩形的颜色特征值包括最小外接矩形的红色特征值、绿色特征值、蓝色特征值，其中，最小外接矩形的红色特征值等于该最小外接矩形中所有像素点的红色分量的均值，最小外接矩形的绿色特征值等于该最小外接矩形中所有像素点的绿色分量的均值，最小外接矩形的蓝色特征值等于该最小外接矩形中所有像素点的蓝色分量的均值。最小外接矩形C的颜色特征值用M _c＝{R _c，G _c，B _c}表示，则：

其中，R _c为最小外接矩形的红色特征值，G _c为最小外接矩形的绿色特征值，B _c为最小外接矩形的蓝色特征值。

之后，根据颜色特征值，计算两个最小外接矩形的颜色差异分量。一种具体的实施例中，颜色差异分量可以包括亮度差异、色调差异值、色彩浓度差异值。即根据两个最小外接矩形的颜色特征值，计算得出这两个最小外接矩形的亮度差异、色调差异值和色彩浓度差异值。再从中选取值最大的颜色差异分量作为这两个最小外接矩形的差异特征值。

另一方面，利用文本连通域的最小外接矩形计算两个文本连通域之间的邻接特征值。根据所述两个文本连通域之间的距离，计算所述两个文本连通域之间的邻接特征值，包括：

具体地，根据两个文本连通域的最小外接矩形之间的重叠面积，计算所述两个最小外接矩形之间的邻接特征值，包括：

具体实施过程中，最小外接矩形的面积可以用最小外接矩形中包含的像素点的个数表示。例如最小外接矩形a包含100个像素点，则最小外接矩形a的面积为100，最小外接矩形b包含80个像素点，则最小外接矩形b的面积为80。最小外接矩形a和最小外接矩形b中包含20个相同的像素点，则将最小外接矩形a和最小外接矩形b的重叠面积标记为20。则两个最小外接矩形之间的邻接特征值等于最小外接矩形之间的重叠面积与最小外接矩形的面积之和的比值，即邻接特征值等于20与100加80之和的比值，等于1/9。

计算得到文本连通域之间的差异特征值和邻接特征值之后，可以根据差异特征值和邻接特征值确定不同文本连通域之间是否合并。

所述根据差异特征值和邻接特征值，将所述多个文本连通域进行合并，包括：

具体实施过程中，将差异特征值与颜色阈值相对比，例如，颜色阈值可以设置为21，若差异特征值小于颜色阈值，则认为最小外接矩形之间的颜色相近，可以合并；若差异特征值大于或等于颜色阈值，则认为最小外接矩形之间的颜色差异较大，不进行合并。对于邻接特征值，将邻接特征值与面积阈值相对比，若邻接特征值大于面积阈值，则认为最小外接矩形之间的距离较近，可以合并；若邻接特征值小于或等于面积阈值，则认为最小外接矩形之间的距离较远，不进行合并。本发明实施例中，认为差异特征值小于颜色阈值，并且邻接特征值大于面积阈值的两个最小外接矩形存在关联关系，可以进行合并。

将互相存在关联关系的最小外接矩形进行合并，具体可以利用并查集算法，确定需要合并的所有最小外接矩形。

最小外接矩形合并之后，可以根据合并后的最小外接矩形的面积，确定目标文本区域。具体来说，由于商户门头图片中的商户名称一般为面积最大的区域，因此，可以根据面积对目标图像进行噪声过滤，将合并后面积最大的最小外接矩形作为目标图像中的目标文本区域。

进一步地，一种可选的实施例中，本发明实施例确定目标图像中的目标文本区域之后，可以对目标文本区域中的文本识别，如图4所示，上述步骤S205、根据合并后的文本连通域的面积，确定目标图像中的目标文本区域之后，还包括：

步骤S206、将所述目标文本区域输入已训练的特征提取模型中，得到所述目标文本区域的目标特征向量。其中，特征提取模型利用训练文本图像以及对应的文字信息进行训练。

具体地，特征提取模型可以为深度学习网络模型，如CTPN、PSEnet等模型，本发明实施例中以特征提取模型为VGG网络为例。这里的VGG网络利用标注的商户门头图片以及对应的商户名称的文字信息进行训练。通过VGG网络得到目标文本区域的目标特征向量，该目标特征向量可以是一个1×1024的向量。

步骤S207、将所述目标特征向量与标注样本的标注特征向量进行相似度对比，确定相似度最大的标注文本图像，所述标注样本包括标注文本图像、对应的标注特征向量以及文字信息。

具体实施过程中，数据库中存储有大量的标注样本，标注样本包括标注文本图像、标注特征向量以及对应的文字信息。将上述得到的目标特征向量与数据库中的标注特征向量进行相似度对比，选取相似度最大的标注特征向量对应的标注文本图像。

这里的相似度计算可以利用余弦相似度公式进行计算。具体的相似度可以根据以下公式计算：

其中，A为目标特征向量，B为标注特征向量，两者均为一维特征向量。

步骤S208、将所述相似度最大的标注图像的文字信息作为所述目标文本区域的文字信息。

最后，选取与目标特征向量相似度最大的标注特征向量，将该标注特征向量的文字信息作为目标特征向量的文字信息，即目标文本区域的文字信息。

本发明实施例在商户门头图片的文本识别过程中，通过预先提取出目标文本区域，缩小了输入特征提取模型的图像大小，能够降低拍摄角度、噪声对图像检索效果的影响，同时避免了复杂背景对文字识别性能的影响，提升文字识别准确率。

以下通过具体实例说明本发明实施例提供的文本区域的定位方法以及文本识别的实现过程。

首先接收目标图像，确定目标图像中各个像素点的像素值。将各个像素点的像素值输入像素分类模型中，像素分类模型采用类Unet的卷积神经网络。通过像素分类模型中交替的卷积操作和池化操作得到所有像素点的像素特征提取结果。

根据像素分类模型学习到的历史图像中像素点的分类结果，确定目标图像中每个像素点的分类结果，其中，像素点的分类结果为所述像素点为文本像素点或非文本像素点。

针对每一个文本像素点，确定该文本像素点与相邻的像素点之前的邻接关系。邻接关系包括上、下、左、右、右上、右下、左上、左下。根据邻接关系连通文本像素点，形成多个文本连通域，并确定每个文本连通域的最小外接矩形。

接下来，计算文本连通域之间的差异特征值以及邻接特征值。

根据每个文本连通域对应的最小外接矩形中各个像素的颜色值，计算两个最小外接矩形之间的差异特征值。具体的，获取最小外接矩形中各个像素点的颜色值，其中，颜色特征值包括红色分量值、绿色分量值和蓝色分量值。计算所有像素点的颜色值的均值，作为最小外接矩形的颜色特征值。根据最小外接矩形的颜色特征值，计算两个最小外接矩形之间的多个颜色差异分量，选取值最大的颜色差异分量作为两个最小外接矩形之间的差异特征值。

将两个最小外接矩形之间的重叠面积与所述两个最小外接矩形的面积之和相比，得到两个最小外接矩形之间的邻接特征值。

确定差异特征值小于颜色阈值，并且邻接特征值大于面积阈值的两个最小外接矩形存在关联关系。利用并查集算法，根据关联关系对所有最小外接矩形进行合并。将合并后面积最大的文本连通域作为目标图像中的目标文本区域。

将目标文本区域输入已训练的特征提取模型中，得到所述目标文本区域的目标特征向量。

将目标特征向量与标注样本的标注特征向量进行相似度对比，确定相似度最大的标注文本图像。其中，标注样本包括标注文本图像、对应的标注特征向量以及文字信息。

将所述相似度最大的标注图像的文字信息作为目标文本区域的文字信息。

下述为本发明装置实施例，对于装置实施例中未详尽描述的细节，可以参考上述一一对应的方法实施例。

请参考图5，其示出了本发明一个实施例提供的文本区域的定位装置的结构方框图。该装置包括：获取单元501、连通单元502、计算单元503、合并单元504、过滤单元505。

其中，获取单元501，用于获取目标图像中各个像素点的像素值；

连通单元502，用于根据像素值，从所述目标图像的所有像素点中确定文本像素点，并由文本像素点形成多个文本连通域；

计算单元503，用于针对任意两个文本连通域，根据文本连通域中各个像素点的颜色值，计算所述两个文本连通域之间的差异特征值，并根据所述两个文本连通域之间的距离，计算所述两个文本连通域之间的邻接特征值；

合并单元504，用于根据差异特征值和邻接特征值，将所述多个文本连通域进行合并；

过滤单元505，用于根据合并后的文本连通域的面积，确定所述目标图像中的目标文本区域。

一种可选的实施例中，所述连通单元502，具体用于：

根据邻接关系，连通文本像素点，形成多个文本连通域。

一种可选的实施例中，所述计算单元503，具体用于：

一种可选的实施例中，所述合并单元504，具体用于：

一种可选的实施例中，所述连通单元502，还用于确定每个文本连通域的最小外接矩形；

与上述方法实施例相对应地，本发明实施例还提供了一种电子设备。该电子设备可以是服务器，如图1中所示的服务器102，该电子设备至少包括用于存储数据的存储器和用于数据处理的处理器。其中，对于用于数据处理的处理器而言，在执行处理时，可以采用微处理器、CPU、GPU(Graphics Processing Unit，图形处理单元)、DSP或FPGA实现。对于存储器来说，存储器中存储有操作指令，该操作指令可以为计算机可执行代码，通过该操作指令来实现上述本发明实施例的视频筛选方法的流程中的各个步骤。

图6为本发明实施例提供的一种电子设备的结构示意图；如图6所示，本发明实施例中该电子设备60包括：处理器61、显示器62、存储器63、输入设备66、总线65和通讯设备64；该处理器61、存储器63、输入设备66、显示器62和通讯设备64均通过总线65连接，该总线65用于该处理器61、存储器63、显示器62、通讯设备64和输入设备66之间传输数据。

其中，存储器63可用于存储软件程序以及模块，如本发明实施例中的文本区域的定位方法对应的程序指令/模块，处理器61通过运行存储在存储器63中的软件程序以及模块，从而执行电子设备60的各种功能应用以及数据处理，如本发明实施例提供的文本区域的定位方法。存储器63可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个应用的应用程序等；存储数据区可存储根据电子设备60的使用所创建的数据(比如动画片段、控制策略网络)等。此外，存储器63可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器61是电子设备60的控制中心，利用总线65以及各种接口和线路连接整个电子设备60的各个部分，通过运行或执行存储在存储器63内的软件程序和/或模块，以及调用存储在存储器63内的数据，执行电子设备60的各种功能和处理数据。可选的，处理器61可包括一个或多个处理单元，如CPU、GPU(Graphics Processing Unit，图形处理单元)、数字处理单元等。

本发明实施例中，处理器61将确定的目标文本区域以及文字信息通过显示器62展示给用户。

处理器61还可以通过通讯设备64连接网络，如果电子设备是服务器，则处理器61可以通过通讯设备64与终端设备之间传输数据。

该输入设备66主要用于获得用户的输入操作，当该电子设备不同时，该输入设备66也可能不同。例如，当该电子设备为计算机时，该输入设备66可以为鼠标、键盘等输入设备；当该电子设备为智能手机、平板电脑等便携设备时，该输入设备66可以为触控屏。

本发明实施例还提供了一种计算机存储介质，该计算机存储介质中存储有计算机可执行指令，该计算机可执行指令用于实现本发明任一实施例的文本区域的定位方法。

在一些可能的实施方式中，本发明提供的文本区域的定位方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在计算机设备上运行时，程序代码用于使计算机设备执行本说明书上述描述的根据本发明各种示例性实施方式的文本区域的定位方法的步骤，例如，计算机设备可以执行如图2所示的步骤S201至S208中的文本区域的定位流程。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。

Claims

一种文本区域的定位方法，其特征在于，所述方法包括：

获取目标图像中各个像素点的像素值；

根据像素值，从所述目标图像的所有像素点中确定文本像素点，并由文本像素点形成多个文本连通域；

针对任意两个文本连通域，根据文本连通域中各个像素点的颜色值，计算所述两个文本连通域之间的差异特征值，并根据所述两个文本连通域之间的距离，计算所述两个文本连通域之间的邻接特征值；

根据差异特征值和邻接特征值，将所述多个文本连通域进行合并；

根据合并后的文本连通域的面积，确定所述目标图像中的目标文本区域。
根据权利要求1所述的方法，其特征在于，所述根据像素值，从所述目标图像的所有像素点中确定文本像素点，包括：

将所述目标图像输入已训练的像素分类模型中，通过像素分类模型中交替的卷积操作和池化操作得到所有像素点的像素特征提取结果；

根据所述像素分类模型学习到的历史图像中像素点的分类结果，确定所述目标图像中每个像素点的分类结果，所述像素点的分类结果为所述像素点为文本像素点或非文本像素点。
根据权利要求1所述的方法，其特征在于，所述由文本像素点形成多个文本连通域，包括：

针对每一个文本像素点，确定所述文本像素点与所述文本像素点相邻的像素点之前的邻接关系；

根据邻接关系，连通文本像素点，形成多个文本连通域。
根据权利要求1至3任一项所述的方法，其特征在于，所述由文本像素点形成多个文本连通域之后，还包括：

确定每个文本连通域的最小外接矩形；

所述根据文本连通域中各个像素点的颜色值，计算所述两个文本连通域之间的差异特征值，包括：

根据每个文本连通域对应的最小外接矩形中各个像素的颜色值，计算两个最小外接矩形之间的差异特征值；

所述根据所述两个文本连通域之间的距离，计算所述两个文本连通域之间的邻接特征值，包括：

根据两个文本连通域的最小外接矩形之间的重叠面积，计算所述两个最小外接矩形之间的邻接特征值。
根据权利要求4所述的方法，其特征在于，所述根据每个文本连通域对应的最小外接矩形中各个像素的颜色值，计算两个最小外接矩形之间的差异特征值，包括：

针对每一个文本连通域的最小外接矩形，获取所述最小外接矩形中各个像素点的颜色值；计算所有像素点的颜色值的均值，作为所述最小外接矩形的颜色特征值；所述颜色特征值包括红色分量值、绿色分量值和蓝色分量值；

根据最小外接矩形的颜色特征值，计算所述两个最小外接矩形之间的多个颜色差异分量；

选取值最大的颜色差异分量作为所述两个最小外接矩形之间的差异特征值。
根据权利要求4所述的方法，其特征在于，所述根据两个文本连通域的最小外接矩形之间的重叠面积，计算所述两个最小外接矩形之间的邻接特征值，包括：

将两个最小外接矩形之间的重叠面积与所述两个最小外接矩形的面积之和相比，得到所述两个最小外接矩形之间的邻接特征值。
根据权利要求5或6所述的方法，其特征在于，所述根据差异特征值和邻接特征值，将所述多个文本连通域进行合并，包括：

确定差异特征值小于颜色阈值，并且邻接特征值大于面积阈值的两个最小外接矩形存在关联关系；

利用并查集算法，根据关联关系对所有最小外接矩形进行合并。
一种图像文字识别方法，其特征在于，所述方法包括：

确定目标图像中的目标文本区域，其中，所述目标图像中的目标文本区域是通过如权利要求1-7中任一项所述的方法得到的；

将所述目标文本区域输入已训练的特征提取模型中，得到所述目标文本区域的目标特征向量，所述特征提取模型利用训练文本图像以及对应的文字信息进行训练；

将所述目标特征向量与标注样本的标注特征向量进行相似度对比，确定相似度最大的标注文本图像，所述标注样本包括标注文本图像、对应的标注特征向量以及文字信息；

将所述相似度最大的标注图像的文字信息作为所述目标文本区域的文字信息。
一种文本区域的定位装置，其特征在于，所述装置包括：

获取单元，用于获取目标图像中各个像素点的像素值；

连通单元，用于根据像素值，从所述目标图像的所有像素点中确定文本像素点，并由文本像素点形成多个文本连通域；

计算单元，用于针对任意两个文本连通域，根据文本连通域中各个像素点的颜色值，计算所述两个文本连通域之间的差异特征值，并根据所述两个文本连通域之间的距离，计算所述两个文本连通域之间的邻接特征值；

合并单元，用于根据差异特征值和邻接特征值，将所述多个文本连通域进行合并；

过滤单元，用于根据合并后的文本连通域的面积，确定所述目标图像中的目标文本区域。
根据权利要求9所述的装置，其特征在于，所述连通单元，具体用于：

将所述目标图像输入已训练的像素分类模型中，通过像素分类模型中交替的卷积操作和池化操作得到所有像素点的像素特征提取结果；

根据所述像素分类模型学习到的历史图像中像素点的分类结果，确定所述目标图像中每个像素点的分类结果，所述像素点的分类结果为所述像素点为文本像素点或非文本像素点。
根据权利要求9所述的装置，其特征在于，所述连通单元，具体用于：

针对每一个文本像素点，确定所述文本像素点与所述文本像素点相邻的像素点之前的邻接关系；

根据邻接关系，连通文本像素点，形成多个文本连通域。
根据权利要求9所述的装置，其特征在于，所述计算单元，具体用于：

针对任一文本连通域，获取所述文本连通域中各个像素点的颜色值；计算所有像素点的颜色值的均值，作为所述文本连通域的颜色特征值；所述颜色特征值包括红色分量值、绿色分量值和蓝色分量值；

根据文本连通域的颜色特征值，计算所述两个文本连通域之间的多个颜色差异分量；

选取值最大的颜色差异分量作为所述两个连通域之间的差异特征值。
根据权利要求9所述的装置，其特征在于，所述计算单元，具体用于：

将所述两个文本连通域之间的距离与所述两个文本连通域的面积之和相比，得到所述两个文本连通域之间的邻接特征值。
根据权利要求12或13所述的装置，其特征在于，所述合并单元，具体用于：

确定差异特征值小于颜色阈值，并且邻接特征值大于面积阈值的两个文本连通域存在关联关系；

根据关联关系，利用并查集算法对所有文本连通域进行合并。
根据权利要求9至13任一项所述的装置，其特征在于，所述连通单元，还用于确定每个文本连通域的最小外接矩形；

所述计算单元，还用于根据每个文本连通域对应的最小外接矩形中各个像素的颜色值，计算所述两个文本连通域之间的差异特征值；根据两个文本连通域的最小外接矩形之间的重叠面积，计算所述两个文本连通域之间的邻接特征值。
一种图像文字识别装置，其特征在于，所述装置包括：

定位单元，所述定位单元包括如权利要求9-15所述的文本区域的定位装置；

将所述目标文本区域输入特征提取模型中，得到所述目标文本区域的目标特征向量；

将所述目标特征向量与标注样本的标注特征向量相对比，确定相似度最大的标注图像，所述标注样本包括标注图像、对应的标注特征向量以及文字信息；

将所述相似度最大的标注图像的文字信息作为所述目标文本区域的文字信息。
一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，其特征在于：所述计算机程序被处理器执行时，实现权利要求1～7任一项所述的方法。
一种电子设备，其特征在于，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，当所述计算机程序被所述处理器执行时，使得所述处理器实现权利要求1～7任一项所述的方法。