WO2022056875A1

WO2022056875A1 - 一种铭牌图像的分割方法、装置和计算机可读存储介质

Info

Publication number: WO2022056875A1
Application number: PCT/CN2020/116313
Authority: WO
Inventors: 王丹; 李晶; 刘浩; 华文韬; 李昂; 张鹏飞
Original assignee: 西门子股份公司; 西门子（中国）有限公司
Priority date: 2020-09-18
Filing date: 2020-09-18
Publication date: 2022-03-24
Also published as: CN116134481A

Abstract

一种铭牌图像的分割方法、装置和计算机可读存储介质。该方法包括：将包含铭牌的铭牌图像转换为二值图像（101）；检测所述二值图像中的文本区域（102）；将所述文本区域中的每个像素点的像素值设置为预定的相同值（103）；对所述二值图像执行边缘检测以确定所述二值图像中的表格区域（104）；基于所述文本区域和所述表格区域分割所述铭牌图像（105）。该方法可以将铭牌图像分割为文本区域和表格区域，从而提高后续的光学字符识别的准确度，还可以对包含铭牌的铭牌图像进行矫正，提高矫正准确度。

Description

一种铭牌图像的分割方法、装置和计算机可读存储介质

技术领域

本发明涉及图像处理技术领域，特别是涉及一种铭牌图像的分割方法、装置和计算机可读存储介质。

背景技术

铭牌(nameplate)又称标牌，主要用来记载设备生产厂家及额定工作情况下的技术数据，以供正确使用而不致损坏设备。制作铭牌的材料通常包括金属类和非金属类，其中金属类有锌合金、铜、铁、铝或不锈钢等；非金属类有塑料、亚克力有机板、PVC、PC或纸等。电子电气设备上通常附着有记录设备的各种属性信息的铭牌。比如，附加到变压器上的变压器铭牌通常记录有变压器的诸多电属性。

可以拍摄铭牌以获取铭牌图像，然后利用光学字符识别(Optical Character Recognition，OCR)技术自动提取铭牌图像中的内容，并利用这些内容执行各自数据分析(比如，用电数据量预测)或相关建模(比如，设备的健康度模型)。

然而，很多铭牌同时包含表格和文字。铭牌图像中的文字与表格靠近，导致OCR处理时容易将相互靠近的文字和表格混淆为同一个物体，从而影响OCR效果。

发明内容

本发明实施方式提出一种铭牌图像的分割方法、装置和计算机可读存储介质。

本发明实施方式的技术方案如下：

一种铭牌图像的分割方法，该方法包括：

将包含铭牌的铭牌图像转换为二值图像；

检测所述二值图像中的文本区域；

将所述文本区域中的每个像素点的像素值设置为预定的相同值；

对所述二值图像执行边缘检测以确定所述二值图像中的表格区域；

基于所述文本区域和所述表格区域分割所述铭牌图像。

可见，在本发明实施方式中，首先检测二值图像中的文本区域，再将文本区域中的每个像素点的像素值设置为相同值，从而对二值图像执行边缘检测时可以准确地确定出表格区域，然后可以基于文本区域和表格区域分割铭牌图像，实现分离铭牌图像中的文字区域与表格区域。

在一个实施方式中，当所述包含铭牌的铭牌图像为RGB图像时，所述将包含铭牌的铭牌图像转换为二值图像包括：将所述RGB图像转换为灰度图像；将所述灰度图像转换为所述二值图像；或，当所述包含铭牌的铭牌图像为灰度图像时，所述将包含铭牌的铭牌图像转换为二值图像包括：将所述灰度图像转换为所述二值图像。

可见，在本发明实施方式中，铭牌图像可以为RGB图像或灰度图像，适用范围广泛。

在一个实施方式中，所述检测所述二值图像中的文本区域包括：采用最大稳定极值区域方式检测所述二值图像中的文本区域。

因此，本发明实施方式基于最大稳定极值区域方式可以准确识别出文本区域。

在一个实施方式中，所述将文本区域中的每个像素点的像素值设置为预定的相同值包括：将所述文本区域中的每个像素点的像素值设置为1，或将所述文本区域中的每个像素点的像素值设置为0。

因此，本发明实施方式将文本区域中的每个像素点的像素值设置为1，实现将文本区域设置为白色区域或黑色区域，避免对表格区域的检测过程造成干扰。

在一个实施方式中，所述对二值图像执行边缘检测以确定所述二值图像中的表格区域包括：对所述二值图像执行边缘检测以确定出N个表格区域，其中N为大于等于1的正整数；所述基于文本区域和表格区域分割所述铭牌图像包括：将所述铭牌图像分割为第一子图像和N个第二子图像，其中所述第一子图像包含文本区域，每个第二子图像中分别包含对应的表格区域。

因此，本发明实施方式可以生成对应于表格区域和文字区域的子图像。

在一个实施方式中，在将包含铭牌的铭牌图像转换为二值图像之前，该方法还包括：

将包含铭牌的原始图像转换为灰度图像；

对所述灰度图像执行边缘检测以确定所述铭牌的边缘；

基于包围所述边缘的四边形的顶点坐标和所述铭牌图像的顶点坐标确定透视变换转换矩阵；

基于所述透视变换转换矩阵生成所述铭牌图像。

可见，本发明实施方式基于边缘检测所确定的铭牌边缘确定透视变换转换矩阵，并利用透视变换转换矩阵生成原始图像的矫正图像(即铭牌图像)，透视变换后的铭牌图像中的铭牌图形不变，克服了霍夫变换的失真缺陷，可以提高图像的矫正准确度。

在一个实施方式中，所述基于所述透视变换转换矩阵生成所述铭牌图像包括：

确定所述四边形中的每个像素点的坐标；基于每个像素点的坐标与所述透视变换转换矩阵的乘积，确定所述每个像素点的坐标的转换后坐标；将每个像素点复制到各自的转换后坐标处以生成所述铭牌图像；或

确定所述原始图像中的每个像素点的坐标；基于每个像素点的坐标与所述透视变换转换矩阵的乘积，确定所述每个像素点的坐标的转换后坐标；将所述原始图像分离为R通道、G通道和B通道；确定R通道中的每个像素点复制到各自的转换后坐标处所生成的矫正R通道、G通道中的每个像素点复制到各自的转换后坐标处所生成的矫正G通道和B通道中的每个像素点复制到各自的转换后坐标处所生成的矫正B通道；将所述矫正R通道、所述矫正G通道以及所述矫正B通道合并为所述铭牌图像。

可见，在本发明实施方式中，通过对包围铭牌边缘的四边形中的每个像素点的坐标转换，可以生成对应于该四边形的、具有灰度的矫正图像。而且，通过对铭牌图像的R通道、G通道和B通道中的每个像素点的坐标转换，可以生成对应于原始图像的、具有RGB色彩的矫正图像。

一种铭牌图像的分割装置，该装置包括：

转换模块，用于将包含铭牌的铭牌图像转换为二值图像；

文本区域检测模块，用于检测所述二值图像中的文本区域；

设置模块，用于将所述文本区域中的每个像素点的像素值设置为预定的相同值；

表格区域检测模块，用于对所述二值图像执行边缘检测以确定所述二值图像中的表格区域；

分割模块，用于基于所述文本区域和所述表格区域分割所述铭牌图像。

在一个实施方式中，转换模块，用于当所述包含铭牌的铭牌图像为RGB图像时，将所述RGB图像转换为灰度图像；将所述灰度图像转换为二值图像；当所述包含铭牌的铭牌图像为灰度图像时，将所述灰度图像转换为二值图像。

在一个实施方式中，文本区域检测模块，用于采用最大稳定极值区域方式检测所述二值图像中的文本区域。

在一个实施方式中，设置模块，用于将所述文本区域中的每个像素点的像素值设置为1，或将所述文本区域中的每个像素点的像素值设置为0。

在一个实施方式中，表格区域检测模块，用于对所述二值图像执行边缘检测以确定出N个表格区域，其中N为大于等于1的正整数；分割模块，用于将所述铭牌图像分割为第一子图像和N个第二子图像，其中所述第一子图像包含文本区域，每个第二子图像中分别包含对应的表格区域。

在一个实施方式中，该装置还包括：

矫正模块，用于在转换模块将包含铭牌的铭牌图像转换为二值图像之前，将包含铭牌的原始图像转换为灰度图像；对所述灰度图像执行边缘检测以确定所述铭牌的边缘；基于包围所述边缘的四边形的顶点坐标和所述铭牌图像的顶点坐标确定透视变换转换矩阵；基于所述透视变换转换矩阵生成所述铭牌图像。

在一个实施方式中，矫正模块，用于确定所述四边形中的每个像素点的坐标；基于每个像素点的坐标与所述透视变换转换矩阵的乘积，确定所述每个像素点的坐标的转换后坐标；将每个像素点复制到各自的转换后坐标处以生成所述铭牌图像；或确定所述原始图像中的每个像素点的坐标；基于每个像素点的坐标与所述透视变换转换矩阵的乘积，确定所述每个像素点的坐标的转换后坐标；将所述原始图像分离为R通道、G通道和B通道；确定R通道中的每个像素点复制到各自的转换后坐标处所生成的矫正R通道、G通道中的每个像素点复制到各自的转换后坐标处所生成的矫正G通道和B通道中的每个像素点复制到各自的转换后坐标处所生成的矫正B通道；将所述矫正R通道、所述矫正G通道以及所述矫正B通道合并为所述铭牌图像。

一种铭牌图像的分割装置，包括：处理器和存储器；

其中所述存储器中存储有可被所述处理器执行的应用程序，用于使得所述处理器执行如上所述的铭牌图像的分割方法。

可见，本发明实施方式还提出了具有存储器-处理器架构的铭牌图像的分割装置，实现分离铭牌图像中的文字区域与表格区域。

一种计算机可读存储介质，其中存储有计算机可读指令，该计算机可读指令用于执行如上任一项所述的铭牌图像的分割方法。

可见，本发明实施方式还提出了包含计算机可读指令的计算机可读存储介质，实现分离铭牌图像中的文字区域与表格区域。

附图说明

图1为本发明实施方式的铭牌图像的分割方法的流程图。

图2为本发明实施方式包含文字区域和表格区域的铭牌图像的示意图。

图3为本发明实施方式包含文字区域和表格区域的铭牌图像的示范性分割示意图。

图4为本发明实施方式的对原始图像进行矫正以生成铭牌图像的示范性示意图。

图5为本发明实施方式包含变压器铭牌的原始图像的示意图。

图6为本发明实施方式包含变压器铭牌的原始图像矫正后的示意图。

图7为本发明实施方式的铭牌图像的分割装置的结构图。

图8为本发明实施方式具有存储器-处理器架构的、铭牌图像的分割装置的结构图。

其中，附图标记如下：

标号	含义
100	铭牌图像的分割方法
101～105	步骤
20	铭牌边缘
30	文本区域
35	铭牌图像
40	表格区域
50	第一子图像
60	第二子图像
700	铭牌图像的分割装置
701	矫正模块
702	转换模块
703	文本区域检测模块
704	设置模块
705	表格区域检测模块
706	分割模块
800	铭牌图像的分割装置
801	处理器
802	存储器

具体实施方式

为了使本发明的技术方案及优点更加清楚明白，以下结合附图及实施方式，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施方式仅仅用以阐述性说明本发明，并不用于限定本发明的保护范围。

为了描述上的简洁和直观，下文通过描述若干代表性的实施方式来对本发明的方案进行阐述。实施方式中大量的细节仅用于帮助理解本发明的方案。但是很明显，本发明的技术方案实现时可以不局限于这些细节。为了避免不必要地模糊了本发明的方案，一些实施方式没有进行细致地描述，而是仅给出了框架。下文中，“包括”是指“包括但不限于”，“根据……”是指“至少根据……，但不限于仅根据……”。由于汉语的语言习惯，下文中没有特别指出一个成分的数量时，意味着该成分可以是一个也可以是多个，或可理解为至少一个。

考虑到铭牌图像中的文字与表格靠近会影响OCR效果，申请人提出一种分割铭牌图像的技术方案，通过将铭牌图像分割为文字区域和表格区域，有利于提高OCR效果。

图1为本发明实施方式的铭牌图像的分割方法的流程图。

如图1所示，该方法包括：

步骤101：将包含铭牌的铭牌图像转换为二值图像(Binary Image)。

在这里，铭牌图像为针对设备铭牌的拍摄图像或拍摄图像的处理图像。铭牌中通常记载设备生产厂家所确定的、设备额定工作情况下的技术数据。比如，铭牌图像可以为在电气电子设备现场针对电气电子设备的铭牌的现场拍摄图像，或者从数据库(比如本地数据库或位于云端的云数据库)或第三方存储介质所获取的同类型电气电子设备的历史铭牌图像。铭牌图像中包含作为被拍摄对象的铭牌。

在一个实施方式中，当所述包含铭牌的铭牌图像为RGB图像时，步骤101中将包含铭牌的铭牌图像转换为二值图像包括：将所述RGB图像转换为灰度图像；将所述灰度图像转换为二值图像。

在一个实施方式中，当所述包含铭牌的铭牌图像为灰度图像时，步骤101中将包含铭牌的铭牌图像转换为二值图像包括：将所述灰度图像转换为二值图像。

在这里，可以采用浮点法、整数法、移位法、平均值法、仅取绿色法或Gamma校正算法等方式，将RGB图像转换为灰度图像。灰度图像是用不同饱和度的黑色来表示每个图像点。

假如RGB彩色图像中某点的颜色为RGB(R，G，B)，可以通过下面的示范性方法，将其转换为灰度(Gray)。

(1)、浮点法：Gray＝R*0.3+G*0.59+B*0.11；

(2)、整数法：Gray＝(R*30+G*59+B*11)/100；

(3)、移位法：Gray＝(R*77+G*151+B*28)>>8；

(4)、平均值法：Gray＝(R+G+B)/3；

(5)仅取绿色法：Gray＝G；

(6)、Gamma校正算法：

以上示范性描述了将RGB图像转换为灰度图像的典型方法，本领域技术人员可以意识到，这种描述仅是示范性的，并不用于限定本发明实施方式的保护范围。

二值图像只有黑色(0)和白色(1)两种颜色表示。灰度值0～255的灰度图像变到像素值0-1的二值图像，这个过程称为二值化。实现原理为设定一个阈值，假如为128，接下来遍历0～255灰度图像的每一个像素，如果像素灰度值大于128，那么置为白色(1)，否则置为黑色(0)。

步骤102：检测所述二值图像中的文本区域。

在一个实施方式中，所述检测所述二值图像中的文本区域包括：采用最大稳定极值区域(MSER)方式检测所述二值图像中的文本区域。MSER可以用来粗略地寻找图像中的文字区域。不过，单独的MSER算法可能产生多个互相包含的矩形框。优选地，采用MSER与非极大值抑制(non maximum suppression， NMS)相结合的方式检测文本区域，其中NMS是经常伴随图像区域检测的算法，作用是去除重复的区域，抑制不是最大框的框，也就是去除大矩形框中包含的小矩形框。

以上示范性描述了检测二值图像中的文本区域的典型方式，本领域技术人员可以意识到，这种描述仅是示范性的，并不用于限定本发明实施方式的保护范围。

步骤103：将所述文本区域中的每个像素点的像素值设置为预定的相同值。

在一个实施方式中，所述将文本区域的像素值设置为预定的相同值包括：将所述文本区域的像素值设置为1或0。因此，实现将文本区域设置为白色区域或黑色区域，避免对表格区域的检测过程造成干扰。

步骤104：对所述二值图像执行边缘检测以确定所述表格区域。

此时的二值图像的文本区域中的每个像素点的像素值已经在步骤103中被设置为预定的相同值，因此文本区域(已经转变为白色区域或黑色区域)不会对针对表格区域的检测过程造成干扰。

在一个实施方式中，所述对二值图像执行边缘检测以确定所述表格区域包括：对所述二值图像执行边缘检测以确定出N个表格区域，其中N为大于等于1的正整数；所述基于所述文本区域和所述表格区域分割所述铭牌图像包括：将铭牌图像分割为包含文本区域的第一子图像和N个第二子图像，其中每个第二子图像中分别包含对应的表格区域。

边缘检测的目的是标识图像中亮度变化明显的点。图像属性中的显著变化通常反映了属性的重要事件和变化。通过对二值图像执行边缘检测，可以确定包含在二值图像中的表格的边缘。具体地，边缘是指其周围像素灰度急剧变化的那些象素的集合。边缘存在于目标、背景和区域之间，所以，边缘是图像分割所依赖的依据。对二值图像执行边缘检测后，可以返回表格区域的边缘。

目前，存在有许多用于边缘检测的方法，大致可分为两类：基于搜索和基于零交叉。在基于搜索的边缘检测方法中，首先计算边缘强度，通常用一阶导数表示，例如梯度模；然后，用计算估计边缘的局部方向，通常采用梯度的方向，并利用此方向找到局部梯度模的最大值。在基于零交叉的方法中，找到由图像得到的二阶导数的零交叉点来定位边缘。通常用拉普拉斯算子或非线性微分方程的零交叉点。目前，常用的边缘检测模板有Laplacian算子、Roberts算子、Sobel算子、log(Laplacian-Gauss)算子、Kirsch算子和Prewitt算子，等等。

以上示范性描述了执行边缘检测的典型方法，本领域技术人员可以意识到，这种描述仅是示范性的，并不用于限定本发明实施方式的保护范围。

步骤105：基于所述文本区域和所述表格区域分割所述铭牌图像。

在这里，按照步骤102中确定的文本区域的范围和步骤104中确定的表格区域的范围，分割铭牌图像。其中，步骤105中的铭牌图像为步骤101中被转换为二值图像前的铭牌图像，或步骤101中被转换为二值图像前的铭牌图像的复制图像。

图2为本发明实施方式包含文字区域和表格区域的铭牌图像的示意图。图3为本发明实施方式包含文字区域和表格区域的铭牌图像的示范性分割示意图。

由图2可见，在铭牌图像35中，包含有文字区域30和表格区域40。针对该铭牌图像35执行如图1所示的图像分割流程，可以得到第一子图像50和第二子图像60。其中，当铭牌图像35中包含多个表格时，可以生成多个第二子图像60，其中每个第二子图像60包含各自的一张对应表格。

后续处理中，可以分别对第一子图像50和第二子图像60执行OCR处理。由于文字和表格不再混淆为同一个物体，因此此时分别对第一子图像50和第二子图像60执行OCR处理的识别准确度，显著优于针对铭牌图像35执行OCR处理的识别准确度。

申请人还发现：当拍摄铭牌的拍摄角度发生倾斜时，拍摄得到的原始铭牌图像中的铭牌相应具有倾斜角度，此时OCR技术难以准确提取铭牌内容。目前，通常采用霍夫变换(Hough transform)确定铭牌图像中铭牌的旋转角度，再基于旋转角度将铭牌变换到合适的位置，从而矫正铭牌图像。然而，采用霍夫变换在矫正过程中只能确定直线方向，丢失了线段的长度信息，因此容易图像失真，矫正效果不佳。

在一个实施方式中，在将包含铭牌的铭牌图像转换为二值图像之前，该方法还包括：将包含铭牌的原始图像(即矫正前的铭牌图像)转换为灰度图像；对包含铭牌的原始图像所转换出的灰度图像执行边缘检测以确定铭牌的边缘；基于包围所述边缘的四边形的顶点坐标和所述铭牌图像的顶点坐标确定透视变换转换矩阵；基于所述透视变换转换矩阵生成铭牌图像(即矫正后的铭牌图像)。然后，可以针对矫正后的铭牌图像实施图1所示的方法流程，以执行图像分割。

优选地，还包括确定包围边缘的四边形的过程。其中，在所有包围所述边缘的四边形集合(包含包围该边缘的全部四边形)中，将周长最短的四边形确定为该四边形。而且，基于该周长最短的四边形的顶点坐标和铭牌图像的顶点坐标确定透视变换转换矩阵。

下面对透视变换(Perspective Transformation)进行说明。

透视变换是指利用透视中心、像点、目标点三点共线的条件，按透视旋转定律使得承影面(透视面)绕迹线(透视轴)旋转某一角度，破坏原有的投影光线束，仍能保持承影面上投影几何图形不变的变换。

在透视变换中，具有如下公式：

其中:

[x,y]是像素点在矫正后的铭牌图像中的二维坐标；[u,v,w]是像素点在矫正前的原始图像的三维坐标，w 通常等于1；像素点在矫正后的铭牌图像中的三维坐标可以定义为[x,y,1]。

即为透视变换转换矩阵，其中a ₃₃为1。

矫正后的铭牌图像通常为长方形。而且，该铭牌图像的4个顶点坐标为已知，比如分别为(0,0,1)、(0,h,1)、(w,h,1)和(w,0,1)，其中w为铭牌图像的宽度，h为铭牌图像的高度。

因此，基于包围边缘的四边形的四个顶点坐标(已知)和铭牌图像的4个顶点坐标(已知)，根据公式(3)可以构建出8个方程，从而计算出a ₁₁、a ₁₂、a ₁₃、a ₂₁、a ₂₂、a ₂₃、a ₃₁和a ₃₂的值。当计算出a ₁₁、a ₁₂、a ₁₃、a ₂₁、a ₂₂、a ₂₃、a ₃₁和a ₃₂的值后，可以唯一地确定出透视变换转换矩阵

其中a ₃₃为1。

优选地，所述基于所述透视变换转换矩阵生成所述铭牌图像包括：

方式(1)：确定所述四边形中的每个像素点的坐标(三维坐标，其中w值设置为1)；基于每个像素点的坐标与所述透视变换转换矩阵的乘积，确定所述每个像素点的坐标的转换后坐标；将每个像素点复制到各自的转换后坐标处以生成所述铭牌图像。

可见，在本发明实施方式中，通过对包围铭牌边缘的四边形中的每个像素点的坐标转换，可以生成对应于该四边形的、具有灰度的已矫正图像。因此，本发明实施方式还实现了一种灰度图形式的已矫正铭牌图像。

方式(2)：确定所述原始图像中的每个像素点的坐标；基于每个像素点的坐标与所述透视变换转换矩阵的乘积，确定所述每个像素点的坐标的转换后坐标；将所述原始图像分离为R通道、G通道和B通道；确定R通道中的每个像素点复制到各自的转换后坐标处所生成的矫正R通道、G通道中的每个像素点复制到各自的转换后坐标处所生成的矫正G通道和B通道中的每个像素点复制到各自的转换后坐标处所生成的矫正B通道；将所述矫正R通道、所述矫正G通道以及所述矫正B通道合并为所述矫正图像。具体地，首先基于原始图像中的每个像素点的坐标与透视变换转换矩阵的乘积，确定每个像素点的坐标的转换后坐标。然后，将原始图像分离为R通道、G通道和B通道，并且将R通道中的每个像素点复制到各自的转换后坐标处以生成矫正R通道，将G通道中的每个像素点复制到各自的转换后坐标处以生成矫正G通道，将B通道中的每个像素点复制到各自的转换后坐标处以生成矫正B通道。接着，将矫正R通道、矫正G通道以及矫正B通道合并为矫正图像。其中，R通道、G通道和B通道的相同位置处的像素点，分别具有相同的转换后坐标。

举例，假定有彩色的原始图像A需要被矫正。首先，基于原始图像A中的每个像素点的坐标与透视变换转换矩阵的乘积，确定原始图像A中的每个像素点的坐标的转换后坐标。比如，原始图像A包含100个像素点，其中像素点1的坐标对应于转换后坐标K1、像素点2的坐标对应于转换后坐标K1、像素点3 的坐标对应于转换后坐标K3……像素点100的坐标对应于转换后坐标K100。

然后，将原始图像A分离为三个通道，分别为原始图像A的R通道、原始图像A的G通道和原始图像A的B通道。

接着，将原始图像A的R通道中的每个像素点，复制到矫正的R通道中的各自的转换后坐标处以生成矫正的R通道。具体地，将原始图像A的R通道中的像素点1复制到矫正的R通道中的转换后坐标K1处，将原始图像A的R通道中的像素点2复制到矫正的R通道中的转换后坐标K2处，将原始图像A的R通道中的像素点3复制到矫正的R通道中的转换后坐标K3处……将原始图像A的R通道中的像素点100复制到矫正的R通道中的转换后坐标K100处，从而形成矫正的R通道。

将原始图像A的G通道中的每个像素点，复制到矫正的G通道中的各自的转换后坐标处以生成矫正的G通道。具体地，将原始图像A的G通道中的像素点1复制到矫正的G通道中的转换后坐标K1处，将原始图像A的G通道中的像素点2复制到矫正的G通道中的转换后坐标K2处，将原始图像A的G通道中的像素点3复制到矫正的G通道中的转换后坐标K3处……将原始图像A的G通道中的像素点100复制到矫正的G通道中的转换后坐标K100处，从而形成矫正的G通道。

将原始图像A的B通道中的每个像素点，复制到矫正的G通道中的各自的转换后坐标处以生成矫正的B通道。具体地，将原始图像A的B通道中的像素点1复制到矫正的B通道中的转换后坐标K1处，将原始图像A的B通道中的像素点2复制到矫正的B通道中的转换后坐标K2处，将原始图像A的B通道中的像素点3复制到矫正的B通道中的转换后坐标K3处……将铭牌图像A的B通道中的像素点100复制到矫正的B通道中的转换后坐标K100处，从而形成矫正的B通道。

最后，将所述矫正R通道、所述矫正G通道以及所述矫正B通道合并为矫正后的铭牌图像。

可见，在本发明实施方式中，通过对原始图像的R通道、G通道和B通道中的每个像素点的坐标转换，可以生成对应于原始图像的、具有RGB色彩的矫正图像。因此，本发明实施方式还实现了一种RGB色彩形式的矫正后的铭牌图像。

在一个实施方式中，在将包含铭牌的原始图像转换为灰度图像与对灰度图像执行边缘检测以确定所述铭牌的边缘之间，该方法还包括：增加灰度图像的对比度；对增加对比度后的灰度图像执行降噪处理。具体地，可以采用基于直方图均衡化的图像增强方式增加灰度图像的对比度，其基本思想是对于图像中的灰度点做映射，使得整体图像的灰度大致符合均匀分布。

在铭牌的轮廓20被确定后，在包围边缘20的四边形集合(该四边形集合包含所有包围边缘20的四边形)中，确定出周长最短的四边形，假定为四边形JKMN(通常为不规则四边形)。四边形JKMN被确定后，4个顶点J、K、M、N的坐标即确定。矫正后得到的铭牌图像(后续参与图1所示流程的铭牌图像的分割方法)为预定大小的长方形。铭牌图像的四个顶点A、B、C和D的坐标是已确定的。因此，基于 J、K、M、N的坐标与A、B、C和D的坐标之间的对应关系，可以计算出透视变换转换矩阵。然后，利用该透视变换转换矩阵，可以将四边形JKMN中的每个像素点转换到铭牌图像ABCD的对应坐标处，从而实现矫正。

图5为本发明实施方式包含变压器铭牌的原始图像的示意图。图6为本发明实施方式包含变压器铭牌的原始图像矫正后的示意图。可见，图5的变压器铭牌图像具有倾斜角度且带有拍摄背景图案；图6中的变压器铭牌图像的倾斜角度得到矫正且不再包含拍摄背景图案，因此便于后续的OCR操作。

基于上述描述，本发明实施方式还提出了铭牌图像的分割装置。

图7为本发明实施方式的铭牌图像的分割装置的方框图。

如图7所示，铭牌图像的分割装置700包括：

转换模块702，用于将包含铭牌的铭牌图像转换为二值图像；

文本区域检测模块703，用于检测所述二值图像中的文本区域；

设置模块704，用于将所述文本区域中的每个像素点的像素值设置为预定的相同值；

表格区域检测模块705，用于对所述二值图像执行边缘检测以确定所述表格区域；

分割模块706，用于基于所述文本区域和所述表格区域分割所述铭牌图像。

在一个实施方式中，转换模块702，用于当所述包含铭牌的铭牌图像为RGB图像时，将所述RGB图像转换为灰度图像；将所述灰度图像转换为二值图像；当所述包含铭牌的铭牌图像为灰度图像时，将所述灰度图像转换为二值图像。

在一个实施方式中，文本区域检测模块703，用于采用最大稳定极值区域方式检测所述二值图像中的文本区域。

在一个实施方式中，设置模块704，用于将所述文本区域中的每个像素点的像素值设置为1，或将所述文本区域中的每个像素点的像素值设置为0。

在一个实施方式中，表格区域检测模块705，用于对所述二值图像执行边缘检测以确定出N个表格区域，其中N为大于等于1的正整数；分割模块706，用于将铭牌图像分割为包含文本区域的第一子图像和N个第二子图像，其中每个第二子图像中分别包含对应的表格区域。

在一个实施方式中，该装置700还包括：

矫正模块701，用于在转换模块702将包含铭牌的铭牌图像转换为二值图像之前，将包含变压器铭牌的原始图像转换为灰度图像；对所述灰度图像执行边缘检测以确定所述铭牌的边缘；基于包围所述边缘的四边形的顶点坐标和所述铭牌图像的顶点坐标确定透视变换转换矩阵；基于所述透视变换转换矩阵生成所述铭牌图像。

在一个实施方式中，矫正模块701，用于确定所述四边形中的每个像素点的坐标；基于每个像素点的坐标与所述透视变换转换矩阵的乘积，确定所述每个像素点的坐标的转换后坐标；将每个像素点复制到各自的转换后坐标处以生成所述铭牌图像；或确定所述原始图像中的每个像素点的坐标；基于每个像素点的坐标与所述透视变换转换矩阵的乘积，确定所述每个像素点的坐标的转换后坐标；将所述原始图像分离为R通道、G通道和B通道；确定R通道中的每个像素点复制到各自的转换后坐标处所生成的矫正R通道、G通道中的每个像素点复制到各自的转换后坐标处所生成的矫正G通道和B通道中的每个像素点复制到各自的转换后坐标处所生成的矫正B通道；将所述矫正R通道、所述矫正G通道以及所述矫正B通道合并为所述铭牌图像。

基于上述描述，本发明实施方式还提出有存储器-处理器架构的、铭牌图像的分割装置。

图8为本发明实施方式具有存储器-处理器架构的、铭牌图像的分割装置的方框图。

如图8所示，铭牌图像的分割装置800包括处理器801、存储器802及存储在存储器802上并可在处理器801上运行的计算机程序，计算机程序被处理器801执行时实现如上任一项的铭牌图像的分割方法。

其中，存储器802具体可以实施为电可擦可编程只读存储器(EEPROM)、快闪存储器(Flash memory)、可编程程序只读存储器(PROM)等多种存储介质。处理器801可以实施为包括一或多个中央处理器或一或多个现场可编程门阵列，其中现场可编程门阵列集成一或多个中央处理器核。具体地，中央处理器或中央处理器核可以实施为CPU或MCU或DSP等等。

需要说明的是，上述各流程和各结构图中不是所有的步骤和模块都是必须的，可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的，可以根据需要进行调整。各模块的划分仅仅是为了便于描述采用的功能上的划分，实际实现时，一个模块可以分由多个模块实现，多个模块的功能也可以由同一个模块实现，这些模块可以位于同一个设备中，也可以位于不同的设备中。

各实施方式中的硬件模块可以以机械方式或电子方式实现。例如，一个硬件模块可以包括专门设计的永久性电路或逻辑器件(如专用处理器，如FPGA或ASIC)用于完成特定的操作。硬件模块也可以包括由软件临时配置的可编程逻辑器件或电路(如包括通用处理器或其它可编程处理器)用于执行特定操作。至于具体采用机械方式，或是采用专用的永久性电路，或是采用临时配置的电路(如由软件进行配置)来实现硬件模块，可以根据成本和时间上的考虑来决定。

本发明还提供了一种机器可读的存储介质，存储用于使一机器执行如本文所述方法的指令。具体地，可以提供配有存储介质的系统或者装置，在该存储介质上存储着实现上述实施例中任一实施方式的功能的软件程序代码，且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。此外，还可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作。还可以将从存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中，随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作，从而实现上述实施方式中任一实施方式的功能。用于提供程序代码的存储介质实施方式包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、 DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机或云上下载程序代码。

以上所述，仅为本发明的较佳实施方式而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

一种铭牌图像的分割方法(100)，其特征在于，该方法(100)包括：

将包含铭牌的铭牌图像转换为二值图像(101)；

检测所述二值图像中的文本区域(102)；

将所述文本区域中的每个像素点的像素值设置为预定的相同值(103)；

对所述二值图像执行边缘检测以确定所述二值图像中的表格区域(104)；

基于所述文本区域和所述表格区域分割所述铭牌图像(105)。
根据权利要求1所述的铭牌图像的分割方法(100)，其特征在于，

当所述包含铭牌的铭牌图像为RGB图像时，所述将包含铭牌的铭牌图像转换为二值图像(101)包括：将所述RGB图像转换为灰度图像；将所述灰度图像转换为所述二值图像；或

当所述包含铭牌的铭牌图像为灰度图像时，所述将包含铭牌的铭牌图像转换为二值图像(101)包括：将所述灰度图像转换为所述二值图像。
根据权利要求1所述的铭牌图像的分割方法(100)，其特征在于，所述检测所述二值图像中的文本区域(102)包括：采用最大稳定极值区域方式检测所述二值图像中的文本区域。
根据权利要求1所述的铭牌图像的分割方法(100)，其特征在于，所述将文本区域中的每个像素点的像素值设置为预定的相同值(103)包括：将所述文本区域中的每个像素点的像素值设置为1，或将所述文本区域中的每个像素点的像素值设置为0。
根据权利要求1所述的铭牌图像的分割方法(100)，其特征在于，

所述对二值图像执行边缘检测以确定所述二值图像中的表格区域(104)包括：对所述二值图像执行边缘检测以确定出N个表格区域，其中N为大于等于1的正整数；

所述基于文本区域和表格区域分割所述铭牌图像(105)包括：将所述铭牌图像分割为第一子图像和N个第二子图像，其中所述第一子图像包含文本区域，每个第二子图像中分别包含对应的表格区域。
根据权利要求1所述的铭牌图像的分割方法(100)，其特征在于，在将包含铭牌的铭牌图像转换为二值图像(101)之前，该方法(100)还包括：

将包含铭牌的原始图像转换为灰度图像；

对所述灰度图像执行边缘检测以确定所述铭牌的边缘；

基于包围所述边缘的四边形的顶点坐标和所述铭牌图像的顶点坐标确定透视变换转换矩阵；

基于所述透视变换转换矩阵生成所述铭牌图像。
根据权利要求6所述的铭牌图像的分割方法(100)，其特征在于，

所述基于所述透视变换转换矩阵生成所述铭牌图像包括：

确定所述四边形中的每个像素点的坐标；基于每个像素点的坐标与所述透视变换转换矩阵的乘积，确定所述每个像素点的坐标的转换后坐标；将每个像素点复制到各自的转换后坐标处以生成所述铭牌图像；或

确定所述原始图像中的每个像素点的坐标；基于每个像素点的坐标与所述透视变换转换矩阵的乘积，确定所述每个像素点的坐标的转换后坐标；将所述原始图像分离为R通道、G通道和B通道；确定R通道中的每个像素点复制到各自的转换后坐标处所生成的矫正R通道、G通道中的每个像素点复制到各自的转换后坐标处所生成的矫正G通道和B通道中的每个像素点复制到各自的转换后坐标处所生成的矫正B通道；将所述矫正R通道、所述矫正G通道以及所述矫正B通道合并为所述铭牌图像。
一种铭牌图像的分割装置(700)，其特征在于，该装置(700)包括：

转换模块(702)，用于将包含铭牌的铭牌图像转换为二值图像；

文本区域检测模块(703)，用于检测所述二值图像中的文本区域；

设置模块(704)，用于将所述文本区域中的每个像素点的像素值设置为预定的相同值；

表格区域检测模块(705)，用于对所述二值图像执行边缘检测以确定所述二值图像中的表格区域；

分割模块(706)，用于基于所述文本区域和所述表格区域分割所述铭牌图像。
根据权利要求8所述的铭牌图像的分割装置(700)，其特征在于，

转换模块(702)，用于当所述包含铭牌的铭牌图像为RGB图像时，将所述RGB图像转换为灰度图像；将所述灰度图像转换为二值图像；当所述包含铭牌的铭牌图像为灰度图像时，将所述灰度图像转换为二值图像。
根据权利要求8所述的铭牌图像的分割装置(700)，其特征在于，

文本区域检测模块(703)，用于采用最大稳定极值区域方式检测所述二值图像中的文本区域。
根据权利要求8所述的铭牌图像的分割装置(700)，其特征在于，

设置模块(704)，用于将所述文本区域中的每个像素点的像素值设置为1，或将所述文本区域中的每个像素点的像素值设置为0。
根据权利要求8所述的铭牌图像的分割装置(700)，其特征在于，

表格区域检测模块(705)，用于对所述二值图像执行边缘检测以确定出N个表格区域，其中N为大于等于1的正整数；

分割模块(706)，用于将所述铭牌图像分割为第一子图像和N个第二子图像，其中所述第一子图像包含文本区域，每个第二子图像中分别包含对应的表格区域。
根据权利要求8所述的铭牌图像的分割装置(700)，其特征在于，该装置(700)还包括：

矫正模块(701)，用于在转换模块(702)将包含铭牌的铭牌图像转换为二值图像之前，将包含铭牌的原始图像转换为灰度图像；对所述灰度图像执行边缘检测以确定所述铭牌的边缘；基于包围所述边缘的四边形的顶点坐标和所述铭牌图像的顶点坐标确定透视变换转换矩阵；基于所述透视变换转换矩阵生成所述铭牌图像。
根据权利要求13所述的铭牌图像的分割装置(700)，其特征在于，

矫正模块(701)，用于确定所述四边形中的每个像素点的坐标；基于每个像素点的坐标与所述透视变换转换矩阵的乘积，确定所述每个像素点的坐标的转换后坐标；将每个像素点复制到各自的转换后坐标处以生成所述铭牌图像；或确定所述原始图像中的每个像素点的坐标；基于每个像素点的坐标与所述透视变换转换矩阵的乘积，确定所述每个像素点的坐标的转换后坐标；将所述原始图像分离为R通道、G通道和B通道；确定R通道中的每个像素点复制到各自的转换后坐标处所生成的矫正R通道、G通道中的每个像素点复制到各自的转换后坐标处所生成的矫正G通道和B通道中的每个像素点复制到各自的转换后坐标处所生成的矫正B通道；将所述矫正R通道、所述矫正G通道以及所述矫正B通道合并为所述铭牌图像。
一种铭牌图像的分割装置(800)，其特征在于，包括：处理器(801)和存储器(802)；

其中所述存储器(802)中存储有可被所述处理器(801)执行的应用程序，用于使得所述处理器(801)执行如权利要求1至7中任一项所述的铭牌图像的分割方法(100)。
一种计算机可读存储介质，其特征在于，其中存储有计算机可读指令，该计算机可读指令用于执行如权利要求1至6中任一项所述的铭牌图像的分割方法(100)。