WO2022056876A1 - 一种电机铭牌的识别方法、装置和计算机可读存储介质 - Google Patents

一种电机铭牌的识别方法、装置和计算机可读存储介质 Download PDF

Info

Publication number
WO2022056876A1
WO2022056876A1 PCT/CN2020/116314 CN2020116314W WO2022056876A1 WO 2022056876 A1 WO2022056876 A1 WO 2022056876A1 CN 2020116314 W CN2020116314 W CN 2020116314W WO 2022056876 A1 WO2022056876 A1 WO 2022056876A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
attribute information
channel
motor
coordinates
Prior art date
Application number
PCT/CN2020/116314
Other languages
English (en)
French (fr)
Inventor
王丹
李晶
刘浩
华文韬
李昂
张鹏飞
Original Assignee
西门子股份公司
西门子(中国)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 西门子股份公司, 西门子(中国)有限公司 filed Critical 西门子股份公司
Priority to PCT/CN2020/116314 priority Critical patent/WO2022056876A1/zh
Priority to CN202080103595.7A priority patent/CN116018622A/zh
Publication of WO2022056876A1 publication Critical patent/WO2022056876A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition

Definitions

  • the motor nameplate can be photographed to obtain an image of the motor nameplate, and then the content in the motor nameplate image can be automatically extracted using Optical Character Recognition (OCR) technology and used to perform various data analysis (such as motor load prediction) or correlation. Modeling (eg, motor health model).
  • OCR Optical Character Recognition
  • the embodiments of the present invention provide a method, a device, and a computer-readable storage medium for identifying a motor nameplate.
  • OCR is performed on the panoramic image to determine that the first attribute information of the motor corresponding to the motor nameplate is included.
  • multiple images formed by shooting the motor nameplate from different angles are stitched into a panoramic image, and then OCR is performed on the panoramic image, so that all the contents in the nameplate can be recognized, which overcomes the difficulty in identifying the existing technology. Defects in the entire contents of the nameplate.
  • the embodiment of the present invention can also separate the text area and the table area in the panoramic image.
  • the panoramic image is an RGB image
  • converting the RGB image into a grayscale image and converting the grayscale image into the binary image
  • the grayscale image is converted into the binary image.
  • the performing edge detection on the binary image to determine the table area in the binary image includes: performing edge detection on the binary image to determine N table areas, where N is greater than or equal to a positive integer of 1;
  • the dividing the panoramic image based on the text area and the table area includes: dividing the panoramic image into a first sub-image and N second sub-images, wherein the first sub-image includes a text area, and each second sub-image includes a text area.
  • the images respectively contain corresponding table areas.
  • the method before converting the panoramic image into a binary image, the method further includes:
  • the rectified panoramic image is generated based on the perspective transformation transformation matrix.
  • the embodiment of the present invention determines a perspective transformation transformation matrix based on the edge of the nameplate determined by edge detection, and uses the perspective transformation transformation matrix to generate a corrected panoramic image of the original panoramic image.
  • the distortion defect of Hough transform can be improved, and the correction accuracy of the image can be improved.
  • a rectified image with grayscale corresponding to the quadrilateral can be generated. Also, by transforming the coordinates of each pixel point in the R channel, G channel, and B channel of the nameplate image, a rectified image with RGB colors corresponding to the original image can be generated.
  • the embodiment of the present invention uses the motor model as a retrieval item, which can ensure the correspondence between the first attribute information and the second attribute information.
  • the updating the second attribute information using the first attribute information includes:
  • a first attribute information determination module configured to perform OCR on the panoramic image to determine the first attribute information including the motor corresponding to the motor nameplate.
  • the image acquisition module is configured to acquire three images formed by photographing the motor nameplate with three cameras, wherein any adjacent cameras form an included angle of 60 degrees.
  • a segmentation module is configured to convert the RGB image into a grayscale image when the panoramic image is an RGB image, and convert the grayscale image into the binary image; when the panoramic image is an RGB image When the image is a grayscale image, the grayscale image is converted into the binary image.
  • the device further comprises:
  • a correction module for converting a panoramic image into a grayscale image; performing edge detection on the grayscale image to determine the edge of the motor nameplate; based on the vertex coordinates of the quadrilateral surrounding the edge and the vertex coordinates of the corrected panoramic image determining a perspective transformation transformation matrix; and generating the corrected panoramic image based on the perspective transformation transformation matrix.
  • the apparatus further includes:
  • An application program executable by the processor is stored in the memory, so as to cause the processor to execute the method for recognizing a motor nameplate as described in any one of the above.
  • FIG. 1 is a flowchart of a method for identifying a motor nameplate according to an embodiment of the present invention.
  • FIG. 2 is an exemplary schematic diagram of a motor nameplate according to an embodiment of the present invention.
  • FIG. 3 is a schematic diagram of a panoramic image of a motor nameplate formed by splicing according to an embodiment of the present invention.
  • FIG. 5 is an exemplary segmentation diagram of a motor nameplate image including a text area and a table area according to an embodiment of the present invention.
  • FIG. 6 is an exemplary schematic diagram of correcting a motor nameplate image to generate a corrected motor nameplate image according to an embodiment of the present invention.
  • FIG. 7 is a schematic diagram of an image of a motor nameplate before correction according to an embodiment of the present invention.
  • FIG. 10 is a structural diagram of an identification device for a motor nameplate having a memory-processor architecture according to an embodiment of the present invention.
  • FIG. 1 is a flowchart of a method for identifying a motor nameplate according to an embodiment of the present invention.
  • the photographing direction of the image acquisition element (such as a camera) at each predetermined photographing point is directed toward the motor nameplate.
  • acquiring multiple images formed by photographing the motor nameplate from respective angles in step 101 includes: acquiring three images formed by photographing the motor nameplate with three cameras, wherein any adjacent cameras form an included angle of 60 degrees.
  • each camera can be implemented as a fisheye camera.
  • multiple images with overlapping parts obtained from different viewing angles are stitched together into a seamless panoramic image (that is, the panoramic image of the motor nameplate).
  • basic operations including digital image processing (such as denoising, edge extraction, histogram processing, etc.), establishing a matching template of the image, and performing some transformation on the image (such as Fourier transform, wavelet transform, etc.) Wait for pre-operation.
  • the specific stitching method after the pre-operation may include a stitching method based on the smallest brightness difference between the two images and a feature-based stitching method.
  • a splicing method based on feature template matching feature points is adopted, which specifically includes: (1) pre-splicing of images, that is, determining a more precise position where two adjacent images overlap, so as to lay a foundation for the search of feature points; (2) 2. Extraction of feature points, that is, finding the feature points to be matched after the basic coincidence position is determined; (3), image matrix transformation and splicing, that is, establishing the transformation matrix of the image according to the matching points and realizing the splicing of the image; (4), the image smoothing.
  • FIG. 2 is an exemplary schematic diagram of a motor nameplate according to an embodiment of the present invention.
  • FIG. 3 is a schematic diagram of splicing a panoramic image of a motor nameplate according to an embodiment of the present invention.
  • the motor nameplate 20 has an arc structure.
  • multiple images 21 , 22 . . . 2n obtained by photographing the motor nameplate 20 from respective angles are spliced into a panoramic image 30 of the motor nameplate 20 , wherein the panoramic image 30 includes all the character areas of the motor nameplate 20 .
  • Step 103 Perform OCR on the panoramic image to determine the first attribute information of the motor corresponding to the motor nameplate.
  • the first attribute information is the characters identified by OCR and recorded on the motor nameplate.
  • the first attribute information may include: manufacturer, model information, installation method, speed ratio, rotational speed, power, frequency conversion mode, and the like.
  • the method further includes:
  • converting the nameplate image including the nameplate into a binary image includes: converting the RGB image into a grayscale image; and converting the grayscale image into a binary image.
  • converting the nameplate image including the nameplate into a binary image includes: converting the grayscale image into a binary image.
  • the floating point method, the integer method, the shift method, the average value method, the green only method, or the Gamma correction algorithm can be used to convert the RGB image into a grayscale image.
  • Grayscale images represent each image point with a different saturation of black.
  • RGB red, green, blue
  • Gray R*0.3+G*0.59+B*0.11;
  • the detecting the text region in the binary image comprises: detecting the text region in the binary image by adopting a maximum stable extreme value region (MSER) method.
  • MSER can be used to roughly find text regions in images.
  • a single MSER algorithm may generate multiple rectangles that contain each other.
  • the text region is detected by a combination of MSER and non-maximum suppression (NMS), where NMS is an algorithm that often accompanies image region detection, and its function is to remove repeated regions and suppress frames that are not the largest frame. , that is, remove the small rectangle contained in the large rectangle.
  • NMS non-maximum suppression
  • the performing edge detection on the binary image to determine the table region includes: performing edge detection on the binary image to determine N table regions, where N is a positive integer greater than or equal to 1;
  • the dividing the panoramic image based on the text area and the table area includes: dividing the panoramic image into a first sub-image including the text area and N second sub-images, wherein each second sub-image contains the corresponding table area.
  • edge detection is to identify points in an image with significant changes in brightness. Significant changes in image properties often reflect significant events and changes in properties.
  • edges of the table contained in the binary image can be determined.
  • an edge refers to a set of pixels around which the grayscale of the pixels changes sharply. Edges exist between objects, backgrounds and regions, so edges are the basis for image segmentation. After performing edge detection on a binary image, you can return the edges of the table area.
  • search-based and zero-crossing-based are many methods for edge detection, which can be roughly divided into two categories: search-based and zero-crossing-based.
  • the edge strength is first calculated, which is usually represented by a first-order derivative, such as the gradient mode; then, the local direction of the edge is estimated by calculation, usually the direction of the gradient is used, and this direction is used to find the local gradient mode. maximum value.
  • the zero-crossing based method the zero-crossing point of the second derivative obtained from the image is found to locate the edge.
  • commonly used edge detection templates include Laplacian operator, Roberts operator, Sobel operator, log(Laplacian-Gauss) operator, Kirsch operator and Prewitt operator, and so on.
  • the panoramic image generated in step 102 is segmented according to the determined text area and the determined table area.
  • the divided panoramic image is the panoramic image before being converted into a binary image, or a duplicate image of the panoramic image before being converted into a binary image.
  • the panoramic image 30 of the motor includes a text area 31 and a table area 32 .
  • the image segmentation process is performed on the panoramic image 30, and the first sub-image 40 including the text area 31 and the second sub-image 50 including the table area 32 can be obtained.
  • multiple second sub-images 50 may be generated, wherein each second sub-image 50 includes a respective corresponding table.
  • OCR processing may be performed on the first sub-image 40 and the second sub-image 50 respectively. Since the text and the table are no longer confused as the same object, the recognition accuracy of the subsequent OCR processing on the first sub-image 40 and the second sub-image 50 is significantly better than the recognition accuracy of the OCR processing on the panoramic image 30 .
  • the Hough transform is usually used to determine the rotation angle of the nameplate in the nameplate image, and then the nameplate is transformed to an appropriate position based on the rotation angle, so as to correct the nameplate image.
  • the Hough transform can only determine the direction of the straight line in the correction process, and the length information of the line segment is lost, so the image is easily distorted and the correction effect is not good.
  • the panoramic image is preferably rectified before the panoramic image is converted into a binary image.
  • the embodiment of the present invention further performs good correction on the panoramic image before converting the stitched panoramic image into a binary image to achieve separation into a text area and a table area.
  • the method before converting the panoramic image obtained by stitching into a binary image, the method further includes: converting the panoramic image obtained by stitching (that is, the panoramic image before correction) into a grayscale image;
  • the grayscale image converted from the image performs edge detection to determine the edge of the motor nameplate; determines the perspective transformation transformation matrix based on the vertex coordinates of the quadrilateral surrounding the edge and the vertex coordinates (predetermined) of the corrected panoramic image; based on the perspective transformation transformation
  • the matrix generates the nameplate image (ie, the rectified nameplate image).
  • the rectified nameplate image can then be converted to a binary image to perform textual and tabular segmentation of the image.
  • a process of determining a quadrilateral surrounding the edge is also included.
  • the quadrilateral with the shortest perimeter is determined as the quadrilateral.
  • a perspective transformation transformation matrix is determined based on the vertex coordinates of the quadrilateral with the shortest perimeter and the vertex coordinates of the nameplate image.
  • Perspective transformation refers to the use of the condition that the three points of the perspective center, the image point and the target point are collinear, and according to the law of perspective rotation, the shadow-bearing surface (perspective surface) is rotated around the trace (perspective axis) by a certain angle, destroying the original projection light. Harness, a transformation that still preserves the projected geometry on the shadow-bearing surface.
  • [x,y] is the two-dimensional coordinates of the pixel in the panoramic image after correction; [u,v,w] is the three-dimensional coordinate of the pixel in the panoramic image before correction, w is usually equal to 1; the pixel is in the panoramic image after correction
  • the three-dimensional coordinates in can be defined as [x,y,1].
  • the rectified panoramic image is usually rectangular.
  • the coordinates of the four vertices of the corrected panoramic image are known, such as (0,0,1), (0,h,1), (w,h,1) and (w,0,1), respectively, Where w is the width of the corrected panoramic image, and h is the height of the corrected panoramic image.
  • 8 equations can be constructed according to formula (3), thereby calculating a 11 , a The values of 12 , a 13 , a 21 , a 22 , a 23 , a 31 , and a 32 .
  • the perspective transformation matrix can be uniquely determined where a 33 is 1.
  • the transformed coordinates of the coordinates of each pixel are determined. Then, separate the original image into R channel, G channel and B channel, and copy each pixel in the R channel to the respective transformed coordinates to generate a rectified R channel, copy each pixel in the G channel to The respective transformed coordinates are used to generate the corrected G channel, and each pixel in the B channel is copied to the respective transformed coordinates to generate the corrected B channel.
  • the corrected R channel, the corrected G channel, and the corrected B channel are combined into a corrected panoramic image. Among them, the pixels at the same position of the R channel, the G channel and the B channel respectively have the same coordinates after conversion.
  • the transformed coordinates of the coordinates of each pixel point in the corrected front panoramic image A are determined.
  • the panoramic image A before correction contains 100 pixels, in which the coordinates of pixel 1 correspond to the converted coordinates K1, the coordinates of pixel 2 correspond to the converted coordinates K1, and the coordinates of pixel 3 correspond to the converted coordinates K3... ...the coordinates of the pixel point 100 correspond to the transformed coordinates K100.
  • the pre-corrected panoramic image A is separated into three channels, namely the R channel of the corrected pre-panoramic image A, the G channel of the corrected pre-panoramic image A, and the B channel of the corrected pre-panoramic image A.
  • Each pixel point in the G channel of the rectified panorama image A is copied to the respective transformed coordinates in the rectified G channel to generate the rectified G channel.
  • the pixel point 1 in the G channel of the corrected panoramic image A is copied to the converted coordinate K1 in the corrected G channel
  • the pixel point 2 in the G channel of the corrected panoramic image A is copied to the corrected G
  • the pixel point 3 in the G channel of the panorama image A before correction to the converted coordinate K3 in the corrected G channel Pixels in the G channel of the panorama image A before the correction are copied
  • Point 100 is copied to the transformed coordinate K100 in the rectified G channel, thereby forming the rectified G channel.
  • the corrected R channel, the corrected G channel and the corrected B channel are combined into a corrected panoramic image.
  • the method further comprises: increasing the contrast of the grayscale image;
  • the contrasted grayscale image is subjected to noise reduction processing.
  • the image enhancement method based on histogram equalization can be used to increase the contrast of grayscale images.
  • FIG. 6 is an exemplary schematic diagram of correcting a motor nameplate image to generate a corrected motor nameplate image according to an embodiment of the present invention.
  • the quadrilateral with the shortest perimeter is determined, which is assumed to be the quadrilateral JKMN (usually trapezoid).
  • the coordinates of the four vertices J, K, M, and N are determined.
  • the nameplate image obtained after correction is a rectangle of a predetermined size.
  • the coordinates of the four vertices A, B, C and D of the rectified nameplate image are determined.
  • the perspective transformation transformation matrix can be calculated. Then, using the perspective transformation transformation matrix, each pixel point in the quadrilateral JKMN can be transformed to the corresponding coordinates of the nameplate image ABCD, so as to achieve correction.
  • FIG. 7 is a schematic diagram of an image of a motor nameplate before correction according to an embodiment of the present invention.
  • FIG. 8 is a schematic diagram of an image of a motor nameplate after correction according to an embodiment of the present invention.
  • the motor nameplate image in FIG. 7 has a tilt angle and has a photographing background pattern; the tilt angle of the motor nameplate image in FIG. 8 is corrected and no longer includes the photographing background pattern, thus facilitating subsequent OCR operations.
  • the method further includes:
  • Step 104 Acquire second attribute information of the motor from a database.
  • the database can be implemented as a cloud server or a local database.
  • the second attribute information and the first attribute information are attribute information for the same type of motor.
  • the first attribute information determined in step 103 includes the motor model; in step 104, obtaining the second attribute information of the motor from the database includes: using the motor model as a retrieval item, retrieving the corresponding motor from the cloud database according to the second attribute information of the motor model; or, using the motor model as a retrieval item, retrieve the second attribute information corresponding to the motor model from the local database.
  • the second attribute information located in the cloud server or the local database may be entered manually or imported in batches from a third party.
  • Step 105 Update the second attribute information using the first attribute information.
  • a specific manner of updating the second attribute information by using the first attribute information may include:
  • Mode (2) Correct the corresponding content included in the second attribute information using the content included in the first attribute information.
  • the first attribute information includes content: the field of "lifting weight of the body” and the numerical value "1410Kg" corresponding to the field. Moreover, if the content is not recorded in the second attribute information, the following content is added and recorded in the second attribute information: the field of "lifting weight of the body” and the numerical value "1410Kg” corresponding to this field.
  • Example (2) The first attribute information includes content: a field of "oil weight” and a numerical value "420 kilograms (Kg)" corresponding to the field. Moreover, if the content is not recorded in the second attribute information, the following content is added and recorded in the second attribute information: a field of "oil weight” and the numerical value "420Kg” corresponding to this field.
  • the first attribute information includes content: a "rated capacity” field and a digital value "800 kilovolt-ampere (Kva)" corresponding to the field. Moreover, if the field is recorded in the second attribute information and the numerical value corresponding to the field is not equal to 800Kva, the numerical value corresponding to the field is modified to 800Kva in the second attribute information.
  • the first attribute information includes content: a "high voltage” field and a digital value "10000 volts (V)" corresponding to the field. Moreover, if the field is recorded in the second attribute information and the digital value corresponding to the field is not equal to 10000V, the digital value corresponding to the field is modified to 10000V in the second attribute information.
  • a time series analysis method or an artificial intelligence network technology can be used to predict the power load or the health state.
  • Seasonal integrated autoregressive moving average model the daily load is similar to the same day of the previous day and the previous week, and the load between different seasons has obvious differences. After the cumulative autoregressive moving average model is added with seasonal factors, a seasonal integrated autoregressive moving average model is formed.
  • the OCR device then saves the updated second attribute information into the local database via the local data bus.
  • the local server accesses the local database via the local data bus to obtain the updated second attribute information.
  • the local server uses the updated second attribute information to perform various predictive analysis or modeling processes on motor behavior.
  • an embodiment of the present invention also proposes an apparatus for segmenting a nameplate image.
  • FIG. 9 is a block diagram of an apparatus for recognizing a motor nameplate according to an embodiment of the present invention.
  • the segmentation device 900 of the nameplate image includes:
  • An image acquisition module 901 configured to acquire a plurality of images formed by photographing the motor nameplate from respective angles;
  • a stitching module 902 configured to stitch the multiple images into a panoramic image
  • the first attribute information determination module 905 is configured to perform optical character recognition on the panoramic image to determine the first attribute information of the motor corresponding to the motor nameplate.
  • the apparatus 900 further includes:
  • the segmentation module 904 is configured to convert the panoramic image into a binary image; detect the text area in the binary image; set the pixel value of each pixel in the text area to a predetermined same value; The binary image performs edge detection to determine a table area in the binary image; the panoramic image is segmented based on the text area and the table area.
  • the segmentation module 904 is configured to convert the RGB image to a grayscale image when the panoramic image is an RGB image; convert the grayscale image to the binary image; When the panoramic image is a grayscale image, the grayscale image is converted into the binary image.
  • the segmentation module 904 is configured to perform edge detection on the binary image to determine N table regions, where N is a positive integer greater than or equal to 1; and segment the panoramic image into first sub-images and N second sub-images, wherein the first sub-image includes a text area, and each second sub-image includes a corresponding table area respectively.
  • the correction module 903 is configured to determine the coordinates of each pixel in the quadrilateral; based on the product of the coordinates of each pixel and the perspective transformation transformation matrix, determine the coordinates of each pixel.
  • the generated corrected G channel and each pixel in the B channel are copied to the respective transformed coordinates.
  • the generated corrected B channel; the corrected R channel, the corrected G channel and the corrected B channel are combined into the corrected panoramic image.
  • the apparatus 900 further includes:
  • An update module 906 configured to acquire the second attribute information of the motor from a database; update the second attribute information by using the first attribute information; save the updated second attribute information to the database , wherein the updating the second attribute information by using the first attribute information includes: adding the content contained in the first attribute information and not contained in the second attribute information to the second attribute information; The content in the first attribute information is corrected to the corresponding content contained in the second attribute information.
  • the memory 802 can be specifically implemented as various storage media such as Electrically Erasable Programmable Read-Only Memory (EEPROM), Flash Memory (Flash memory), Programmable Program Read-Only Memory (PROM).
  • the processor 801 may be implemented to include one or more central processing units or one or more field programmable gate arrays, wherein the field programmable gate arrays integrate one or more central processing unit cores.
  • the central processing unit or the central processing unit core may be implemented as a CPU or an MCU or a DSP or the like.
  • the hardware modules in various embodiments may be implemented mechanically or electronically.
  • a hardware module may include specially designed permanent circuits or logic devices (eg, special purpose processors, such as FPGAs or ASICs) for performing specific operations.
  • Hardware modules may also include programmable logic devices or circuits (eg, including general-purpose processors or other programmable processors) temporarily configured by software for performing particular operations.
  • programmable logic devices or circuits eg, including general-purpose processors or other programmable processors
  • the present invention also provides a machine-readable storage medium storing instructions for causing a machine to perform a method as described herein.
  • a system or device equipped with a storage medium on which software program codes for realizing the functions of any one of the above-described embodiments are stored, and make the computer (or CPU or MPU of the system or device) ) to read and execute the program code stored in the storage medium.
  • a part or all of the actual operation can also be completed by an operating system or the like operating on the computer based on the instructions of the program code.
  • the program code read from the storage medium can also be written into the memory provided in the expansion board inserted into the computer or into the memory provided in the expansion unit connected to the computer, and then the instructions based on the program code make the device installed in the computer.
  • the CPU on the expansion board or the expansion unit or the like performs part and all of the actual operations, so as to realize the functions of any one of the above-mentioned embodiments.
  • Embodiments of storage media for providing program code include floppy disks, hard disks, magneto-optical disks, optical disks (eg, CD-ROM, CD-R, CD-RW, DVD-ROM, DVD-RAM, DVD-RW, DVD+RW), Magnetic tapes, non-volatile memory cards and ROMs.
  • the program code may be downloaded from a server computer or cloud over a communications network.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Studio Devices (AREA)

Abstract

一种电机铭牌的识别方法、装置和计算机可读存储介质。方法包括:获取从各自角度拍摄电机铭牌所形成的多个图像;将所述多个图像拼接为全景图像;针对所述全景图像执行光学字符识别以确定包含该电机铭牌所对应电机的第一属性信息。可以准确识别电机铭牌,还可以将电机铭牌图像分割为文本区域和表格区域,从而提高光学字符识别的准确度,还可以提高数据库中保存的电机属性信息的准确度,并且对电机铭牌图像进行矫正。

Description

一种电机铭牌的识别方法、装置和计算机可读存储介质 技术领域
本发明涉及图像处理技术领域,特别是涉及一种电机铭牌的识别方法、装置和计算机可读存储介质。
背景技术
铭牌(nameplate)又称标牌,主要用来记载设备生产厂家及额定工作情况下的技术数据,以供正确使用而不致损坏设备。制作铭牌的材料通常包括金属类和非金属类,其中金属类有锌合金、铜、铁、铝或不锈钢等;非金属类有塑料、亚克力有机板、PVC、PC或纸等。电子电气设备上通常附着有记录设备的各种属性信息的铭牌。比如,附加到电机上的电机铭牌通常记录厂家、型号信息、安装方式、速比、转速、功率、变频模式等属性信息。
可以拍摄电机铭牌以获取电机铭牌图像,然后利用光学字符识别(Optical Character Recognition,OCR)技术自动提取电机铭牌图像中的内容,并利用这些内容执行各种数据分析(比如,电机负荷预测)或相关建模(比如,电机的健康度模型)。
电机铭牌需要紧密贴合布置在电动机的圆柱形外壳上。电机铭牌通常具有与圆柱形外壳相匹配的弧形结构。由于弧形结构的遮挡作用,单张电机铭牌图像经常不能拍摄出电机铭牌的全景,导致后续OCR处理时不能获取电机铭牌的全部内容,影响OCR效果。
另外,电机铭牌经常同时包含表格和文字。电机铭牌图像中的文字与表格靠近,导致OCR处理时容易将相互靠近的文字和表格混淆为同一个物体,从而进一步影响OCR效果。
发明内容
本发明实施方式提出一种电机铭牌的识别方法、装置和计算机可读存储介质。
本发明实施方式的技术方案如下:
一种电机铭牌的识别方法,该方法包括:
获取从各自角度拍摄电机铭牌所形成的多个图像;
将所述多个图像拼接为全景图像;
针对所述全景图像执行OCR以确定包含该电机铭牌所对应电机的第一属性信息。
因此,本发明实施方式将从各自角度拍摄电机铭牌所形成的多个图像拼接为全景图像,然后再针对全景图像执行OCR,因此可以识别出铭牌中的全部内容,克服了现有技术中难以识别出铭牌中全部内容的缺陷。
在一个实施方式中,所述获取从各自角度拍摄电机铭牌所形成的多个图像包括:获取以三个摄像头拍摄所述电机铭牌所形成的三个图像,其中任意相邻摄像机之间呈60度夹角。
可见,通过三个图像即可实现拼接,实现方式简单。
在一个实施方式中,在将所述多个图像拼接为全景图像与针对所述全景图像执行OCR以确定包含在所述电机铭牌中的铭牌信息之间,该方法还包括:
将所述全景图像转换为二值图像;
检测所述二值图像中的文本区域;
将所述文本区域中的每个像素点的像素值设置为预定的相同值;
对所述二值图像执行边缘检测以确定所述二值图像中的表格区域;
基于所述文本区域和所述表格区域分割所述全景图像。
因此,本发明实施方式还可以分离全景图像中的文字区域与表格区域。
在一个实施方式中,所述将全景图像转换为二值图像包括:
当所述全景图像为RGB图像时,将所述RGB图像转换为灰度图像,将所述灰度图像转换为所述二值图像;
当所述全景图像为灰度图像时,将所述灰度图像转换为所述二值图像。
可见,在本发明实施方式中,全景图像可以为RGB图像或灰度图像,适用范围广泛。
在一个实施方式中,所述对二值图像执行边缘检测以确定所述二值图像中的表格区域包括:对所述二值图像执行边缘检测以确定出N个表格区域,其中N为大于等于1的正整数;
所述基于文本区域和表格区域分割所述全景图像包括:将所述全景图像分割为第一子图像和N个第二子图像,其中所述第一子图像包含文本区域,每个第二子图像中分别包含对应的表格区域。
因此,本发明实施方式可以生成对应于表格区域和文字区域的子图像。
在一个实施方式中,在将全景图像转换为二值图像之前,该方法还包括:
将所述全景图像转换为灰度图像;
对所述灰度图像执行边缘检测以确定所述电机铭牌的边缘;
基于包围所述边缘的四边形的顶点坐标和矫正后全景图像的顶点坐标确定透视变换转换矩阵;
基于所述透视变换转换矩阵生成所述矫正后全景图像。
可见,本发明实施方式基于边缘检测所确定的铭牌边缘确定透视变换转换矩阵,并利用透视变换转换矩阵生成原始全景图像的矫正后全景图像,透视变换后的铭牌图像中的铭牌图形不变,克服了霍夫变换的失真缺陷,可以提高图像的矫正准确度。
在一个实施方式中,所述基于所述透视变换转换矩阵生成矫正后全景图像包括:
确定所述四边形中的每个像素点的坐标;基于每个像素点的坐标与所述透视变换转换矩阵的乘积,确定所述每个像素点的坐标的转换后坐标;将每个像素点复制到各自的转换后坐标处以生成所述矫正后全景图像;或
确定所述全景图像中的每个像素点的坐标;基于每个像素点的坐标与所述透视变换转换矩阵的乘积,确定所述每个像素点的坐标的转换后坐标;将所述全景图像分离为R通道、G通道和B通道;确定R通道中的每个像素点复制到各自的转换后坐标处所生成的矫正R通道、G通道中的每个像素点复制到各自的转换后坐标处所生成的矫正G通道和B通道中的每个像素点复制到各自的转换后坐标处所生成的矫正B通道;将所述矫正R通道、所述矫正G通道以及所述矫正B通道合并为所述矫正后全景图像。
可见,在本发明实施方式中,通过对包围铭牌边缘的四边形中的每个像素点的坐标转换,可以生成对应于该四边形的、具有灰度的矫正图像。而且,通过对铭牌图像的R通道、G通道和B通道中的每个像素点的坐标转换,可以生成对应于原始图像的、具有RGB色彩的矫正图像。
在一个实施方式中,该方法还包括:
从数据库中获取所述电机的第二属性信息;
利用所述第一属性信息更新所述第二属性信息;
将更新后的所述第二属性信息保存到所述数据库中。
可见,在本发明实施方式中,利用具有高准确度和高权威性的电机铭牌对数据库中人工录入的电机属性信息实现更新,可以提高数据库中的电机属性信息的准确度。
在一个实施方式中,所述第一属性信息包含电机型号;所述从数据库中获取所述电机的第二属性信息包括:将所述电机型号作为检索项,从云端数据库中检索出对应于所述电机型号的第二属性信息;或,将所述电机型号作为检索项,从本地数据库中检索出对应于所述电机型号的第二属性信息。
因此,本发明实施方式利用电机型号作为检索项,可以保证第一属性信息和第二属性信息之间的对应性。
在一个实施方式中,所述利用第一属性信息更新所述第二属性信息包括:
将包含在第一属性信息且不包含在第二属性信息中的内容,添加到所述第二属性信息中;或
利用包含在第一属性信息中的内容,更正包含在第二属性信息的对应内容。
因此,本发明实施方式可以利用第一属性信息在第二属性信息中增加遗漏内容和更正错误内容。
一种电机铭牌的识别装置,包括:
图像获取模块,用于获取从各自角度拍摄电机铭牌所形成的多个图像;
拼接模块,用于将所述多个图像拼接为全景图像;
第一属性信息确定模块,用于针对所述全景图像执行OCR以确定包含该电机铭牌所对应电机的第一属性信息。
因此,本发明实施方式将从各自角度拍摄电机铭牌所形成的多个图像拼接为全景图像,然后再针对全景图像执行OCR,因此可以识别出铭牌中的全部内容,克服了现有技术中难以识别出铭牌中全部内容的缺陷。
在一个实施方式中,图像获取模块,用于获取以三个摄像头拍摄电机铭牌所形成的三个图像,其中任意相邻摄像机之间呈60度夹角。
可见,通过三个图像即可实现拼接,实现方式简单。
在一个实施方式中,在拼接模块与第一属性信息确定模块之间,该装置还包括:
分割模块,用于将全景图像转换为二值图像;检测所述二值图像中的文本区域;将所述文本区域中的每个像素点的像素值设置为预定的相同值;对所述二值图像执行边缘检测以确定所述二值图像中的表格区域;基于所述文本区域和所述表格区域分割所述全景图像。
因此,本发明实施方式还可以分离全景图像中的文字区域与表格区域。
在一个实施方式中,分割模块,用于当所述全景图像为RGB图像时,将所述RGB图像转换为灰度图像,将所述灰度图像转换为所述二值图像;当所述全景图像为灰度图像时,将所述灰度图像转换为所述二值图像。
可见,在本发明实施方式中,全景图像可以为RGB图像或灰度图像,适用范围广泛。
在一个实施方式中,分割模块,用于对所述二值图像执行边缘检测以确定出N个表格区域,其中N为大于等于1的正整数;将所述全景图像分割为第一子图像和N个第二子图像,其中所述第一子图像包含文本区域,每个第二子图像中分别包含对应的表格区域。
因此,本发明实施方式可以生成对应于表格区域和文字区域的子图像。
在一个实施方式中,在拼接模块与分割模块之间,该装置还包括:
矫正模块,用于将全景图像转换为灰度图像;对所述灰度图像执行边缘检测以确定所述电机铭牌的边缘;基于包围所述边缘的四边形的顶点坐标和矫正后全景图像的顶点坐标确定透视变换转换矩阵;基于所述透视变换转换矩阵生成所述矫正后全景图像。
可见,本发明实施方式基于边缘检测所确定的铭牌边缘确定透视变换转换矩阵,并利用透视变换转换矩阵生成原始全景图像的矫正后全景图像,透视变换后的铭牌图像中的铭牌图形不变,克服了霍夫变换的失真缺陷,可以提高图像的矫正准确度。
在一个实施方式中,矫正模块,用于确定所述四边形中的每个像素点的坐标;基于每个像素点的坐标与所述透视变换转换矩阵的乘积,确定所述每个像素点的坐标的转换后坐标;将每个像素点复制到各自的转换后坐标处以生成所述矫正后全景图像;或确定所述全景图像中的每个像素点的坐标;基于每个像素点的坐标与所述透视变换转换矩阵的乘积,确定所述每个像素点的坐标的转换后坐标;将所述全景图像分离为R通道、G通道和B通道;确定R通道中的每个像素点复制到各自的转换后坐标处所生成的矫正R通道、G通道中的每个像素点复制到各自的转换后坐标处所生成的矫正G通道和B通道中的每个像素点复制到各自的转换后坐标处所生成的矫正B通道;将所述矫正R通道、所述矫正G通道以及所述矫正B通道合并为所述矫正后全景图像。
可见,在本发明实施方式中,通过对包围铭牌边缘的四边形中的每个像素点的坐标转换,可以生成对应于该四边形的、具有灰度的矫正图像。而且,通过对铭牌图像的R通道、G通道和B通道中的每个像素点的坐标转换,可以生成对应于原始图像的、具有RGB色彩的矫正图像。
在一个实施方式中,该装置还包括:
更新模块,用于从数据库中获取所述电机的第二属性信息;利用所述第一属性信息更新所述第二属性信息;将更新后的所述第二属性信息保存到所述数据库中,其中所述利用第一属性信息更新所述第二属性信息包括:将包含在第一属性信息且不包含在第二属性信息中的内容,添加到所述第二属性信息中;或利用包含在第一属性信息中的内容,更正包含在第二属性信息的对应内容。
可见,在本发明实施方式中,利用具有高准确度和高权威性的电机铭牌对数据库中人工录入的电机属性信息实现更新,可以提高数据库中的电机属性信息的准确度。另外,可以利用第一属性信息在第二属性信息中增加遗漏内容和更正错误内容。
一种电机铭牌的识别装置,包括:处理器和存储器;
其中所述存储器中存储有可被所述处理器执行的应用程序,用于使得所述处理器执行如上任一项所述的电机铭牌的识别方法。
因此,本发明实施方式还提出一种具有处理器-存储器架构的电机铭牌的识别装置,可以识别出铭牌中的全部内容,克服了现有技术中难以识别出铭牌中全部内容的缺陷。
一种计算机可读存储介质,其中存储有计算机可读指令,该计算机可读指令用于执行如上任一项所述的电机铭牌的识别方法。
因此,本发明实施方式还提出一种具有计算机可读指令的计算机可读存储介质,可以识别出铭牌中的全部内容,克服了现有技术中难以识别出铭牌中全部内容的缺陷。
附图说明
图1为本发明实施方式的电机铭牌的识别方法的流程图。
图2为本发明实施方式的电机铭牌的示范性示意图。
图3为本发明实施方式拼接形成电机铭牌的全景图像的示意图。
图4为本发明实施方式包含文字区域和表格区域的电机铭牌图像的示意图。
图5为本发明实施方式包含文字区域和表格区域的电机铭牌图像的示范性分割示意图。
图6为本发明实施方式的对电机铭牌图像进行矫正以生成矫正后电机铭牌图像的示范性示意图。
图7为本发明实施方式矫正前的电机铭牌图像的示意图。
图8为本发明实施方式矫正后的电机铭牌图像的示意图。
图9为本发明实施方式的电机铭牌的识别装置的结构图。
图10为本发明实施方式具有存储器-处理器架构的、电机铭牌的识别装置的结构图。
其中,附图标记如下:
标号 含义
100 电机铭牌的识别方法
101~106 步骤
10 电机铭牌
21、22…2n 从各自角度拍摄电机铭牌的图像
30 电机铭牌的全景图像
31 文字区域
32 表格区域
40 第一子图像
50 第二子图像
900 电机铭牌的识别装置
901 图像获取模块
902 拼接模块
903 矫正模块
904 分割模块
905 第一属性信息确定模块
906 更新模块
800 电机铭牌的识别装置
801 处理器
802 存储器
具体实施方式
为了使本发明的技术方案及优点更加清楚明白,以下结合附图及实施方式,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施方式仅仅用以阐述性说明本发明,并不用于限定本发明的保护范围。
为了描述上的简洁和直观,下文通过描述若干代表性的实施方式来对本发明的方案进行阐述。实施方式中大量的细节仅用于帮助理解本发明的方案。但是很明显,本发明的技术方案实现时可以不局限于这些细节。为了避免不必要地模糊了本发明的方案,一些实施方式没有进行细致地描述,而是仅给出了框架。下文中,“包括”是指“包括但不限于”,“根据……”是指“至少根据……,但不限于仅根据……”。由于汉语的语言习惯,下文中没有特别指出一个成分的数量时,意味着该成分可以是一个也可以是多个,或可理解为至少一个。
考虑到单张电机铭牌图像经常不能包含电机铭牌的全景,导致后续OCR处理时不能获取全部内容的缺陷,申请人提出一种电机铭牌图像的识别方案,将从各自角度拍摄电机铭牌所形成的多个图像拼接为全景图像之后再针对全景图像执行OCR,从而可以识别出铭牌中的全部内容。
图1为本发明实施方式的电机铭牌的识别方法的流程图。
如图1所示,该方法包括:
步骤101:获取从各自角度拍摄电机铭牌所形成的多个图像。
优选地,在针对电机铭牌的拍照过程中,处于每个预定拍摄点的图像采集元件(比如摄像头)的拍摄方向都朝向电机铭牌。其中,拍摄点的数量依据如下公式来确定:N=T/α+1,其中,N为拍摄点的个数,T为预定的全景角度(全景角度优选覆盖电机铭牌的全部字符区域),α为图像采集元件的视场角(FOV)为或小于FOV的任意角度。
优选地,步骤101中获取从各自角度拍摄电机铭牌所形成的多个图像包括:获取以三个摄像头拍摄电机铭牌所形成的三个图像,其中任意相邻摄像机之间呈60度夹角。比如,每个摄像头可以实施为鱼眼摄像头。
步骤102:将所述多个图像拼接为全景图像。
在这里,将分别在不同视角下获得的、有重叠部分的多张图像拼成一幅无缝的全景图像(即为电机铭牌的全景图像)。在拼接之前,通过执行包括数字图像处理的基本操作(如去噪、边缘提取、直方图处理等)、建立图像的匹配模板以及对图像进行某种变换(如傅里叶变换、小波变换等)等预操作。
预操作之后的具体拼接方式可以包括基于两幅图像的亮度差最小的拼接方法和基于特征的拼接方法。优选地,采用基于特征模板匹配特征点的拼接方法,具体包括:(1)、图像的预拼接,即确定两幅相邻图像重合的较精确位置,为特征点的搜索奠定基础;(2)、特征点的提取,即在基本重合位置确定后找到待匹配的特征点;(3)、图像矩阵变换及拼接,即根据匹配点建立图像的变换矩阵并实现图像的拼接;(4)、图像的平滑处理。
以上示范性描述了拍摄电机铭牌以及拼接为全景图像的典型实施方式,本领域技术人员可以意识到,这种描述仅是示范性的,并不用于限定本发明实施方式的保护范围。
图2为本发明实施方式的电机铭牌的示范性示意图。图3为本发明实施方式拼接电机铭牌的全景图像的示意图。
由图2可见,电机铭牌20具有弧形结构。在图3中,从各自角度拍摄电机铭牌20所得到的多张图像21、22…2n被拼接为电机铭牌20的全景图像30,其中全景图像30中包含电机铭牌20的全部字符区域。
步骤103:针对所述全景图像执行OCR以确定包含该电机铭牌所对应电机的第一属性信息。
在这里,针对全景图像执行OCR以确定包含该电机铭牌所对应电机的第一属性信息。其中,具体的OCR处理过程可以参照目前的成熟技术,本发明实施方式对此不再赘述。第一属性信息为OCR所识别出 的、记载在电机铭牌上的字符。具体地,第一属性信息可以包括:厂家、型号信息、安装方式、速比、转速、功率、变频模式等等。
电机铭牌经常同时包含表格和文字。铭牌图像中的文字与表格靠近,导致OCR处理时容易将相互靠近的文字和表格混淆为同一个物体,从而影响OCR效果。
在一个实施方式中,在步骤102中将多个图像拼接为全景图像与步骤103中针对全景图像执行OCR以确定包含该电机铭牌所对应电机的第一属性信息之间,该方法还包括:
将全景图像转换为二值图像;检测二值图像中的文本区域;将文本区域中的每个像素点的像素值设置为预定的相同值;对二值图像执行边缘检测以确定二值图像中的表格区域;基于文本区域和所述表格区域分割全景图像。
可见,在本发明实施方式中,首先检测二值图像中的文本区域,再将文本区域中的每个像素点的像素值设置为相同值,从而对二值图像执行边缘检测时可以准确地确定出表格区域,然后可以基于文本区域和表格区域分割铭牌图像,实现分离电机铭牌图像中的文字区域与表格区域。然后,可以针对分离出的文字区域与表格区域分别执行OCR处理。
在一个实施方式中,当全景图像为RGB图像时,将包含铭牌的铭牌图像转换为二值图像包括:将所述RGB图像转换为灰度图像;将所述灰度图像转换为二值图像。在一个实施方式中,当全景图像为灰度图像时,将包含铭牌的铭牌图像转换为二值图像包括:将所述灰度图像转换为二值图像。
在这里,可以采用浮点法、整数法、移位法、平均值法、仅取绿色法或Gamma校正算法等方式,将RGB图像转换为灰度图像。灰度图像是用不同饱和度的黑色来表示每个图像点。
假如RGB彩色图像中某点的颜色为RGB(R,G,B),可以通过下面的示范性方法,将其转换为灰度(Gray)。
(1)、浮点法:Gray=R*0.3+G*0.59+B*0.11;
(2)、整数法:Gray=(R*30+G*59+B*11)/100;
(3)、移位法:Gray=(R*77+G*151+B*28)>>8;
(4)、平均值法:Gray=(R+G+B)/3;
(5)仅取绿色法:Gray=G;
(6)、Gamma校正算法:
Figure PCTCN2020116314-appb-000001
以上示范性描述了将RGB图像转换为灰度图像的典型方法,本领域技术人员可以意识到,这种描述仅是示范性的,并不用于限定本发明实施方式的保护范围。
二值图像只有黑色(0)和白色(1)两种颜色表示。灰度值0~255的灰度图像变到像素值0-1的二值图像,这个过程称为二值化。实现原理为设定一个阈值,假如为128,接下来遍历0~255灰度图像的每一个像素,如果像素灰度值大于128,那么置为白色(1),否则置为黑色(0)。
在一个实施方式中,所述检测二值图像中的文本区域包括:采用最大稳定极值区域(MSER)方式检测所述二值图像中的文本区域。MSER可以用来粗略地寻找图像中的文字区域。不过,单独的MSER算法可能产生多个互相包含的矩形框。优选地,采用MSER与非极大值抑制(non maximum suppression,NMS)相结合的方式检测文本区域,其中NMS是经常伴随图像区域检测的算法,作用是去除重复的区域,抑制不是最大框的框,也就是去除大矩形框中包含的小矩形框。
以上示范性描述了检测二值图像中的文本区域的典型方式,本领域技术人员可以意识到,这种描述仅是示范性的,并不用于限定本发明实施方式的保护范围。
在一个实施方式中,将文本区域的像素值设置为预定的相同值包括:将所述文本区域的像素值设置为1或0。因此,实现将文本区域设置为白色区域或黑色区域,避免对表格区域的检测过程造成干扰。二值图像的文本区域中的每个像素点的像素值已经被设置为预定的相同值,因此文本区域(已经转变为白色区域或黑色区域)不会对针对表格区域的检测过程造成干扰。
在一个实施方式中,所述对二值图像执行边缘检测以确定所述表格区域包括:对所述二值图像执行边缘检测以确定出N个表格区域,其中N为大于等于1的正整数;所述基于所述文本区域和所述表格区域分割所述全景图像包括:将全景图像分割为包含文本区域的第一子图像和N个第二子图像,其中每个第二子图像中分别包含对应的表格区域。
边缘检测的目的是标识图像中亮度变化明显的点。图像属性中的显著变化通常反映了属性的重要事件和变化。通过对二值图像执行边缘检测,可以确定包含在二值图像中的表格的边缘。具体地,边缘是指其周围像素灰度急剧变化的那些象素的集合。边缘存在于目标、背景和区域之间,所以,边缘是图像分割所依赖的依据。对二值图像执行边缘检测后,可以返回表格区域的边缘。目前,存在有许多用于边缘检测的方法,大致可分为两类:基于搜索和基于零交叉。在基于搜索的边缘检测方法中,首先计算边缘强度,通常用一阶导数表示,例如梯度模;然后,用计算估计边缘的局部方向,通常采用梯度的方向,并利用此方向找到局部梯度模的最大值。在基于零交叉的方法中,找到由图像得到的二阶导数的零交叉点来定位边缘。通常用拉普拉斯算子或非线性微分方程的零交叉点。目前,常用的边缘检测模板有Laplacian算子、Roberts算子、Sobel算子、log(Laplacian-Gauss)算子、Kirsch算子和Prewitt算子,等等。
以上示范性描述了执行边缘检测的典型方法,本领域技术人员可以意识到,这种描述仅是示范性的,并不用于限定本发明实施方式的保护范围。
在这里,按照确定的文本区域和确定的表格区域,分割步骤102中所生成的全景图像。其中,该被分割的全景图像为被转换为二值图像前的全景图像,或被转换为二值图像前的全景图像的复制图像。
图4为本发明实施方式包含文字区域和表格区域的电机铭牌图像的示意图。图5为本发明实施方式包含文字区域和表格区域的电机铭牌图像的示范性分割示意图。
由图4和图5可见,在电机的全景图像30中,包含有文字区域31和表格区域32。针对该全景图像 30执行图像分割流程,可以得到包含文字区域31的第一子图像40和包含表格区域32的第二子图像50。其中,当全景图像30中包含多个表格时,可以生成多个第二子图像50,其中每个第二子图像50包含各自的一张对应表格。后续处理中,可以分别对第一子图像40和第二子图像50执行OCR处理。由于文字和表格不再混淆为同一个物体,因此后续对第一子图像40和第二子图像50分别执行OCR处理的识别准确度,显著优于针对全景图像30执行OCR处理的识别准确度。
申请人还发现:当拍摄铭牌的拍摄角度发生倾斜时,拍摄得到的原始铭牌图像中的铭牌相应具有倾斜角度,此时OCR技术难以准确提取铭牌内容。目前,通常采用霍夫变换(Hough transform)确定铭牌图像中铭牌的旋转角度,再基于旋转角度将铭牌变换到合适的位置,从而矫正铭牌图像。然而,采用霍夫变换在矫正过程中只能确定直线方向,丢失了线段的长度信息,因此容易图像失真,矫正效果不佳。优选在将所述全景图像转换为二值图像之前,对全景图像进行矫正。
优选地,本发明实施方式将拼接得到的全景图像转换为二值图像以实现分离为文字区域与表格区域之前,进一步对全景图像执行良好矫正。
在一个实施方式中,在将拼接得到的全景图像转换为二值图像之前,该方法还包括:将拼接得到的全景图像(即矫正前的全景图像)转换为灰度图像;对矫正前的全景图像所转换出的灰度图像执行边缘检测以确定电机铭牌的边缘;基于包围边缘的四边形的顶点坐标和矫正后全景图像的顶点坐标(预定的)确定透视变换转换矩阵;基于所述透视变换转换矩阵生成铭牌图像(即矫正后的铭牌图像)。然后,可以针对矫正后的铭牌图像开始转换为二值图像,以执行图像的文字和表格分割。
优选地,还包括确定包围边缘的四边形的过程。其中,在所有包围所述边缘的四边形集合(包含包围该边缘的全部四边形)中,将周长最短的四边形确定为该四边形。而且,基于该周长最短的四边形的顶点坐标和铭牌图像的顶点坐标确定透视变换转换矩阵。
下面对透视变换(Perspective Transformation)进行说明。
透视变换是指利用透视中心、像点、目标点三点共线的条件,按透视旋转定律使得承影面(透视面)绕迹线(透视轴)旋转某一角度,破坏原有的投影光线束,仍能保持承影面上投影几何图形不变的变换。
在透视变换中,具有如下公式:
Figure PCTCN2020116314-appb-000002
Figure PCTCN2020116314-appb-000003
Figure PCTCN2020116314-appb-000004
其中:
[x,y]是像素点在矫正后全景图像中的二维坐标;[u,v,w]是像素点在矫正前全景图像的三维坐标,w通常等于1;像素点在矫正后全景图像中的三维坐标可以定义为[x,y,1]。
Figure PCTCN2020116314-appb-000005
即为透视变换转换矩阵,其中a 33为1。
矫正后全景图像通常为长方形。而且,矫正后全景图像的4个顶点坐标为已知,比如分别为(0,0,1)、(0,h,1)、(w,h,1)和(w,0,1),其中w为矫正后全景图像的宽度,h为矫正后全景图像的高度。
因此,基于包围边缘的四边形的四个顶点坐标(已知)和矫正后全景图像的4个顶点坐标(已知),根据公式(3)可以构建出8个方程,从而计算出a 11、a 12、a 13、a 21、a 22、a 23、a 31和a 32的值。当计算出a 11、a 12、a 13、a 21、a 22、a 23、a 31和a 32的值后,可以唯一地确定出透视变换转换矩阵
Figure PCTCN2020116314-appb-000006
其中a 33为1。
优选地,所述基于所述透视变换转换矩阵生成矫正后全景图像包括:
方式(1):确定所述四边形中的每个像素点的坐标(三维坐标,其中w值设置为1);基于每个像素点的坐标与所述透视变换转换矩阵的乘积,确定所述每个像素点的坐标的转换后坐标;将每个像素点复制到各自的转换后坐标处以生成矫正后全景图像。
可见,在本发明实施方式中,通过对包围铭牌边缘的四边形中的每个像素点的坐标转换,可以生成对应于该四边形的、具有灰度的已矫正图像。因此,本发明实施方式还实现了一种灰度图形式的已矫正铭牌图像。
方式(2):确定矫正前全景图像中的每个像素点的坐标;基于每个像素点的坐标与所述透视变换转换矩阵的乘积,确定所述每个像素点的坐标的转换后坐标;将矫正前全景图像分离为R通道、G通道和B通道;确定R通道中的每个像素点复制到各自的转换后坐标处所生成的矫正R通道、G通道中的每个像素点复制到各自的转换后坐标处所生成的矫正G通道和B通道中的每个像素点复制到各自的转换后坐标处所生成的矫正B通道;将所述矫正R通道、所述矫正G通道以及所述矫正B通道合并为所述矫正图像。具体地,首先基于原始图像中的每个像素点的坐标与透视变换转换矩阵的乘积,确定每个像素点的坐标的转换后坐标。然后,将原始图像分离为R通道、G通道和B通道,并且将R通道中的每个像素点复制到各自的转换后坐标处以生成矫正R通道,将G通道中的每个像素点复制到各自的转换后坐标处以生成矫正G通道,将B通道中的每个像素点复制到各自的转换后坐标处以生成矫正B通道。接着,将矫正R通道、矫正G通道以及矫正B通道合并为矫正后全景图像。其中,R通道、G通道和B通道的相同位置处的像素点,分别具有相同的转换后坐标。
举例,假定有彩色的矫正前全景图像A需要被矫正。首先,基于矫正前全景图像A中的每个像素点 的坐标与透视变换转换矩阵的乘积,确定矫正前全景图像A中的每个像素点的坐标的转换后坐标。比如,矫正前全景图像A包含100个像素点,其中像素点1的坐标对应于转换后坐标K1、像素点2的坐标对应于转换后坐标K1、像素点3的坐标对应于转换后坐标K3……像素点100的坐标对应于转换后坐标K100。
然后,将矫正前全景图像A分离为三个通道,分别为矫正前全景图像A的R通道、矫正前全景图像A的G通道和矫正前全景图像A的B通道。
接着,将矫正前全景图像A的R通道中的每个像素点,复制到矫正的R通道中的各自的转换后坐标处以生成矫正的R通道。具体地,将矫正前全景图像A的R通道中的像素点1复制到矫正的R通道中的转换后坐标K1处,将矫正前全景图像A的R通道中的像素点2复制到矫正的R通道中的转换后坐标K2处,将矫正前全景图像A的R通道中的像素点3复制到矫正的R通道中的转换后坐标K3处……将矫正前全景图像A的R通道中的像素点100复制到矫正的R通道中的转换后坐标K100处,从而形成矫正的R通道。
将矫正前全景图像A的G通道中的每个像素点,复制到矫正的G通道中的各自的转换后坐标处以生成矫正的G通道。具体地,将矫正前全景图像A的G通道中的像素点1复制到矫正的G通道中的转换后坐标K1处,将矫正前全景图像A的G通道中的像素点2复制到矫正的G通道中的转换后坐标K2处,将矫正前全景图像A的G通道中的像素点3复制到矫正的G通道中的转换后坐标K3处……将矫正前全景图像A的G通道中的像素点100复制到矫正的G通道中的转换后坐标K100处,从而形成矫正的G通道。
将矫正前全景图像A的B通道中的每个像素点,复制到矫正的G通道中的各自的转换后坐标处以生成矫正的B通道。具体地,将矫正前全景图像A的B通道中的像素点1复制到矫正的B通道中的转换后坐标K1处,将矫正前全景图像A的B通道中的像素点2复制到矫正的B通道中的转换后坐标K2处,将矫正前全景图像A的B通道中的像素点3复制到矫正的B通道中的转换后坐标K3处……将铭牌图像A的B通道中的像素点100复制到矫正的B通道中的转换后坐标K100处,从而形成矫正的B通道。
最后,将所述矫正R通道、所述矫正G通道以及所述矫正B通道合并为矫正后全景图像。
可见,在本发明实施方式中,通过对原始图像的R通道、G通道和B通道中的每个像素点的坐标转换,可以生成对应于原始图像的、具有RGB色彩的矫正图像。因此,本发明实施方式还实现了一种RGB色彩形式的矫正后的铭牌图像。
在一个实施方式中,在将矫正前全景图像转换为灰度图像与对灰度图像执行边缘检测以确定所述电机铭牌的边缘之间,该方法还包括:增加灰度图像的对比度;对增加对比度后的灰度图像执行降噪处理。具体地,可以采用基于直方图均衡化的图像增强方式增加灰度图像的对比度,其基本思想是对于图像中的灰度点做映射,使得整体图像的灰度大致符合均匀分布。
图6为本发明实施方式的对电机铭牌图像进行矫正以生成矫正后电机铭牌图像的示范性示意图。
在矫正前全景图像中铭牌的轮廓20被确定后,在包围边缘20的四边形集合(该四边形集合包含所有 包围边缘20的四边形)中,确定出周长最短的四边形,假定为四边形JKMN(通常为不规则四边形)。四边形JKMN被确定后,4个顶点J、K、M、N的坐标即确定。矫正后得到的铭牌图像(即矫正后全景图像)为预定大小的长方形。矫正后得到的铭牌图像的四个顶点A、B、C和D的坐标是已确定的。因此,基于J、K、M、N的坐标与A、B、C和D的坐标之间的对应关系,可以计算出透视变换转换矩阵。然后,利用该透视变换转换矩阵,可以将四边形JKMN中的每个像素点转换到铭牌图像ABCD的对应坐标处,从而实现矫正。
图7为本发明实施方式矫正前的电机铭牌图像的示意图。图8为本发明实施方式矫正后的电机铭牌图像的示意图。
可见,图7的电机铭牌图像具有倾斜角度且带有拍摄背景图案;图8中的电机铭牌图像的倾斜角度得到矫正且不再包含拍摄背景图案,因此便于后续的OCR操作。
在一个实施方式中,该方法还包括:
步骤104:从数据库中获取所述电机的第二属性信息。
在这里,数据库可以实施为云端服务器或者本地数据库。第二属性信息和第一属性信息为针对同一型号电机的属性信息。
优选地,在步骤103中确定的第一属性信息包含电机型号;步骤104中从数据库中获取所述电机的第二属性信息包括:将所述电机型号作为检索项,从云端数据库中检索出对应于所述电机型号的第二属性信息;或,将所述电机型号作为检索项,从本地数据库中检索出对应于所述电机型号的第二属性信息。
在这里,位于云端服务器或者本地数据库中的第二属性信息,可以是人工所录入的,或者从第三方批量导入的。
步骤105:利用所述第一属性信息更新所述第二属性信息。
考虑到第二属性信息和第一属性信息存在不相同的情形,利用第一属性信息更新所述第二属性信息的具体方式可以包括:
方式(1):将包含在第一属性信息且不包含在第二属性信息中的内容,添加到所述第二属性信息中。
方式(2):利用包含在第一属性信息中的内容,更正包含在第二属性信息的对应内容。
举例(1):第一属性信息中包含内容:“器身吊重”字段以及该字段对应的数字值“1410Kg”。而且,该内容并没有在第二属性信息中被记载,则在第二属性信息中增加记录如下内容:“器身吊重”字段以及该字段对应的数字值“1410Kg”。
举例(2):第一属性信息中包含内容:“油重”字段以及该字段对应的数字值“420公斤(Kg)”。而且,该内容并没有在第二属性信息中有记载,则在第二属性信息中增加记录如下内容:“油重”字段以及该字段对应的数字值“420Kg”。
举例(3):第一属性信息中包含内容:“额定容量”字段以及该字段对应的数字值“800千伏安(Kva)”。 而且,该字段在第二属性信息中有记载且该字段对应的数字值不等于800Kva,则在第二属性信息中将该字段对应的数字值修改为800Kva。
举例(4):第一属性信息中包含内容:“高压”字段以及该字段对应的数字值“10000伏特(V)”。而且,该字段在第二属性信息中有记载且该字段对应的数字值不等于10000V,则在第二属性信息中将该字段对应的数字值修改为10000V。
以上示范性描述了利用所述第一属性信息更新所述第二属性信息的典型实例,本领域技术人员可以意识到,这种描述仅是示范性的,并不用于限定本发明实施方式的保护范围。
步骤106:将更新后的所述第二属性信息保存到所述数据库中。
因此,利用精确度更高的电机铭牌所记载的电机属性信息对数据库中保存的电机属性信息进行更新,可以提高数据库中的电机属性信息的准确度,有利于后续基于数据库中保存的电机属性信息执行各种关于电机行为的预测分析或建模处理。
在一个实施方式中,该方法还包括:从所述数据库中获取更新后的所述第二属性信息;基于所述更新后的所述第二属性信息,对所述电机进行电力负荷预测或健康状态预测。
比如,可以基于更新后的第二属性信息,可以利用时间序列分析法或基于人工智能网络技术预测电力负荷或健康状态。
在时间序列分析法中,可以采用自回归移动平均模型(ARMA,Autoregressive Moving Average)、累积式自回归移动平均模型(ARIMA,Autoregressive Integrated Moving Average)或累积式自回归移动平均模型(ARIMA,Autoregressive Integrated Moving Average)实现预测。
具体地:
(1)、自回归移动平均模型:自回归模型负荷的现在值由过去值的加权值的有限线性组合及干扰量来表示。移动平均模型假设干扰的影响只表现在有限的几个连续时间间隔内,自回归移动平均模型既包含自回归部分又包含移动平均部分。
(2)、累积式自回归移动平均模型:电力系统负荷受季节、天气、社会活动、设备状况等因素影响,负荷时间序列的变化会出现非平稳的随机过程。通过差分将负荷时间序列进行平稳处理,然后按照平稳时间序列模型进行建模,即为累积式自回归移动平均模型。
(3)、季节性综合自回归移动平均模型:每日负荷与前一天和上一周相同日具有相似性,不同季节之间的负荷具有明显的区别。累积式自回归移动平均模型加上季节性因素以后,形成季节性综合自回归移动平均模型。
以上示范性描述了基于更新后的第二属性信息预测电力负荷或健康状态的典型实例,本领域技术人员可以意识到,这种描述仅是示范性的,并不用于限定本发明实施方式的保护范围。
在一个实施方式中,OCR设备对包含电机铭牌的铭牌图像执行OCR,从而生成的对应于电机铭牌的 电机的第一属性信息。第一属性信息描述了电机铭牌的中所记录的、电机的属性数据。第一属性信息包括电机型号。而且,OCR设备访问位于云端的云端数据库,从云端数据库中检索出对应于该电机型号的第二属性信息,第二属性信息描述电机的各种属性数据。OCR设备将包含在第一属性信息且不包含在第二属性信息中的内容,添加到第二属性信息中。OCR设备还利用包含在第一属性信息中的内容,更正包含在第二属性信息的对应内容。OCR设备再将更新后的第二属性信息保存到云端数据库中。云端服务器访问云端数据库以获取更新后的第二属性信息。云端服务器利用更新后的第二属性信息执行各种关于电机行为的预测分析或建模处理。
在一个实施方式中,OCR设备对包含电机铭牌的铭牌图像执行OCR,从而生成的对应于电机铭牌的电机的第一属性信息。第一属性信息描述了电机铭牌的中所记录的、电机的属性数据。第一属性信息包括电机型号。而且,OCR设备经由本地数据总线访问位于本地的本地数据库,从本地数据库中检索出对应于电机型号的第二属性信息,第二属性信息描述电机的各种属性数据。OCR设备将包含在第一属性信息且不包含在第二属性信息中的内容,添加到第二属性信息中。OCR设备还利用包含在第一属性信息中的内容,更正包含在第二属性信息的对应内容。OCR设备再经由本地数据总线将更新后的第二属性信息保存到本地数据库中。本地服务器经由本地数据总线访问本地数据库以获取更新后的第二属性信息。本地服务器用更新后的第二属性信息执行各种关于电机行为的预测分析或建模处理。
基于上述描述,本发明实施方式还提出了铭牌图像的分割装置。
图9为本发明实施方式的电机铭牌的识别装置的方框图。
如图9所示,铭牌图像的分割装置900包括:
图像获取模块901,用于获取从各自角度拍摄电机铭牌所形成的多个图像;
拼接模块902,用于将所述多个图像拼接为全景图像;
第一属性信息确定模块905,用于针对所述全景图像执行光学字符识别以确定包含该电机铭牌所对应电机的第一属性信息。
在一个实施方式中,图像获取模块901,用于获取以三个摄像头拍摄电机铭牌所形成的三个图像,其中任意相邻摄像机之间呈60度夹角。
在一个实施方式中,在拼接模块902与第一属性信息确定模块905之间,该装置900还包括:
分割模块904,用于将全景图像转换为二值图像;检测所述二值图像中的文本区域;将所述文本区域中的每个像素点的像素值设置为预定的相同值;对所述二值图像执行边缘检测以确定所述二值图像中的表格区域;基于所述文本区域和所述表格区域分割所述全景图像。
在一个实施方式中,分割模块904,用于当所述全景图像为RGB图像时,将所述RGB图像转换为灰度图像;将所述灰度图像转换为所述二值图像;当所述全景图像为灰度图像时,将所述灰度图像转换为所述二值图像。
在一个实施方式中,分割模块904,用于对所述二值图像执行边缘检测以确定出N个表格区域,其中N为大于等于1的正整数;将所述全景图像分割为第一子图像和N个第二子图像,其中所述第一子图像包含文本区域,每个第二子图像中分别包含对应的表格区域。
在一个实施方式中,在拼接模块902与分割模块904之间,该装置900还包括:
矫正模块903,用于将全景图像转换为灰度图像;对所述灰度图像执行边缘检测以确定所述电机铭牌的边缘;基于包围所述边缘的四边形的顶点坐标和矫正后全景图像的顶点坐标确定透视变换转换矩阵;基于所述透视变换转换矩阵生成所述矫正后全景图像。
在一个实施方式中,矫正模块903,用于确定所述四边形中的每个像素点的坐标;基于每个像素点的坐标与所述透视变换转换矩阵的乘积,确定所述每个像素点的坐标的转换后坐标;将每个像素点复制到各自的转换后坐标处以生成所述矫正后全景图像;或确定所述全景图像中的每个像素点的坐标;基于每个像素点的坐标与所述透视变换转换矩阵的乘积,确定所述每个像素点的坐标的转换后坐标;将所述原始图像分离为R通道、G通道和B通道;确定R通道中的每个像素点复制到各自的转换后坐标处所生成的矫正R通道、G通道中的每个像素点复制到各自的转换后坐标处所生成的矫正G通道和B通道中的每个像素点复制到各自的转换后坐标处所生成的矫正B通道;将所述矫正R通道、所述矫正G通道以及所述矫正B通道合并为所述矫正后全景图像。
在一个实施方式中,该装置900还包括:
更新模块906,用于从数据库中获取所述电机的第二属性信息;利用所述第一属性信息更新所述第二属性信息;将更新后的所述第二属性信息保存到所述数据库中,其中所述利用第一属性信息更新所述第二属性信息包括:将包含在第一属性信息且不包含在第二属性信息中的内容,添加到所述第二属性信息中;或利用包含在第一属性信息中的内容,更正包含在第二属性信息的对应内容。
基于上述描述,本发明实施方式还提出有存储器-处理器架构的、电机铭牌的识别装置。
图10为本发明实施方式具有存储器-处理器架构的、电机铭牌的识别装置的方框图。
如图10所示,铭牌图像的分割装置800包括处理器801、存储器802及存储在存储器802上并可在处理器801上运行的计算机程序,计算机程序被处理器801执行时实现如上任一项的电机铭牌的识别方法。
其中,存储器802具体可以实施为电可擦可编程只读存储器(EEPROM)、快闪存储器(Flash memory)、可编程程序只读存储器(PROM)等多种存储介质。处理器801可以实施为包括一或多个中央处理器或一或多个现场可编程门阵列,其中现场可编程门阵列集成一或多个中央处理器核。具体地,中央处理器或中央处理器核可以实施为CPU或MCU或DSP等等。
需要说明的是,上述各流程和各结构图中不是所有的步骤和模块都是必须的,可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的,可以根据需要进行调整。各模块的划分仅仅是为了便于描述采用的功能上的划分,实际实现时,一个模块可以分由多个模块实现,多个模块的功能也可以由同 一个模块实现,这些模块可以位于同一个设备中,也可以位于不同的设备中。
各实施方式中的硬件模块可以以机械方式或电子方式实现。例如,一个硬件模块可以包括专门设计的永久性电路或逻辑器件(如专用处理器,如FPGA或ASIC)用于完成特定的操作。硬件模块也可以包括由软件临时配置的可编程逻辑器件或电路(如包括通用处理器或其它可编程处理器)用于执行特定操作。至于具体采用机械方式,或是采用专用的永久性电路,或是采用临时配置的电路(如由软件进行配置)来实现硬件模块,可以根据成本和时间上的考虑来决定。
本发明还提供了一种机器可读的存储介质,存储用于使一机器执行如本文所述方法的指令。具体地,可以提供配有存储介质的系统或者装置,在该存储介质上存储着实现上述实施例中任一实施方式的功能的软件程序代码,且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。此外,还可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作。还可以将从存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中,随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作,从而实现上述实施方式中任一实施方式的功能。用于提供程序代码的存储介质实施方式包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机或云上下载程序代码。
以上所述,仅为本发明的较佳实施方式而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (20)

  1. 一种电机铭牌的识别方法(100),其特征在于,该方法(100)包括:
    获取从各自角度拍摄电机铭牌所形成的多个图像(101);
    将所述多个图像拼接为全景图像(102);
    针对所述全景图像执行光学字符识别以确定包含该电机铭牌所对应电机的第一属性信息(103)。
  2. 根据权利要求1所述的电机铭牌的识别方法(100),其特征在于,
    所述获取从各自角度拍摄电机铭牌所形成的多个图像(101)包括:获取以三个摄像头拍摄所述电机铭牌所形成的三个图像,其中任意相邻摄像机之间呈60度夹角。
  3. 根据权利要求1所述的电机铭牌的识别方法(100),其特征在于,在将所述多个图像拼接为全景图像(102)与针对所述全景图像执行光学字符识别以确定包含在所述电机铭牌中的铭牌信息(103)之间,该方法(100)还包括:
    将所述全景图像转换为二值图像;
    检测所述二值图像中的文本区域;
    将所述文本区域中的每个像素点的像素值设置为预定的相同值;
    对所述二值图像执行边缘检测以确定所述二值图像中的表格区域;
    基于所述文本区域和所述表格区域分割所述全景图像。
  4. 根据权利要求3所述的电机铭牌的识别方法(100),其特征在于,
    所述将全景图像转换为二值图像包括:
    当所述全景图像为RGB图像时,将所述RGB图像转换为灰度图像,将所述灰度图像转换为所述二值图像;
    当所述全景图像为灰度图像时,将所述灰度图像转换为所述二值图像。
  5. 根据权利要求3所述的电机铭牌的识别方法(100),其特征在于,
    所述对二值图像执行边缘检测以确定所述二值图像中的表格区域包括:对所述二值图像执行边缘检测以确定出N个表格区域,其中N为大于等于1的正整数;
    所述基于文本区域和表格区域分割所述全景图像包括:将所述全景图像分割为第一子图像和N个第二子图像,其中所述第一子图像包含文本区域,每个第二子图像中分别包含对应的表格区域。
  6. 根据权利要求3所述的电机铭牌的识别方法(100),其特征在于,在将全景图像转换为二值图像之前,该方法(100)还包括:
    将所述全景图像转换为灰度图像;
    对所述灰度图像执行边缘检测以确定所述电机铭牌的边缘;
    基于包围所述边缘的四边形的顶点坐标和矫正后全景图像的顶点坐标确定透视变换转换矩阵;
    基于所述透视变换转换矩阵生成所述矫正后全景图像。
  7. 根据权利要求6所述的电机铭牌的识别方法(100),其特征在于,
    所述基于所述透视变换转换矩阵生成矫正后全景图像包括:
    确定所述四边形中的每个像素点的坐标;基于每个像素点的坐标与所述透视变换转换矩阵的乘积,确定所述每个像素点的坐标的转换后坐标;将每个像素点复制到各自的转换后坐标处以生成所述矫正后全景图像;或
    确定所述全景图像中的每个像素点的坐标;基于每个像素点的坐标与所述透视变换转换矩阵的乘积,确定所述每个像素点的坐标的转换后坐标;将所述全景图像分离为R通道、G通道和B通道;确定R通道中的每个像素点复制到各自的转换后坐标处所生成的矫正R通道、G通道中的每个像素点复制到各自的转换后坐标处所生成的矫正G通道和B通道中的每个像素点复制到各自的转换后坐标处所生成的矫正B通道;将所述矫正R通道、所述矫正G通道以及所述矫正B通道合并为所述矫正后全景图像。
  8. 根据权利要求1所述的电机铭牌的识别方法(100),其特征在于,该方法(100)还包括:
    从数据库中获取所述电机的第二属性信息(104);
    利用所述第一属性信息更新所述第二属性信息(105);
    将更新后的所述第二属性信息保存到所述数据库中(106)。
  9. 根据权利要求8所述的电机铭牌的识别方法(100),其特征在于,所述第一属性信息包含电机型号;
    所述从数据库中获取所述电机的第二属性信息(104)包括:
    将所述电机型号作为检索项,从云端数据库中检索出对应于所述电机型号的第二属性信息;或
    将所述电机型号作为检索项,从本地数据库中检索出对应于所述电机型号的第二属性信息。
  10. 根据权利要求8所述的电机铭牌的识别方法(100),其特征在于,
    所述利用第一属性信息更新所述第二属性信息(105)包括:
    将包含在第一属性信息且不包含在第二属性信息中的内容,添加到所述第二属性信息中;或
    利用包含在第一属性信息中的内容,更正包含在第二属性信息的对应内容。
  11. 一种电机铭牌的识别装置(900),其特征在于,包括:
    图像获取模块(901),用于获取从各自角度拍摄电机铭牌所形成的多个图像;
    拼接模块(902),用于将所述多个图像拼接为全景图像;
    第一属性信息确定模块(905),用于针对所述全景图像执行光学字符识别以确定包含该电机铭牌所对应电机的第一属性信息。
  12. 根据权利要求11所述的电机铭牌的识别装置(900),其特征在于,
    图像获取模块(901),用于获取以三个摄像头拍摄电机铭牌所形成的三个图像,其中任意相邻摄像机之间呈60度夹角。
  13. 根据权利要求11所述的电机铭牌的识别装置(900),其特征在于,在拼接模块(902)与第一属性信息确定模块(905)之间,该装置(900)还包括:
    分割模块(904),用于将全景图像转换为二值图像;检测所述二值图像中的文本区域;将所述文本区域中的每个像素点的像素值设置为预定的相同值;对所述二值图像执行边缘检测以确定所述二值图像中的表格区域;基于所述文本区域和所述表格区域分割所述全景图像。
  14. 根据权利要求13所述的电机铭牌的识别装置(900),其特征在于,
    分割模块(904),用于当所述全景图像为RGB图像时,将所述RGB图像转换为灰度图像,将所述灰度图像转换为所述二值图像;当所述全景图像为灰度图像时,将所述灰度图像转换为所述二值图像。
  15. 根据权利要求14所述的电机铭牌的识别装置(900),其特征在于,
    分割模块(904),用于对所述二值图像执行边缘检测以确定出N个表格区域,其中N为大于等于1的正整数;将所述全景图像分割为第一子图像和N个第二子图像,其中所述第一子图像包含文本区域,每个第二子图像中分别包含对应的表格区域。
  16. 根据权利要求13所述的电机铭牌的识别装置(900),其特征在于,在拼接模块(902)与分割模块(904)之间,该装置(900)还包括:
    矫正模块(903),用于将全景图像转换为灰度图像;对所述灰度图像执行边缘检测以确定所述电机铭牌的边缘;基于包围所述边缘的四边形的顶点坐标和矫正后全景图像的顶点坐标确定透视变换转换矩阵;基于所述透视变换转换矩阵生成所述矫正后全景图像。
  17. 根据权利要求16所述的电机铭牌的识别装置(900),其特征在于,
    矫正模块(903),用于确定所述四边形中的每个像素点的坐标;基于每个像素点的坐标与所述透视变换转换矩阵的乘积,确定所述每个像素点的坐标的转换后坐标;将每个像素点复制到各自的转换后坐标处以生成所述矫正后全景图像;或确定所述全景图像中的每个像素点的坐标;基于每个像素点的坐标与所述透视变换转换矩阵的乘积,确定所述每个像素点的坐标的转换后坐标;将所述全景图像分离为R通道、G通道和B通道;确定R通道中的每个像素点复制到各自的转换后坐标处所生成的矫正R通道、G通道中的每个像素点复制到各自的转换后坐标处所生成的矫正G通道和B通道中的每个像素点复制到各自的转换后坐标处所生成的矫正B通道;将所述矫正R通道、所述矫正G通道以及所述矫正B通道合并为所述矫正后全景图像。
  18. 根据权利要求11所述的电机铭牌的识别装置(900),其特征在于,该装置(900)还包括:
    更新模块(906),用于从数据库中获取所述电机的第二属性信息;利用所述第一属性信息更新所述第二属性信息;将更新后的所述第二属性信息保存到所述数据库中,其中所述利用第一属性信息更新所述第二属性信息包括:将包含在第一属性信息且不包含在第二属性信息中的内容,添加到所述第二属性信息中;或利用包含在第一属性信息中的内容,更正包含在第二属性信息的对应内容。
  19. 一种电机铭牌的识别装置(800),其特征在于,包括:处理器(801)和存储器(802);
    其中所述存储器(802)中存储有可被所述处理器(801)执行的应用程序,用于使得所述处理器(801)执行如权利要求1至10中任一项所述的电机铭牌的识别方法(100)。
  20. 一种计算机可读存储介质,其特征在于,其中存储有计算机可读指令,该计算机可读指令用于执行如权利要求1至10中任一项所述的电机铭牌的识别方法(100)。
PCT/CN2020/116314 2020-09-18 2020-09-18 一种电机铭牌的识别方法、装置和计算机可读存储介质 WO2022056876A1 (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/CN2020/116314 WO2022056876A1 (zh) 2020-09-18 2020-09-18 一种电机铭牌的识别方法、装置和计算机可读存储介质
CN202080103595.7A CN116018622A (zh) 2020-09-18 2020-09-18 一种电机铭牌的识别方法、装置和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2020/116314 WO2022056876A1 (zh) 2020-09-18 2020-09-18 一种电机铭牌的识别方法、装置和计算机可读存储介质

Publications (1)

Publication Number Publication Date
WO2022056876A1 true WO2022056876A1 (zh) 2022-03-24

Family

ID=80777416

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2020/116314 WO2022056876A1 (zh) 2020-09-18 2020-09-18 一种电机铭牌的识别方法、装置和计算机可读存储介质

Country Status (2)

Country Link
CN (1) CN116018622A (zh)
WO (1) WO2022056876A1 (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030169923A1 (en) * 2002-03-07 2003-09-11 Butterworth Mark Melvin Method and apparatus for performing optical character recognition (OCR) and text stitching
CN101533474A (zh) * 2008-03-12 2009-09-16 三星电子株式会社 基于视频图像的字符和图像识别系统和方法
CN102622593A (zh) * 2012-02-10 2012-08-01 北方工业大学 一种文本识别方法及系统
CN110334647A (zh) * 2019-07-03 2019-10-15 云南电网有限责任公司信息中心 一种基于图像识别的参数格式化方法
CN111126380A (zh) * 2019-12-02 2020-05-08 贵州电网有限责任公司 一种电力设备铭牌印文识别方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030169923A1 (en) * 2002-03-07 2003-09-11 Butterworth Mark Melvin Method and apparatus for performing optical character recognition (OCR) and text stitching
CN101533474A (zh) * 2008-03-12 2009-09-16 三星电子株式会社 基于视频图像的字符和图像识别系统和方法
CN102622593A (zh) * 2012-02-10 2012-08-01 北方工业大学 一种文本识别方法及系统
CN110334647A (zh) * 2019-07-03 2019-10-15 云南电网有限责任公司信息中心 一种基于图像识别的参数格式化方法
CN111126380A (zh) * 2019-12-02 2020-05-08 贵州电网有限责任公司 一种电力设备铭牌印文识别方法及系统

Also Published As

Publication number Publication date
CN116018622A (zh) 2023-04-25

Similar Documents

Publication Publication Date Title
US7228006B2 (en) Method and system for detecting a geometrically transformed copy of an image
CN110008956B (zh) 发票关键信息定位方法、装置、计算机设备及存储介质
US6912313B2 (en) Image background replacement method
US8494297B2 (en) Automatic detection and mapping of symmetries in an image
WO2018233038A1 (zh) 基于深度学习的车牌识别方法、装置、设备及存储介质
US9542735B2 (en) Method and device to compose an image by eliminating one or more moving objects
US20060262960A1 (en) Method and device for tracking objects in a sequence of images
CN107945111B (zh) 一种基于surf特征提取结合cs-lbp描述符的图像拼接方法
CN111553923B (zh) 一种图像处理方法、电子设备及计算机可读存储介质
CN103841298A (zh) 一种基于颜色恒量和几何不变特征的视频稳像方法
WO2018121414A1 (zh) 电子设备、目标图像识别方法及装置
US20120249837A1 (en) Methods and Systems for Real-Time Image-Capture Feedback
JP3814353B2 (ja) 画像分割方法および画像分割装置
WO2022056875A1 (zh) 一种铭牌图像的分割方法、装置和计算机可读存储介质
Fang et al. 1-D barcode localization in complex background
WO2022056876A1 (zh) 一种电机铭牌的识别方法、装置和计算机可读存储介质
CN117095417A (zh) 一种屏摄表单图像文本识别方法、装置、设备及存储介质
CN111160340A (zh) 一种运动目标检测方法、装置、存储介质及终端设备
CN116403226A (zh) 无约束褶皱文档图像矫正方法、系统、设备及存储介质
CN113065559B (zh) 图像比对方法、装置、电子设备及存储介质
Bhaskar et al. Implementing optical character recognition on the android operating system for business cards
WO2022056872A1 (zh) 一种铭牌图像的矫正方法、装置和计算机可读存储介质
WO2022056873A1 (zh) 变压器属性信息的更新方法、装置和计算机可读存储介质
CN114004839A (zh) 全景图像的图像分割方法、装置、计算机设备和存储介质
Dong et al. Damage recognition of road auxiliary facilities based on deep convolution network for segmentation and image region correction

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20953734

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20953734

Country of ref document: EP

Kind code of ref document: A1