KR20230061026A - Enhanced document image optical character recognition system through document tilt correction and method thereof - Google Patents
Enhanced document image optical character recognition system through document tilt correction and method thereof Download PDFInfo
- Publication number
- KR20230061026A KR20230061026A KR1020210145845A KR20210145845A KR20230061026A KR 20230061026 A KR20230061026 A KR 20230061026A KR 1020210145845 A KR1020210145845 A KR 1020210145845A KR 20210145845 A KR20210145845 A KR 20210145845A KR 20230061026 A KR20230061026 A KR 20230061026A
- Authority
- KR
- South Korea
- Prior art keywords
- image
- character recognition
- tilt
- tilt correction
- recognition system
- Prior art date
Links
- 238000012937 correction Methods 0.000 title claims abstract description 45
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000012015 optical character recognition Methods 0.000 title claims abstract description 15
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 4
- 238000013135 deep learning Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 4
- 239000000284 extract Substances 0.000 description 9
- 238000013527 convolutional neural network Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/146—Aligning or centring of the image pick-up or image-field
- G06V30/147—Determination of region of interest
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Geometry (AREA)
- Computer Graphics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Character Input (AREA)
Abstract
Description
본 발명은 문자 인식 기술에 관한 것으로, 더욱 상세하게는 문서의 이미지를 획득하는 과정에서 빈번하게 발생하는 문서의 기울임 왜곡을 보정하여 향상된 문자 인식 결과를 제공하는 기울기 보정을 제공하는 문자 인식 시스템 및 방법에 대한 것이다.The present invention relates to a text recognition technology, and more particularly, to a text recognition system and method for providing improved text recognition results by correcting text tilt distortion that frequently occurs in the process of acquiring a document image. It is about.
광학 문자 인식 (Optical Character Recognition; OCR)은 사람이 쓰거나 기계로 인쇄한 문자의 이미지를 획득하여 기계가 읽을 수 있는 문자로 변환하는 기술을 말한다. 하지만 문서의 OCR 결과를 산출하려 할 때, 문서 이미지를 획득하는 주요 경로는 사람이 직접 스캐너로 문서 이미지를 획득하는 것이다. 이 과정에서 발생할 수 있는 문서의 기울임 왜곡은 광학 문자 인식 성능이 저하시켜 문자 인식이 안되거나 잘못된 문자로 인식되는 원인을 제공한다.Optical Character Recognition (OCR) refers to a technology that acquires images of human-written or machine-printed characters and converts them into machine-readable characters. However, when trying to calculate the OCR result of a document, the main path to obtain a document image is to acquire the document image directly with a scanner. The tilting distortion of the document that may occur in this process degrades the performance of optical character recognition, causing the character not to be recognized or recognized as an incorrect character.
본 발명은 문서 이미지를 스캐너로 획득하는 과정에서 발생할 수 있는 문서의 기울기를 회전을 통해 알맞게 보정하고 정렬하여 이에 따라 향상된 문자 인식 성능을 사용자에게 제공한다.The present invention appropriately corrects and aligns the inclination of a document that may occur in the process of acquiring a document image with a scanner through rotation, thereby providing improved text recognition performance to a user.
본 발명의 일 측면에 따르면, 기울기 보정을 제공하는 문자 인식 시스템을 제공한다.According to one aspect of the present invention, a character recognition system providing tilt correction is provided.
본 발명의 일 실시 예에 따른 기울기 보정을 제공하는 문자 인식 시스템은 문서에서 이미지를 획득하는 획득부, 이미지의 기울기 예측 값을 산출하는 예측부, 기울기 예측 값을 기반으로 이미지의 기울기를 보정하는 보정부 및 이미지에서 문자를 인식하는 인식부를 포함할 수 있다.A character recognition system for providing tilt correction according to an embodiment of the present invention includes an acquisition unit that acquires an image from a document, a prediction unit that calculates a tilt prediction value of an image, and a tool that corrects the tilt of an image based on the tilt prediction value. It may include a recognition unit for recognizing characters in government and images.
본 발명의 다른 일 측면에 따르면, 기울기 보정을 제공하는 문자 인식 방법 및 이를 실행하는 컴퓨터 프로그램을 제공한다.According to another aspect of the present invention, a character recognition method providing tilt correction and a computer program executing the same are provided.
본 발명의 일 실시 예에 따른 기울기 보정을 제공하는 문자 인식 방법 및 이를 실행하는 컴퓨터 프로그램은 이미지를 획득하는 단계, 이미지에 대한 복수의 기울기 예측 값을 산출하는 단계, 기울기 최종 예측 값을 기반으로 기울어진 이미지를 보정하는 단계 및 이미지 내의 문자를 인식하는 단계를 포함할 수 있다.A character recognition method for providing tilt correction and a computer program executing the same according to an embodiment of the present invention include acquiring an image, calculating a plurality of tilt prediction values for an image, and tilting based on the final tilt prediction value. It may include correcting the real image and recognizing characters in the image.
본 발명의 일 실시 예에 따르면, 종이 문서를 이미지로 획득할 때 발생하는 기울임 왜곡을 복수의 방법으로 예측하고 보정하여 향상된 광학 문자 인식 결과를 산출할 수 있다.According to an embodiment of the present invention, an improved optical character recognition result may be calculated by predicting and correcting tilt distortion occurring when a paper document is acquired as an image using a plurality of methods.
도 1은 본 발명의 일 실시 예에 따른 기울기 보정을 제공하는 문자 인식 시스템이 종이 문서의 문자를 인식하는 전체 과정을 간략하게 설명하기 위한 도면.
도 2 내지 도 6은 본 발명의 일 실시 예에 따른 기울기 보정을 제공하는 문자 인식 시스템을 설명하기 위한 도면들.
도 7은 본 발명의 일 실시예에 따른 기울기 보정을 제공하는 문자 인식 방법을 도시한 도면.1 is a diagram for briefly explaining an entire process of recognizing characters of a paper document by a text recognition system that provides tilt correction according to an embodiment of the present invention;
2 to 6 are diagrams for explaining a text recognition system that provides tilt correction according to an embodiment of the present invention.
7 is a diagram illustrating a character recognition method providing tilt correction according to an embodiment of the present invention.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시 예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 이를 상세한 설명을 통해 상세히 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 본 발명을 설명함에 있어서, 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 본 명세서 및 청구항에서 사용되는 단수 표현은, 달리 언급하지 않는 한 일반적으로 "하나 이상"을 의미하는 것으로 해석되어야 한다.Since the present invention can make various changes and have various embodiments, specific embodiments are illustrated in the drawings and will be described in detail through detailed description. However, this is not intended to limit the present invention to specific embodiments, and should be understood to include all modifications, equivalents, and substitutes included in the spirit and scope of the present invention. In describing the present invention, if it is determined that a detailed description of related known technologies may unnecessarily obscure the subject matter of the present invention, the detailed description will be omitted. Also, as used in this specification and claims, the terms "a" and "an" are generally to be construed to mean "one or more" unless stated otherwise.
이하, 본 발명의 바람직한 실시 예를 첨부도면을 참조하여 상세히 설명하기로 하며, 첨부 도면을 참조하여 설명함에 있어, 동일하거나 대응하는 구성 요소는 동일한 도면번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings. do it with
도 1은 본 발명의 일 실시 예에 따른 문자 인식 시스템이 종이 문서의 문자를 인식하는 과정을 간략하게 설명하기 위한 도면이다.1 is a diagram for briefly explaining a process of recognizing characters of a paper document by a character recognition system according to an embodiment of the present invention.
도 1을 참조하면, 기울기 보정을 제공하는 문자 인식 시스템(10)은 종이 문서를 문서 이미지로 획득하여 기울기를 예측하고 보정한 후 광학 문자 인식을 수행한다.Referring to FIG. 1 , the
기울기 보정을 제공하는 문자 인식 시스템(10)은 복수의 방법으로 문서의 이미지의 기울기 예측 값을 산출하고, 복수의 기울기 예측 값을 신경망 알고리즘을 이용해 기울기 최종 예측 값을 산출한다. 기울기 보정을 제공하는 문자 인식 시스템(10)은 기울기 예측 값에 의해 보정된 문서의 이미지로 광학 문자 인식을 수행한다.The
도 2 내지 도 6은 본 발명의 일 실시 예에 따른 기울기 보정을 제공하는 문자 인식 시스템을 설명하기 위한 도면들이다.2 to 6 are diagrams for explaining a text recognition system that provides tilt correction according to an embodiment of the present invention.
도 2를 참조하면, 기울기 보정을 제공하는 문자 인식 시스템(10)은 획득부(100), 예측부(200), 보정부(300) 및 인식부(400)를 포함한다.Referring to FIG. 2 , the
획득부(100)는 이미지를 획득한다. 예를 들면 획득부(100)는 스캐너를 포함한 다양한 방법을 통해 문서의 이미지를 획득할 수 있다. 스캐너를 통한 이미지를 획득할 때 도 4와 같이 문서들이 기울어진 상태로 이미지화 되는 경우가 많다. 도 4는 스캐너를 이용한 이미지의 예시이다.The acquiring
예측부(200)는 각각 다른 복수의 방법으로 이미지의 기울기 예측 값을 산출할 수 있다. 예측부(200)는 딥 러닝 신경망을 이용해 문서의 이미지에 대한 기울기 예측 값을 산출할 수 있다.The
도 4을 참조하면 예측부(200)는 제1예측부(210), 제2예측부(220), 제3예측부(230) 및 최종 예측부(240)를 포함한다.Referring to FIG. 4 , the
예측부(200)는 각각 다른 복수의 방법으로 문서의 이미지에 대한 기울기 예측 값들 산출하여 기울기 최종 예측 값을 산출할 수 있다.The
제1예측부(210)는 합성곱 신경망(convolutional Neural Network; CNN)을 이용해 이미지의 기울기를 예측한다. 예를 들면 제1예측부(210)는 합성곱 신경망을 이용해 -30도 ~ +30도의 범위를 가지는 실수 범위의 각도 값을 문서의 기울기로 예측할 수 있다. The
본 발명은 문서 이미지 오픈 데이터셋 FUNSD를 사용하여 -30도 ~ +30도 범위에서 임의의 각도로 이미지를 회전시켜 합성곱 신경망을 학습시켰다. 예를 들면 합성곱 신경망은 학습에 약 9000장, 검증에 약 2000장의 데이터셋을 이용하였다.In the present invention, a convolutional neural network was trained by rotating an image at an arbitrary angle in the range of -30 degrees to +30 degrees using the document image open dataset FUNSD. For example, the convolutional neural network used a dataset of about 9000 sheets for learning and about 2000 sheets for verification.
도 5를 참조하면, 제2 예측부(220)는 이미지 등고선(Image contour)을 이용해 문서의 이미지 내에서 문자 영역을 탐지할 수 있다. Referring to FIG. 5 , the
이미지 등고선(Image contour)은 검은색 픽셀 값을 갖는 글씨 영역이 높이가 높은 지역, 흰색 픽셀 값을 갖는 배경 영역이 높이가 낮은 지역이라 구분하여 이미지의 픽셀 값의 높낮이에 따라 영역을 구분하는 것이다. 이미지 등고선(Image contour)은 이미지 내에서 비슷한 픽셀 값을 갖는 곳을 연결한 선을 나타낸다.The image contour divides the area according to the height of the pixel value of the image by classifying the text area with black pixel values as an area with high height and the background area with white pixel value as an area with low height. An image contour represents a line connecting points having similar pixel values in an image.
제2예측부(220)는 문자 영역의 이미지 등고선(Image Contour)를 이용해 문서의 이미지에 대한 기울기 값을 예측할 수 있다. 자세히 설명하면, 제2 예측부(220)는 입력된 문서의 이미지를 이진화(Binarization)한다. 제2 예측부(220)는 이진화(Binarization)을 통해 문서의 이미지에서 검정색 픽셀인 글씨 영역과 흰색 픽셀인 배경 영역의 구분을 명확하게 할 수 있다. The
제2 예측부(220)는 이진화를 수행한 문서의 이미지에 대한 픽셀 값의 높낮이에 따라서 이미지 등고선을 추출할 수 있다. The
제2 예측부(220)는 이미지 등고선을 통해 표현된 문자 영역의 최소 면적을 사각형으로 추출한다. 제2 예측부(220)는 추출한 사각형과 문서의 이미지가 이루는 각도를 예측한다. 제2 예측부(220)는 문서 영역을 포괄하는 최소 면적의 직사각형을 추출할 수 있다. 예를 들면, 제2 예측부(220)는 제공하는 최소 면적의 직사각형을 OpenCV 라이브러리를 이용해 추출할 수 있다.The
도 6을 참조하면, 제3 예측부(230)는 문서의 이미지 픽셀 중 서로 직선 관계를 갖는 픽셀들을 골라내어 직선들을 생성할 수 있다. 제3 예측부(230)는 생성한 직선들과 이미지가 이루는 각도들의 평균 값을 추출한다. 예를 들면 제3예측부(230)는 허프 변환(Hough transform)을 사용하여 이미지 픽셀 중 서로 직선 관계를 갖는 픽셀들을 골라낼 수 있다. Referring to FIG. 6 , the
허프 변환(Hough transform)은 직선 x, y 좌표계를 회전 좌표계로 변환하는 방법이다.Hough transform is a method of transforming a linear x, y coordinate system into a rotational coordinate system.
제3 예측부(230)는 이미지에서 직선 관계를 가지는 복수의 픽셀들이 이루는 직선들의 기울기를 산출할 수 있다. 제3 예측부(230)는 산출된 복수의 기울기의 평균을 산출하여 기울기 최종 예측 값으로 구한다.The
제2 예측부(220) 및 제3 예측부(230)는 이미지 처리 오픈소스 라이브러리 OpenCV를 이용할 수 있다.The
다시 도 4를 참조하면, 최종 예측부(240)는 문서의 기울기를 각각 다른 방법으로 산출한 복수의 기울기 예측 값을 이용하여 기울기 최종 예측 값을 산출할 수 있다. 최종 예측부(240)는 복수의 기울기 예측 값들을 심층 신경망의 입력값으로 할 수 있다. 최종 예측부(240)는 심층 신경망을 학습하여 기울기 최종 예측 값을 산출할 수 있다.Referring back to FIG. 4 , the
표 1은 본 발명의 신경망 모델의 세부 파라미터들에 대한 예시이다.Table 1 is an example of detailed parameters of the neural network model of the present invention.
Input1은 획득한 문서의 이미지이며, 제1예측부(210)는 합성곱 신경망을 통해 input1 문서의 기울기를 예측할 수 있다.Input1 is an image of an acquired document, and the
Input2는 제2예측부(220)가 이미지 등고선을 이용해 산출한 기울기 예측 값이다.Input2 is a gradient prediction value calculated by the
Input3은 제3예측부(230)가 허프 변환을 이용해 산출한 기울기 예측 값이다.Input3 is a gradient prediction value calculated by the
최종 예측부(240)는 Input1, Input2 및 Input3을 연결(concatenate)하여 심층 신경망의 입력값으로 하여 문서의 이미지에 대한 기울기 최종 예측 값을 산출할 수 있다.The
다시 도 2를 참조하면, 보정부(300)는 기울기 최종 예측 값을 기반으로 도 4의 획득한 문서의 이미지를 자동으로 회전하여 보정한다.Referring back to FIG. 2 , the
인식부(400)는 기울기가 보정된 문서의 이미지에서 광학 문자 인식으로 문자를 추출한다. 인식부(400)는 문서의 이미지에 대한 기울기를 보정한 후 광학 문자 인식을 하기 때문에 문자 인식의 정확도를 높일 수 있다.The
도 7은 본 발명의 일 실시예에 따른 기울기 보정을 제공하는 문자 인식 방법을 도시한 도면이다. 이하 설명하는 각 과정은 단계에서 기울기 보정을 제공하는 문자 인식 시스템을 구성하는 각 기능부가 수행하는 과정이나, 본 발명의 간결하고 명확한 설명을 위해 각 단계의 주체를 단계에서 기울기 보정을 제공하는 문자 인식 시스템으로 통칭하도록 한다.7 is a diagram illustrating a text recognition method for providing tilt correction according to an embodiment of the present invention. Each process described below is a process performed by each functional unit constituting a text recognition system that provides tilt correction in each step, but for concise and clear description of the present invention, the subject of each step is text recognition that provides tilt correction in each step. Let's call it a system.
도7을 참조하면, S710 단계에서 기울기 보정을 제공하는 문자 인식 시스템(10)은 종이 문서를 이미지로 추출하여 획득할 수 있다. 예를 들면 기울기 보정을 제공하는 문자 인식 시스템(10)은 스캐너를 이용해 종이를 문서 이미지로 변환하여 획득할 수 있다. 이미지를 획득하는 방법은 스캐너를 이용하는 방법에 제한하지 않으며, 카메라 등과 같이 전자 이미지 파일 형태로 제공할 수 있는 장치를 이용할 수 있다.Referring to FIG. 7 , the
S720 단계에서 기울기 보정을 제공하는 문자 인식 시스템(10)은 획득한 문서의 이미지에 대해 각각 다른 복수의 방법을 이용해 복수의 기울기 예측 값을 산출한다. 이때 기울기 보정을 제공하는 문자 인식 시스템(10)은 각기 다른 방법을 이용해 복수의 기울기 예측 값을 산출할 수 있다. 기울기 보정을 제공하는 문자 인식 시스템(10)은 합성곱 신경망을 이용해 문서의 이미지에 대한 기울기 예측 값을 추출할 수 있다. 기울기 보정을 제공하는 문자 인식 시스템(10)은 이미지에서 이미지 등고선을 추출하여 기울기 예측 값을 산출할 수 있다. 기울기 보정을 제공하는 문자 인식 시스템(10)은 이미지 픽셀 중 서로 직선 관계를 갖는 픽셀들을 추출하여 이미지의 기울기 예측 값을 산출할 수 있다. 기울기 보정을 제공하는 문자 인식 시스템(10)은 각각 다른 방법으로 예측한 기울기 예측 값들을 연결(concatenate)한 후 심층 신경망의 입력 값으로 정하여 기울기 최종 예측 값을 산출할 수 있다.In step S720, the
S730 단계에서 기울기 보정을 제공하는 문자 인식 시스템(10)은 기울기 최종 예측 값을 기반으로 기울어진 이미지를 보정한다.In step S730, the
S740 단계에서 기울기 보정을 제공하는 문자 인식 시스템(10)은 광학 문자 인식(OCR)을 통해 보정한 이미지 내의 문자를 인식할 수 있다.In step S740 , the
상술한 기울기 보정을 제공하는 문자 인식 방법은 컴퓨터가 읽을 수 있는 매체 상에 컴퓨터가 읽을 수 있는 코드로 구현될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록 매체는, 예를 들어 전이형 기록 매체(CD, DVD, 블루레이 디스크, USB 저장 장치, 전이식 하드 디스크)이거나, 고정식 기록 매체(ROM, RAM, 컴퓨터 구비형 하드 디스크)일 수 있다. 상기 컴퓨터로 읽을 수 있는 기록 매체에 기록된 상기 컴퓨터 프로그램은 인터넷 등의 네트워크를 통하여 다른 컴퓨팅 장치에 전송되어 상기 다른 컴퓨팅 장치에 설치될 수 있고, 이로써 상기 다른 컴퓨팅 장치에서 사용될 수 있다.The character recognition method for providing tilt correction described above may be implemented as computer readable code on a computer readable medium. The computer-readable recording medium is, for example, a transferable recording medium (CD, DVD, Blu-ray disc, USB storage device, transferable hard disk) or a fixed recording medium (ROM, RAM, computer-equipped hard disk). ) can be. The computer program recorded on the computer-readable recording medium may be transmitted to another computing device through a network such as the Internet, installed in the other computing device, and thus used in the other computing device.
이상에서, 본 발명의 실시 예를 구성하는 모든 구성 요소들이 하나로 결합되거나 결합되어 동작하는 것으로 설명되었다고 해서, 본 발명이 반드시 이러한 실시 예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위안에서라면, 그 모든 구성요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다.In the above, even though all the components constituting the embodiment of the present invention have been described as being combined or operated as one, the present invention is not necessarily limited to these embodiments. That is, within the scope of the object of the present invention, all of the components may be selectively combined with one or more to operate.
도면에서 동작들이 특정한 순서로 도시되어 있지만, 반드시 동작들이 도시된 특정한 순서로 또는 순차적 순서로 실행되어야만 하거나 또는 모든 도시 된 동작들이 실행되어야만 원하는 결과를 얻을 수 있는 것으로 이해되어서는 안 된다. 특정 상황에서는, 멀티태스킹 및 병렬 처리가 유리할 수도 있다. 더욱이, 위에 설명한 실시 예 들에서 다양한 구성들의 분리는 그러한 분리가 반드시 필요한 것으로 이해되어서는 안 되고, 설명된 프로그램 컴포넌트들 및 시스템들은 일반적으로 단일 소프트웨어 제품으로 함께 통합되거나 다수의 소프트웨어 제품으로 패키지 될 수 있음을 이해하여야 한다.Although actions are shown in a particular order in the drawings, it should not be understood that the actions must be performed in the specific order shown or in a sequential order, or that all shown actions must be performed to obtain a desired result. In certain circumstances, multitasking and parallel processing may be advantageous. Moreover, the separation of the various components in the embodiments described above should not be understood as requiring such separation, and the described program components and systems may generally be integrated together into a single software product or packaged into multiple software products. It should be understood that there is
이제까지 본 발명에 대하여 그 실시 예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시 예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.So far, the present invention has been looked at mainly by its embodiments. Those skilled in the art to which the present invention pertains will be able to understand that the present invention can be implemented in a modified form without departing from the essential characteristics of the present invention. Therefore, the disclosed embodiments should be considered from a descriptive point of view rather than a limiting point of view. The scope of the present invention is shown in the claims rather than the foregoing description, and all differences within the equivalent scope will be construed as being included in the present invention.
10: 기울기 보정을 제공하는 문자 인식 시스템
100: 입력부
200: 예측부
210: 제1 예측부
220: 제2 예측부
220: 제3 예측부
240: 최종 예측부
300: 보정부
400: 인식부10: Character Recognition System with Skew Correction
100: input unit
200: prediction unit
210: first prediction unit
220: second prediction unit
220: third prediction unit
240: final prediction unit
300: correction unit
400: recognition unit
Claims (9)
이미지를 획득하는 획득부;
이미지에 대한 기울기 예측 값을 산출하는 예측부;
상기 기울기 예측 값을 기반으로 상기 이미지에 대한 기울기를 보정하는 보정부; 및
상기 이미지에서 문자를 인식하는 인식부를 포함하는
기울기 보정을 제공하는 문자 인식 시스템.
In the character recognition system providing tilt correction,
an acquisition unit that acquires an image;
a prediction unit that calculates a gradient prediction value for an image;
a correction unit correcting a tilt of the image based on the predicted tilt value; and
Including a recognition unit for recognizing characters in the image
A character recognition system that provides skew correction.
상기 예측부는
각각 다른 방법을 이용해 복수의 기울기 예측 값을 산출하는 기울기 보정을 제공하는 문자 인식 시스템.
According to claim 1,
the prediction unit
A character recognition system that provides tilt correction that calculates multiple tilt prediction values using different methods.
상기 예측부는
딥 러닝 신경망을 이용해 이미지의 기울기를 예측하는 기울기 보정을 제공하는 문자 인식 시스템
According to claim 1,
the prediction unit
A character recognition system that provides tilt correction that predicts the tilt of an image using a deep learning neural network
상기 인식부는
광학 문자 인식을 통해 문자를 인식하는 기울기 보정을 제공하는 문자 인식 시스템.
According to claim 1,
the recognition unit
A character recognition system that provides skew correction to recognize characters through optical character recognition.
이미지를 획득하는 단계;
상기 이미지에 대한 복수의 기울기 예측 값을 산출하는 단계;
기울기 최종 예측 값을 기반으로 기울어진 이미지를 보정하는 단계; 및
상기 이미지 내의 문자를 인식하는 단계를 포함하는 기울기 보정을 제공하는 문자 인식 방법.
In the character recognition method for providing tilt correction performed by a text recognition system providing tilt correction,
acquiring an image;
Calculating a plurality of gradient prediction values for the image;
correcting the tilted image based on the final predicted tilt value; and
A character recognition method for providing tilt correction comprising the step of recognizing a character in the image.
상기 이미지에 대한 복수의 기울기 예측 값을 산출하는 단계는
각각 다른 방법을 이용해 복수의 기울기 예측 값을 산출하는 기울기 보정을 제공하는 문자 인식 방법.
According to claim 5,
Calculating a plurality of gradient prediction values for the image
A character recognition method that provides tilt correction that calculates a plurality of tilt prediction values using different methods.
상기 이미지에 대한 복수의 기울기 예측 값을 산출하는 단계는
딥 러닝 신경망을 이용해 이미지의 기울기를 예측하는 기울기 보정을 제공하는 문자 인식 방법.
According to claim 5,
Calculating a plurality of gradient prediction values for the image
A character recognition method that provides tilt correction that predicts the tilt of an image using a deep learning neural network.
상기 이미지의 문자를 인식하는 단계는
광학 문자 인식을 통해 문자를 인식하는 기울기 보정을 제공하는 문자 인식 방법.
According to claim 5,
The step of recognizing the character of the image is
A character recognition method that provides tilt correction for recognizing characters through optical character recognition.
A computer program that executes the character recognition method for providing tilt correction according to any one of claims 5 to 8 and is recorded on a computer-readable recording medium.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210145845A KR20230061026A (en) | 2021-10-28 | 2021-10-28 | Enhanced document image optical character recognition system through document tilt correction and method thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210145845A KR20230061026A (en) | 2021-10-28 | 2021-10-28 | Enhanced document image optical character recognition system through document tilt correction and method thereof |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20230061026A true KR20230061026A (en) | 2023-05-08 |
Family
ID=86381841
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020210145845A KR20230061026A (en) | 2021-10-28 | 2021-10-28 | Enhanced document image optical character recognition system through document tilt correction and method thereof |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20230061026A (en) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101783337B1 (en) | 2015-10-29 | 2017-09-29 | 더 닐슨 컴퍼니 (유에스) 엘엘씨 | Methods and apparatus to extract text from imaged documents |
-
2021
- 2021-10-28 KR KR1020210145845A patent/KR20230061026A/en not_active Application Discontinuation
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101783337B1 (en) | 2015-10-29 | 2017-09-29 | 더 닐슨 컴퍼니 (유에스) 엘엘씨 | Methods and apparatus to extract text from imaged documents |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ryan et al. | An examination of character recognition on ID card using template matching approach | |
JP5844783B2 (en) | Method for processing grayscale document image including text region, method for binarizing at least text region of grayscale document image, method and program for extracting table for forming grid in grayscale document image | |
JP5934762B2 (en) | Document modification detection method by character comparison using character shape characteristics, computer program, recording medium, and information processing apparatus | |
KR102208683B1 (en) | Character recognition method and apparatus thereof | |
US9230383B2 (en) | Document image compression method and its application in document authentication | |
US8155442B2 (en) | Method and apparatus for modifying the histogram of an image | |
US11176410B2 (en) | Preprocessing images for OCR using character pixel height estimation and cycle generative adversarial networks for better character recognition | |
JP4100885B2 (en) | Form recognition apparatus, method, program, and storage medium | |
US10455163B2 (en) | Image processing apparatus that generates a combined image, control method, and storage medium | |
JP5337563B2 (en) | Form recognition method and apparatus | |
US9626601B2 (en) | Identifying image transformations for improving optical character recognition quality | |
KR100923935B1 (en) | Method and system for evaluating document image automatically for optical character recognition | |
US9167129B1 (en) | Method and apparatus for segmenting image into halftone and non-halftone regions | |
JPH07282253A (en) | Threshold processing method of document image | |
JP6542406B1 (en) | Reading system, reading method, program, and storage medium | |
KR20150099116A (en) | Method for recognizing a color character using optical character recognition and apparatus thereof | |
KR20230061026A (en) | Enhanced document image optical character recognition system through document tilt correction and method thereof | |
JP2018109824A (en) | Electronic control device, electronic control system, and electronic control method | |
US11800036B2 (en) | Determining minimum scanning resolution | |
Nor et al. | Image segmentation and text extraction: application to the extraction of textual information in scene images | |
KR20220088569A (en) | Device and method for measuring upside down orientation of a digital document based on neural network | |
JP2010244472A (en) | Image processing device and method | |
Mahastama et al. | Improving Projection Profile for Segmenting Characters from Javanese Manuscripts | |
Mai et al. | An independent character recognizer for distantly acquired mobile phone text images | |
US11140282B2 (en) | Character line division apparatus and method, and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E601 | Decision to refuse application |