KR20230061026A - Enhanced document image optical character recognition system through document tilt correction and method thereof - Google Patents

Enhanced document image optical character recognition system through document tilt correction and method thereof Download PDF

Info

Publication number
KR20230061026A
KR20230061026A KR1020210145845A KR20210145845A KR20230061026A KR 20230061026 A KR20230061026 A KR 20230061026A KR 1020210145845 A KR1020210145845 A KR 1020210145845A KR 20210145845 A KR20210145845 A KR 20210145845A KR 20230061026 A KR20230061026 A KR 20230061026A
Authority
KR
South Korea
Prior art keywords
image
character recognition
tilt
tilt correction
recognition system
Prior art date
Application number
KR1020210145845A
Other languages
Korean (ko)
Inventor
이종태
윤건식
Original Assignee
유니원아이앤씨 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 유니원아이앤씨 주식회사 filed Critical 유니원아이앤씨 주식회사
Priority to KR1020210145845A priority Critical patent/KR20230061026A/en
Publication of KR20230061026A publication Critical patent/KR20230061026A/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/147Determination of region of interest
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Character Input (AREA)

Abstract

The present invention relates to character recognition technology, and more specifically, to a character recognition system with tilt correction and method, wherein the character recognition system provides improved character recognition results by correcting tilt distortion of documents which frequently occurs in a process of acquiring document images. According to an embodiment of the present invention, improved optical character recognition results can be produced by predicting and correcting tilt distortion which occurs when acquiring a paper document as an image using a plurality of methods.

Description

기울기 보정을 제공하는 문자 인식 시스템{ENHANCED DOCUMENT IMAGE OPTICAL CHARACTER RECOGNITION SYSTEM THROUGH DOCUMENT TILT CORRECTION AND METHOD THEREOF}Character recognition system providing tilt correction {ENHANCED DOCUMENT IMAGE OPTICAL CHARACTER RECOGNITION SYSTEM THROUGH DOCUMENT TILT CORRECTION AND METHOD THEREOF}

본 발명은 문자 인식 기술에 관한 것으로, 더욱 상세하게는 문서의 이미지를 획득하는 과정에서 빈번하게 발생하는 문서의 기울임 왜곡을 보정하여 향상된 문자 인식 결과를 제공하는 기울기 보정을 제공하는 문자 인식 시스템 및 방법에 대한 것이다.The present invention relates to a text recognition technology, and more particularly, to a text recognition system and method for providing improved text recognition results by correcting text tilt distortion that frequently occurs in the process of acquiring a document image. It is about.

광학 문자 인식 (Optical Character Recognition; OCR)은 사람이 쓰거나 기계로 인쇄한 문자의 이미지를 획득하여 기계가 읽을 수 있는 문자로 변환하는 기술을 말한다. 하지만 문서의 OCR 결과를 산출하려 할 때, 문서 이미지를 획득하는 주요 경로는 사람이 직접 스캐너로 문서 이미지를 획득하는 것이다. 이 과정에서 발생할 수 있는 문서의 기울임 왜곡은 광학 문자 인식 성능이 저하시켜 문자 인식이 안되거나 잘못된 문자로 인식되는 원인을 제공한다.Optical Character Recognition (OCR) refers to a technology that acquires images of human-written or machine-printed characters and converts them into machine-readable characters. However, when trying to calculate the OCR result of a document, the main path to obtain a document image is to acquire the document image directly with a scanner. The tilting distortion of the document that may occur in this process degrades the performance of optical character recognition, causing the character not to be recognized or recognized as an incorrect character.

1. 한국 등록특허공보 제10-1783337호 “이미지 문서에서 텍스트를 추출하는 방법 및 장치”(등록일자: 2017년 09월 25일)1. Korean Patent Registration No. 10-1783337 “Method and device for extracting text from image documents” (registration date: September 25, 2017)

본 발명은 문서 이미지를 스캐너로 획득하는 과정에서 발생할 수 있는 문서의 기울기를 회전을 통해 알맞게 보정하고 정렬하여 이에 따라 향상된 문자 인식 성능을 사용자에게 제공한다.The present invention appropriately corrects and aligns the inclination of a document that may occur in the process of acquiring a document image with a scanner through rotation, thereby providing improved text recognition performance to a user.

본 발명의 일 측면에 따르면, 기울기 보정을 제공하는 문자 인식 시스템을 제공한다.According to one aspect of the present invention, a character recognition system providing tilt correction is provided.

본 발명의 일 실시 예에 따른 기울기 보정을 제공하는 문자 인식 시스템은 문서에서 이미지를 획득하는 획득부, 이미지의 기울기 예측 값을 산출하는 예측부, 기울기 예측 값을 기반으로 이미지의 기울기를 보정하는 보정부 및 이미지에서 문자를 인식하는 인식부를 포함할 수 있다.A character recognition system for providing tilt correction according to an embodiment of the present invention includes an acquisition unit that acquires an image from a document, a prediction unit that calculates a tilt prediction value of an image, and a tool that corrects the tilt of an image based on the tilt prediction value. It may include a recognition unit for recognizing characters in government and images.

본 발명의 다른 일 측면에 따르면, 기울기 보정을 제공하는 문자 인식 방법 및 이를 실행하는 컴퓨터 프로그램을 제공한다.According to another aspect of the present invention, a character recognition method providing tilt correction and a computer program executing the same are provided.

본 발명의 일 실시 예에 따른 기울기 보정을 제공하는 문자 인식 방법 및 이를 실행하는 컴퓨터 프로그램은 이미지를 획득하는 단계, 이미지에 대한 복수의 기울기 예측 값을 산출하는 단계, 기울기 최종 예측 값을 기반으로 기울어진 이미지를 보정하는 단계 및 이미지 내의 문자를 인식하는 단계를 포함할 수 있다.A character recognition method for providing tilt correction and a computer program executing the same according to an embodiment of the present invention include acquiring an image, calculating a plurality of tilt prediction values for an image, and tilting based on the final tilt prediction value. It may include correcting the real image and recognizing characters in the image.

본 발명의 일 실시 예에 따르면, 종이 문서를 이미지로 획득할 때 발생하는 기울임 왜곡을 복수의 방법으로 예측하고 보정하여 향상된 광학 문자 인식 결과를 산출할 수 있다.According to an embodiment of the present invention, an improved optical character recognition result may be calculated by predicting and correcting tilt distortion occurring when a paper document is acquired as an image using a plurality of methods.

도 1은 본 발명의 일 실시 예에 따른 기울기 보정을 제공하는 문자 인식 시스템이 종이 문서의 문자를 인식하는 전체 과정을 간략하게 설명하기 위한 도면.
도 2 내지 도 6은 본 발명의 일 실시 예에 따른 기울기 보정을 제공하는 문자 인식 시스템을 설명하기 위한 도면들.
도 7은 본 발명의 일 실시예에 따른 기울기 보정을 제공하는 문자 인식 방법을 도시한 도면.
1 is a diagram for briefly explaining an entire process of recognizing characters of a paper document by a text recognition system that provides tilt correction according to an embodiment of the present invention;
2 to 6 are diagrams for explaining a text recognition system that provides tilt correction according to an embodiment of the present invention.
7 is a diagram illustrating a character recognition method providing tilt correction according to an embodiment of the present invention.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시 예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 이를 상세한 설명을 통해 상세히 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 본 발명을 설명함에 있어서, 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 본 명세서 및 청구항에서 사용되는 단수 표현은, 달리 언급하지 않는 한 일반적으로 "하나 이상"을 의미하는 것으로 해석되어야 한다.Since the present invention can make various changes and have various embodiments, specific embodiments are illustrated in the drawings and will be described in detail through detailed description. However, this is not intended to limit the present invention to specific embodiments, and should be understood to include all modifications, equivalents, and substitutes included in the spirit and scope of the present invention. In describing the present invention, if it is determined that a detailed description of related known technologies may unnecessarily obscure the subject matter of the present invention, the detailed description will be omitted. Also, as used in this specification and claims, the terms "a" and "an" are generally to be construed to mean "one or more" unless stated otherwise.

이하, 본 발명의 바람직한 실시 예를 첨부도면을 참조하여 상세히 설명하기로 하며, 첨부 도면을 참조하여 설명함에 있어, 동일하거나 대응하는 구성 요소는 동일한 도면번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings. do it with

도 1은 본 발명의 일 실시 예에 따른 문자 인식 시스템이 종이 문서의 문자를 인식하는 과정을 간략하게 설명하기 위한 도면이다.1 is a diagram for briefly explaining a process of recognizing characters of a paper document by a character recognition system according to an embodiment of the present invention.

도 1을 참조하면, 기울기 보정을 제공하는 문자 인식 시스템(10)은 종이 문서를 문서 이미지로 획득하여 기울기를 예측하고 보정한 후 광학 문자 인식을 수행한다.Referring to FIG. 1 , the text recognition system 10 that provides tilt correction acquires a paper document as a document image, predicts and corrects the tilt, and then performs optical character recognition.

기울기 보정을 제공하는 문자 인식 시스템(10)은 복수의 방법으로 문서의 이미지의 기울기 예측 값을 산출하고, 복수의 기울기 예측 값을 신경망 알고리즘을 이용해 기울기 최종 예측 값을 산출한다. 기울기 보정을 제공하는 문자 인식 시스템(10)은 기울기 예측 값에 의해 보정된 문서의 이미지로 광학 문자 인식을 수행한다.The text recognition system 10 that provides tilt correction calculates the tilt prediction value of the image of the document using a plurality of methods, and calculates the final tilt prediction value using the plurality of tilt prediction values using a neural network algorithm. The text recognition system 10 that provides tilt correction performs optical character recognition with an image of a document corrected by a tilt prediction value.

도 2 내지 도 6은 본 발명의 일 실시 예에 따른 기울기 보정을 제공하는 문자 인식 시스템을 설명하기 위한 도면들이다.2 to 6 are diagrams for explaining a text recognition system that provides tilt correction according to an embodiment of the present invention.

도 2를 참조하면, 기울기 보정을 제공하는 문자 인식 시스템(10)은 획득부(100), 예측부(200), 보정부(300) 및 인식부(400)를 포함한다.Referring to FIG. 2 , the text recognition system 10 providing tilt correction includes an acquisition unit 100 , a prediction unit 200 , a correction unit 300 and a recognition unit 400 .

획득부(100)는 이미지를 획득한다. 예를 들면 획득부(100)는 스캐너를 포함한 다양한 방법을 통해 문서의 이미지를 획득할 수 있다. 스캐너를 통한 이미지를 획득할 때 도 4와 같이 문서들이 기울어진 상태로 이미지화 되는 경우가 많다. 도 4는 스캐너를 이용한 이미지의 예시이다.The acquiring unit 100 acquires an image. For example, the acquisition unit 100 may acquire an image of a document through various methods including a scanner. When acquiring an image through a scanner, documents are often imaged in an inclined state as shown in FIG. 4 . 4 is an example of an image using a scanner.

예측부(200)는 각각 다른 복수의 방법으로 이미지의 기울기 예측 값을 산출할 수 있다. 예측부(200)는 딥 러닝 신경망을 이용해 문서의 이미지에 대한 기울기 예측 값을 산출할 수 있다.The prediction unit 200 may calculate the predicted gradient value of the image using a plurality of different methods. The prediction unit 200 may calculate a gradient prediction value for an image of a document using a deep learning neural network.

도 4을 참조하면 예측부(200)는 제1예측부(210), 제2예측부(220), 제3예측부(230) 및 최종 예측부(240)를 포함한다.Referring to FIG. 4 , the prediction unit 200 includes a first prediction unit 210 , a second prediction unit 220 , a third prediction unit 230 and a final prediction unit 240 .

예측부(200)는 각각 다른 복수의 방법으로 문서의 이미지에 대한 기울기 예측 값들 산출하여 기울기 최종 예측 값을 산출할 수 있다.The prediction unit 200 may calculate a final tilt prediction value by calculating tilt prediction values for the image of the document using a plurality of different methods.

제1예측부(210)는 합성곱 신경망(convolutional Neural Network; CNN)을 이용해 이미지의 기울기를 예측한다. 예를 들면 제1예측부(210)는 합성곱 신경망을 이용해 -30도 ~ +30도의 범위를 가지는 실수 범위의 각도 값을 문서의 기울기로 예측할 수 있다. The first prediction unit 210 predicts the gradient of the image using a convolutional neural network (CNN). For example, the first prediction unit 210 may predict an angle value in a range of real numbers ranging from -30 degrees to +30 degrees as the tilt of the document by using a convolutional neural network.

본 발명은 문서 이미지 오픈 데이터셋 FUNSD를 사용하여 -30도 ~ +30도 범위에서 임의의 각도로 이미지를 회전시켜 합성곱 신경망을 학습시켰다. 예를 들면 합성곱 신경망은 학습에 약 9000장, 검증에 약 2000장의 데이터셋을 이용하였다.In the present invention, a convolutional neural network was trained by rotating an image at an arbitrary angle in the range of -30 degrees to +30 degrees using the document image open dataset FUNSD. For example, the convolutional neural network used a dataset of about 9000 sheets for learning and about 2000 sheets for verification.

도 5를 참조하면, 제2 예측부(220)는 이미지 등고선(Image contour)을 이용해 문서의 이미지 내에서 문자 영역을 탐지할 수 있다. Referring to FIG. 5 , the second prediction unit 220 may detect a character area within an image of a document using an image contour.

이미지 등고선(Image contour)은 검은색 픽셀 값을 갖는 글씨 영역이 높이가 높은 지역, 흰색 픽셀 값을 갖는 배경 영역이 높이가 낮은 지역이라 구분하여 이미지의 픽셀 값의 높낮이에 따라 영역을 구분하는 것이다. 이미지 등고선(Image contour)은 이미지 내에서 비슷한 픽셀 값을 갖는 곳을 연결한 선을 나타낸다.The image contour divides the area according to the height of the pixel value of the image by classifying the text area with black pixel values as an area with high height and the background area with white pixel value as an area with low height. An image contour represents a line connecting points having similar pixel values in an image.

제2예측부(220)는 문자 영역의 이미지 등고선(Image Contour)를 이용해 문서의 이미지에 대한 기울기 값을 예측할 수 있다. 자세히 설명하면, 제2 예측부(220)는 입력된 문서의 이미지를 이진화(Binarization)한다. 제2 예측부(220)는 이진화(Binarization)을 통해 문서의 이미지에서 검정색 픽셀인 글씨 영역과 흰색 픽셀인 배경 영역의 구분을 명확하게 할 수 있다. The second predictor 220 may predict the gradient value of the image of the document using the image contour of the text area. In detail, the second prediction unit 220 binarizes the image of the input document. The second prediction unit 220 can clearly distinguish between a text area, which is a black pixel, and a background area, which is a white pixel, in a document image through binarization.

제2 예측부(220)는 이진화를 수행한 문서의 이미지에 대한 픽셀 값의 높낮이에 따라서 이미지 등고선을 추출할 수 있다. The second prediction unit 220 may extract image contours according to heights of pixel values of the binarized document image.

제2 예측부(220)는 이미지 등고선을 통해 표현된 문자 영역의 최소 면적을 사각형으로 추출한다. 제2 예측부(220)는 추출한 사각형과 문서의 이미지가 이루는 각도를 예측한다. 제2 예측부(220)는 문서 영역을 포괄하는 최소 면적의 직사각형을 추출할 수 있다. 예를 들면, 제2 예측부(220)는 제공하는 최소 면적의 직사각형을 OpenCV 라이브러리를 이용해 추출할 수 있다.The second prediction unit 220 extracts the minimum area of the character region expressed through the image contours as a rectangle. The second prediction unit 220 predicts an angle between the extracted rectangle and the image of the document. The second prediction unit 220 may extract a rectangle with a minimum area covering the document area. For example, the second prediction unit 220 may extract a rectangle having a minimum area provided using the OpenCV library.

도 6을 참조하면, 제3 예측부(230)는 문서의 이미지 픽셀 중 서로 직선 관계를 갖는 픽셀들을 골라내어 직선들을 생성할 수 있다. 제3 예측부(230)는 생성한 직선들과 이미지가 이루는 각도들의 평균 값을 추출한다. 예를 들면 제3예측부(230)는 허프 변환(Hough transform)을 사용하여 이미지 픽셀 중 서로 직선 관계를 갖는 픽셀들을 골라낼 수 있다. Referring to FIG. 6 , the third prediction unit 230 may generate straight lines by selecting pixels having a linear relationship with each other among image pixels of a document. The third prediction unit 230 extracts an average value of angles formed between the generated straight lines and the image. For example, the third predictor 230 may select pixels having a linear relationship with each other among image pixels by using a Hough transform.

허프 변환(Hough transform)은 직선 x, y 좌표계를 회전 좌표계로 변환하는 방법이다.Hough transform is a method of transforming a linear x, y coordinate system into a rotational coordinate system.

제3 예측부(230)는 이미지에서 직선 관계를 가지는 복수의 픽셀들이 이루는 직선들의 기울기를 산출할 수 있다. 제3 예측부(230)는 산출된 복수의 기울기의 평균을 산출하여 기울기 최종 예측 값으로 구한다.The third prediction unit 230 may calculate slopes of straight lines formed by a plurality of pixels having a linear relationship in the image. The third prediction unit 230 calculates the average of the calculated gradients and obtains the final predicted gradient value.

제2 예측부(220) 및 제3 예측부(230)는 이미지 처리 오픈소스 라이브러리 OpenCV를 이용할 수 있다.The second prediction unit 220 and the third prediction unit 230 may use OpenCV, an image processing open source library.

다시 도 4를 참조하면, 최종 예측부(240)는 문서의 기울기를 각각 다른 방법으로 산출한 복수의 기울기 예측 값을 이용하여 기울기 최종 예측 값을 산출할 수 있다. 최종 예측부(240)는 복수의 기울기 예측 값들을 심층 신경망의 입력값으로 할 수 있다. 최종 예측부(240)는 심층 신경망을 학습하여 기울기 최종 예측 값을 산출할 수 있다.Referring back to FIG. 4 , the final prediction unit 240 may calculate the final predicted tilt value using a plurality of predicted tilt values obtained by calculating the tilt of the document using different methods. The final prediction unit 240 may use a plurality of gradient prediction values as input values of the deep neural network. The final prediction unit 240 may learn the deep neural network to calculate the final predicted gradient value.

Figure pat00001
Figure pat00001

표 1은 본 발명의 신경망 모델의 세부 파라미터들에 대한 예시이다.Table 1 is an example of detailed parameters of the neural network model of the present invention.

Input1은 획득한 문서의 이미지이며, 제1예측부(210)는 합성곱 신경망을 통해 input1 문서의 기울기를 예측할 수 있다.Input1 is an image of an acquired document, and the first prediction unit 210 may predict the gradient of the input1 document through a convolutional neural network.

Input2는 제2예측부(220)가 이미지 등고선을 이용해 산출한 기울기 예측 값이다.Input2 is a gradient prediction value calculated by the second predictor 220 using the image contours.

Input3은 제3예측부(230)가 허프 변환을 이용해 산출한 기울기 예측 값이다.Input3 is a gradient prediction value calculated by the third predictor 230 using Hough transform.

최종 예측부(240)는 Input1, Input2 및 Input3을 연결(concatenate)하여 심층 신경망의 입력값으로 하여 문서의 이미지에 대한 기울기 최종 예측 값을 산출할 수 있다.The final prediction unit 240 may concatenate Input1, Input2, and Input3 and use them as input values of the deep neural network to calculate a final predicted gradient value for the image of the document.

다시 도 2를 참조하면, 보정부(300)는 기울기 최종 예측 값을 기반으로 도 4의 획득한 문서의 이미지를 자동으로 회전하여 보정한다.Referring back to FIG. 2 , the correction unit 300 automatically rotates and corrects the acquired document image of FIG. 4 based on the final predicted tilt value.

인식부(400)는 기울기가 보정된 문서의 이미지에서 광학 문자 인식으로 문자를 추출한다. 인식부(400)는 문서의 이미지에 대한 기울기를 보정한 후 광학 문자 인식을 하기 때문에 문자 인식의 정확도를 높일 수 있다.The recognition unit 400 extracts characters from the tilt-corrected document image through optical character recognition. Since the recognition unit 400 performs optical character recognition after correcting the inclination of the image of the document, accuracy of character recognition can be increased.

도 7은 본 발명의 일 실시예에 따른 기울기 보정을 제공하는 문자 인식 방법을 도시한 도면이다. 이하 설명하는 각 과정은 단계에서 기울기 보정을 제공하는 문자 인식 시스템을 구성하는 각 기능부가 수행하는 과정이나, 본 발명의 간결하고 명확한 설명을 위해 각 단계의 주체를 단계에서 기울기 보정을 제공하는 문자 인식 시스템으로 통칭하도록 한다.7 is a diagram illustrating a text recognition method for providing tilt correction according to an embodiment of the present invention. Each process described below is a process performed by each functional unit constituting a text recognition system that provides tilt correction in each step, but for concise and clear description of the present invention, the subject of each step is text recognition that provides tilt correction in each step. Let's call it a system.

도7을 참조하면, S710 단계에서 기울기 보정을 제공하는 문자 인식 시스템(10)은 종이 문서를 이미지로 추출하여 획득할 수 있다. 예를 들면 기울기 보정을 제공하는 문자 인식 시스템(10)은 스캐너를 이용해 종이를 문서 이미지로 변환하여 획득할 수 있다. 이미지를 획득하는 방법은 스캐너를 이용하는 방법에 제한하지 않으며, 카메라 등과 같이 전자 이미지 파일 형태로 제공할 수 있는 장치를 이용할 수 있다.Referring to FIG. 7 , the text recognition system 10 providing tilt correction in step S710 may extract and acquire a paper document as an image. For example, the text recognition system 10 that provides tilt correction may be obtained by converting paper into a document image using a scanner. A method of obtaining an image is not limited to a method using a scanner, and a device capable of providing an image in the form of an electronic image file, such as a camera, may be used.

S720 단계에서 기울기 보정을 제공하는 문자 인식 시스템(10)은 획득한 문서의 이미지에 대해 각각 다른 복수의 방법을 이용해 복수의 기울기 예측 값을 산출한다. 이때 기울기 보정을 제공하는 문자 인식 시스템(10)은 각기 다른 방법을 이용해 복수의 기울기 예측 값을 산출할 수 있다. 기울기 보정을 제공하는 문자 인식 시스템(10)은 합성곱 신경망을 이용해 문서의 이미지에 대한 기울기 예측 값을 추출할 수 있다. 기울기 보정을 제공하는 문자 인식 시스템(10)은 이미지에서 이미지 등고선을 추출하여 기울기 예측 값을 산출할 수 있다. 기울기 보정을 제공하는 문자 인식 시스템(10)은 이미지 픽셀 중 서로 직선 관계를 갖는 픽셀들을 추출하여 이미지의 기울기 예측 값을 산출할 수 있다. 기울기 보정을 제공하는 문자 인식 시스템(10)은 각각 다른 방법으로 예측한 기울기 예측 값들을 연결(concatenate)한 후 심층 신경망의 입력 값으로 정하여 기울기 최종 예측 값을 산출할 수 있다.In step S720, the text recognition system 10 providing tilt correction calculates a plurality of tilt prediction values for the obtained document image using a plurality of different methods. At this time, the text recognition system 10 providing tilt correction may calculate a plurality of tilt prediction values using different methods. The text recognition system 10 providing tilt correction may extract a tilt prediction value for an image of a document using a convolutional neural network. The text recognition system 10 providing tilt correction may extract image contours from an image to calculate a tilt prediction value. The text recognition system 10 that provides tilt correction may calculate a tilt prediction value of an image by extracting pixels having a linear relationship with each other among image pixels. The character recognition system 10 that provides tilt correction may concatenate the predicted tilt values predicted by different methods and then calculate the final predicted tilt value by setting it as an input value of the deep neural network.

S730 단계에서 기울기 보정을 제공하는 문자 인식 시스템(10)은 기울기 최종 예측 값을 기반으로 기울어진 이미지를 보정한다.In step S730, the text recognition system 10 providing tilt correction corrects the tilted image based on the final predicted tilt value.

S740 단계에서 기울기 보정을 제공하는 문자 인식 시스템(10)은 광학 문자 인식(OCR)을 통해 보정한 이미지 내의 문자를 인식할 수 있다.In step S740 , the text recognition system 10 that provides tilt correction may recognize characters in the corrected image through optical character recognition (OCR).

상술한 기울기 보정을 제공하는 문자 인식 방법은 컴퓨터가 읽을 수 있는 매체 상에 컴퓨터가 읽을 수 있는 코드로 구현될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록 매체는, 예를 들어 전이형 기록 매체(CD, DVD, 블루레이 디스크, USB 저장 장치, 전이식 하드 디스크)이거나, 고정식 기록 매체(ROM, RAM, 컴퓨터 구비형 하드 디스크)일 수 있다. 상기 컴퓨터로 읽을 수 있는 기록 매체에 기록된 상기 컴퓨터 프로그램은 인터넷 등의 네트워크를 통하여 다른 컴퓨팅 장치에 전송되어 상기 다른 컴퓨팅 장치에 설치될 수 있고, 이로써 상기 다른 컴퓨팅 장치에서 사용될 수 있다.The character recognition method for providing tilt correction described above may be implemented as computer readable code on a computer readable medium. The computer-readable recording medium is, for example, a transferable recording medium (CD, DVD, Blu-ray disc, USB storage device, transferable hard disk) or a fixed recording medium (ROM, RAM, computer-equipped hard disk). ) can be. The computer program recorded on the computer-readable recording medium may be transmitted to another computing device through a network such as the Internet, installed in the other computing device, and thus used in the other computing device.

이상에서, 본 발명의 실시 예를 구성하는 모든 구성 요소들이 하나로 결합되거나 결합되어 동작하는 것으로 설명되었다고 해서, 본 발명이 반드시 이러한 실시 예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위안에서라면, 그 모든 구성요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다.In the above, even though all the components constituting the embodiment of the present invention have been described as being combined or operated as one, the present invention is not necessarily limited to these embodiments. That is, within the scope of the object of the present invention, all of the components may be selectively combined with one or more to operate.

도면에서 동작들이 특정한 순서로 도시되어 있지만, 반드시 동작들이 도시된 특정한 순서로 또는 순차적 순서로 실행되어야만 하거나 또는 모든 도시 된 동작들이 실행되어야만 원하는 결과를 얻을 수 있는 것으로 이해되어서는 안 된다. 특정 상황에서는, 멀티태스킹 및 병렬 처리가 유리할 수도 있다. 더욱이, 위에 설명한 실시 예 들에서 다양한 구성들의 분리는 그러한 분리가 반드시 필요한 것으로 이해되어서는 안 되고, 설명된 프로그램 컴포넌트들 및 시스템들은 일반적으로 단일 소프트웨어 제품으로 함께 통합되거나 다수의 소프트웨어 제품으로 패키지 될 수 있음을 이해하여야 한다.Although actions are shown in a particular order in the drawings, it should not be understood that the actions must be performed in the specific order shown or in a sequential order, or that all shown actions must be performed to obtain a desired result. In certain circumstances, multitasking and parallel processing may be advantageous. Moreover, the separation of the various components in the embodiments described above should not be understood as requiring such separation, and the described program components and systems may generally be integrated together into a single software product or packaged into multiple software products. It should be understood that there is

이제까지 본 발명에 대하여 그 실시 예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시 예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.So far, the present invention has been looked at mainly by its embodiments. Those skilled in the art to which the present invention pertains will be able to understand that the present invention can be implemented in a modified form without departing from the essential characteristics of the present invention. Therefore, the disclosed embodiments should be considered from a descriptive point of view rather than a limiting point of view. The scope of the present invention is shown in the claims rather than the foregoing description, and all differences within the equivalent scope will be construed as being included in the present invention.

10: 기울기 보정을 제공하는 문자 인식 시스템
100: 입력부
200: 예측부
210: 제1 예측부
220: 제2 예측부
220: 제3 예측부
240: 최종 예측부
300: 보정부
400: 인식부
10: Character Recognition System with Skew Correction
100: input unit
200: prediction unit
210: first prediction unit
220: second prediction unit
220: third prediction unit
240: final prediction unit
300: correction unit
400: recognition unit

Claims (9)

기울기 보정을 제공하는 문자 인식 시스템에 있어서,
이미지를 획득하는 획득부;
이미지에 대한 기울기 예측 값을 산출하는 예측부;
상기 기울기 예측 값을 기반으로 상기 이미지에 대한 기울기를 보정하는 보정부; 및
상기 이미지에서 문자를 인식하는 인식부를 포함하는
기울기 보정을 제공하는 문자 인식 시스템.
In the character recognition system providing tilt correction,
an acquisition unit that acquires an image;
a prediction unit that calculates a gradient prediction value for an image;
a correction unit correcting a tilt of the image based on the predicted tilt value; and
Including a recognition unit for recognizing characters in the image
A character recognition system that provides skew correction.
제1항에 있어서,
상기 예측부는
각각 다른 방법을 이용해 복수의 기울기 예측 값을 산출하는 기울기 보정을 제공하는 문자 인식 시스템.
According to claim 1,
the prediction unit
A character recognition system that provides tilt correction that calculates multiple tilt prediction values using different methods.
제1항에 있어서,
상기 예측부는
딥 러닝 신경망을 이용해 이미지의 기울기를 예측하는 기울기 보정을 제공하는 문자 인식 시스템
According to claim 1,
the prediction unit
A character recognition system that provides tilt correction that predicts the tilt of an image using a deep learning neural network
제1항에 있어서,
상기 인식부는
광학 문자 인식을 통해 문자를 인식하는 기울기 보정을 제공하는 문자 인식 시스템.
According to claim 1,
the recognition unit
A character recognition system that provides skew correction to recognize characters through optical character recognition.
기울기 보정을 제공하는 문자 인식 시스템이 수행하는 기울기 보정을 제공하는 문자 인식 방법에 있어서,
이미지를 획득하는 단계;
상기 이미지에 대한 복수의 기울기 예측 값을 산출하는 단계;
기울기 최종 예측 값을 기반으로 기울어진 이미지를 보정하는 단계; 및
상기 이미지 내의 문자를 인식하는 단계를 포함하는 기울기 보정을 제공하는 문자 인식 방법.
In the character recognition method for providing tilt correction performed by a text recognition system providing tilt correction,
acquiring an image;
Calculating a plurality of gradient prediction values for the image;
correcting the tilted image based on the final predicted tilt value; and
A character recognition method for providing tilt correction comprising the step of recognizing a character in the image.
제5항에 있어서,
상기 이미지에 대한 복수의 기울기 예측 값을 산출하는 단계는
각각 다른 방법을 이용해 복수의 기울기 예측 값을 산출하는 기울기 보정을 제공하는 문자 인식 방법.
According to claim 5,
Calculating a plurality of gradient prediction values for the image
A character recognition method that provides tilt correction that calculates a plurality of tilt prediction values using different methods.
제5항에 있어서,
상기 이미지에 대한 복수의 기울기 예측 값을 산출하는 단계는
딥 러닝 신경망을 이용해 이미지의 기울기를 예측하는 기울기 보정을 제공하는 문자 인식 방법.
According to claim 5,
Calculating a plurality of gradient prediction values for the image
A character recognition method that provides tilt correction that predicts the tilt of an image using a deep learning neural network.
제5항에 있어서,
상기 이미지의 문자를 인식하는 단계는
광학 문자 인식을 통해 문자를 인식하는 기울기 보정을 제공하는 문자 인식 방법.
According to claim 5,
The step of recognizing the character of the image is
A character recognition method that provides tilt correction for recognizing characters through optical character recognition.
제5항 내지 제8항 중 어느 하나의 기울기 보정을 제공하는 문자 인식 방법을 실행하고 컴퓨터가 판독 가능한 기록매체에 기록된 컴퓨터 프로그램.
A computer program that executes the character recognition method for providing tilt correction according to any one of claims 5 to 8 and is recorded on a computer-readable recording medium.
KR1020210145845A 2021-10-28 2021-10-28 Enhanced document image optical character recognition system through document tilt correction and method thereof KR20230061026A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210145845A KR20230061026A (en) 2021-10-28 2021-10-28 Enhanced document image optical character recognition system through document tilt correction and method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210145845A KR20230061026A (en) 2021-10-28 2021-10-28 Enhanced document image optical character recognition system through document tilt correction and method thereof

Publications (1)

Publication Number Publication Date
KR20230061026A true KR20230061026A (en) 2023-05-08

Family

ID=86381841

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210145845A KR20230061026A (en) 2021-10-28 2021-10-28 Enhanced document image optical character recognition system through document tilt correction and method thereof

Country Status (1)

Country Link
KR (1) KR20230061026A (en)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101783337B1 (en) 2015-10-29 2017-09-29 더 닐슨 컴퍼니 (유에스) 엘엘씨 Methods and apparatus to extract text from imaged documents

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101783337B1 (en) 2015-10-29 2017-09-29 더 닐슨 컴퍼니 (유에스) 엘엘씨 Methods and apparatus to extract text from imaged documents

Similar Documents

Publication Publication Date Title
Ryan et al. An examination of character recognition on ID card using template matching approach
JP5844783B2 (en) Method for processing grayscale document image including text region, method for binarizing at least text region of grayscale document image, method and program for extracting table for forming grid in grayscale document image
JP5934762B2 (en) Document modification detection method by character comparison using character shape characteristics, computer program, recording medium, and information processing apparatus
KR102208683B1 (en) Character recognition method and apparatus thereof
US9230383B2 (en) Document image compression method and its application in document authentication
US8155442B2 (en) Method and apparatus for modifying the histogram of an image
US11176410B2 (en) Preprocessing images for OCR using character pixel height estimation and cycle generative adversarial networks for better character recognition
JP4100885B2 (en) Form recognition apparatus, method, program, and storage medium
US10455163B2 (en) Image processing apparatus that generates a combined image, control method, and storage medium
JP5337563B2 (en) Form recognition method and apparatus
US9626601B2 (en) Identifying image transformations for improving optical character recognition quality
KR100923935B1 (en) Method and system for evaluating document image automatically for optical character recognition
US9167129B1 (en) Method and apparatus for segmenting image into halftone and non-halftone regions
JPH07282253A (en) Threshold processing method of document image
JP6542406B1 (en) Reading system, reading method, program, and storage medium
KR20150099116A (en) Method for recognizing a color character using optical character recognition and apparatus thereof
KR20230061026A (en) Enhanced document image optical character recognition system through document tilt correction and method thereof
JP2018109824A (en) Electronic control device, electronic control system, and electronic control method
US11800036B2 (en) Determining minimum scanning resolution
Nor et al. Image segmentation and text extraction: application to the extraction of textual information in scene images
KR20220088569A (en) Device and method for measuring upside down orientation of a digital document based on neural network
JP2010244472A (en) Image processing device and method
Mahastama et al. Improving Projection Profile for Segmenting Characters from Javanese Manuscripts
Mai et al. An independent character recognizer for distantly acquired mobile phone text images
US11140282B2 (en) Character line division apparatus and method, and storage medium

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E601 Decision to refuse application