KR101498546B1 - System and method for restoring digital documents - Google Patents

System and method for restoring digital documents Download PDF

Info

Publication number
KR101498546B1
KR101498546B1 KR1020130099293A KR20130099293A KR101498546B1 KR 101498546 B1 KR101498546 B1 KR 101498546B1 KR 1020130099293 A KR1020130099293 A KR 1020130099293A KR 20130099293 A KR20130099293 A KR 20130099293A KR 101498546 B1 KR101498546 B1 KR 101498546B1
Authority
KR
South Korea
Prior art keywords
character recognition
block
unit
handwritten
ink data
Prior art date
Application number
KR1020130099293A
Other languages
Korean (ko)
Other versions
KR20150021846A (en
Inventor
강재우
권철중
김재원
Original Assignee
주식회사 디오텍
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 디오텍 filed Critical 주식회사 디오텍
Priority to KR1020130099293A priority Critical patent/KR101498546B1/en
Publication of KR20150021846A publication Critical patent/KR20150021846A/en
Application granted granted Critical
Publication of KR101498546B1 publication Critical patent/KR101498546B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)

Abstract

본 발명은 문서 디지털 복원 시스템 및 방법에 관한 것으로서, 본 발명에 따른 문서 디지털 복원 방법은 문서 이미지를 분석하여, 문서 이미지로부터 인쇄체 블록, 필기체 블록, 및 그림 블록을 분류하는 단계; 인쇄체 블록에 대한 문자 인식을 수행하는 단계, 필기체 블록에 대한 문자 인식을 수행하는 단계, 필기체 블록에 대한 문자 인식이 실패한 경우, 문자 인식에 실패한 필기체 블록에 대한 디지털 잉크 데이터를 생성하는 단계, 및 디지털 잉크 데이터를 사용하여 문자 인식을 수행하는 단계를 포함하는, 인쇄체 블록 및 필기체 블록 각각에 대한 문자 인식을 수행하는 단계; 및 문자 인식을 수행하는 단계의 문자 인식 결과 및 그림 블록에 기초하여, 문서 이미지에 대한 문서를 생성하는 단계를 포함하고, 문서 이미지에 대한 문자 인식률을 높일 수 있을 뿐만 아니라, 문자 인식 결과에 이미지가 포함되는 것을 최소화하여 편집의 용이성을 높일 수 있다.The present invention relates to a document digital restoration system and method, and a document digital restoration method according to the present invention comprises the steps of classifying a print block, a handwritten block and a picture block from a document image by analyzing a document image; Generating digital ink data for a handwritten block that fails in character recognition when the character recognition for the handwritten block fails, and generating digital ink data for the handwritten block, Performing character recognition on each of the print block and the handwritten block, including performing character recognition using ink data; And a step of generating a document for the document image based on the character recognition result and the picture block in the step of performing the character recognition. In addition, not only the character recognition rate for the document image can be increased, It is possible to minimize the inclusion and enhance the ease of editing.

Description

문서 디지털 복원 시스템 및 방법{SYSTEM AND METHOD FOR RESTORING DIGITAL DOCUMENTS} [0001] SYSTEM AND METHOD FOR RESTORING DIGITAL DOCUMENTS [0002]

본 발명은 문서 디지털 복원 시스템 및 방법에 관한 것으로서, 보다 상세하게는 인쇄체, 필기체 및 그림이 혼합된 문서 이미지를 문서로 복원하는 문서 디지털 복원 시스템 및 방법에 관한 것이다.BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a document digital restoration system and method, and more particularly, to a document digital restoration system and method for restoring a document image obtained by mixing a printed matter, a writing body, and a picture into a document.

최근 스마트폰, 태블릿 PC, 노트북 등과 같은 카메라가 내장된 전자 장치의 보급이 증가하면서, 스캐너로 스캔하여 획득한 이미지로부터 문자나 그림을 찾아서 디지털 문서로 복원하는 기술뿐만 아니라, 회의록 등과 같은 오프라인 문서, 길거리의 안내판, 또는 음식점의 메뉴판과 같은 인쇄체 및/또는 필기체 문자를 포함하는 문서를 카메라로 촬영하여 이미지로 보관하거나, 촬영 이미지를 문자 인식하여 문서 파일로 보관하며 편집할 수 있는 기술에 대한 요구가 증가하고 있다.Recently, electronic devices having cameras such as smart phones, tablet PCs, and notebooks have been increasing in popularity. In addition to technologies for retrieving characters or pictures from scanned images and restoring them as digital documents, offline documents such as minutes, A demand for a technique of photographing a document including a printed matter such as a signboard on the street or a menu plate of a restaurant and / or a handwritten character and storing the image as an image or storing the captured image as a character file, Is increasing.

종이나 이미지로 된 문서를 인식하여 텍스트로 변환하여 디지털 문서로 복원하는 OCR (Optical Character Reader) 기술은 인쇄체 문자를 대상으로 해서는 인식률이 높은 편이다. 그러나, 오프라인 필기체 문자의 경우, 문자의 형태가 정형화되어 있지 않아서 문자 인식 난이도가 매우 높고, OCR 기술을 통한 문자 인식률 또한 매우 낮은 편이다. 따라서, 필기체 문자가 있는 문서 이미지의 경우는 필기체 문자를 이미지로 취급하여 편집을 하나 이러한 문자 인식 방법은 여러 가지로 불편한 점이 많다.
[관련기술문헌]
필기 인식 시스템 및 이를 이용한 필기 인식 방법 (한국특허출원번호 제 10-2011-0089500 호)
The OCR (Optical Character Reader) technology that recognizes a document or image and converts it into text and restores it as a digital document has a high recognition rate for printed characters. However, in the case of off-line handwritten characters, the character type is not standardized, so the difficulty of character recognition is very high, and the character recognition rate through OCR technology is also very low. Therefore, in the case of a document image with handwritten characters, the handwritten character is treated as an image and edited. However, many of such character recognition methods are inconvenient.
[Related Technical Literature]
A handwriting recognition system and a handwriting recognition method using the same (Korean Patent Application No. 10-2011-0089500)

이에, 본 발명이 해결하고자 하는 과제는 인쇄체 문자, 필기체 문자 및 그림이 혼합된 문서 이미지에 대한 문자 인식률을 높일 수 있는 문서 디지털 복원 시스템 및 방법을 제공하는 것이다.SUMMARY OF THE INVENTION Accordingly, it is an object of the present invention to provide a document digital restoration system and method capable of enhancing a character recognition rate for a document image in which a printed character, a cursive character, and a picture are mixed.

본 발명이 해결하고자 하는 다른 과제는 문서 이미지에 대한 문자 인식 결과에 이미지가 포함되는 것을 최소화하여 편집의 용이성을 높일 수 있는 문서 디지털 복원 시스템 및 방법을 제공하는 것이다.Another object of the present invention is to provide a document digital restoration system and method which can enhance the easiness of editing by minimizing the inclusion of an image in a character recognition result of a document image.

본 발명의 과제들은 이상에서 언급한 과제들로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.The problems of the present invention are not limited to the above-mentioned problems, and other problems not mentioned can be clearly understood by those skilled in the art from the following description.

전술한 바와 같은 과제를 해결하기 위하여 본 발명의 일 실시예에 따른 문서 디지털 복원 시스템은 문서 이미지를 분석하여, 문서 이미지로부터 인쇄체 블록, 필기체 블록, 및 그림 블록을 분류하는 문서 구조 분석부, 인쇄체 블록에 대한 문자 인식을 수행하는 인쇄체 문자 인식부, 필기체 블록에 대한 문자 인식을 수행하는 필기체 문자 인식부, 필기체 문자 인식부가 문자 인식에 실패한 경우, 문자 인식에 실패한 필기체 블록에 대한 디지털 잉크 데이터를 생성하는 디지털 잉크 데이터 생성부, 및 디지털 잉크 데이터를 사용하여 문자 인식을 수행하는 디지털 잉크 데이터 문자 인식부를 포함하는, 인쇄체 블록 및 필기체 블록 각각에 대한 문자 인식을 수행하는 문자 인식부, 및 문자 인식부로부터의 문자 인식 결과 및 그림 블록에 기초하여 문서 이미지에 대한 문서를 생성하는 문서 생성부를 포함하는 것을 특징으로 한다. According to an aspect of the present invention, there is provided a document digital restoration system for analyzing a document image and analyzing the document image to classify a print block, a handwritten block, and a picture block from a document image, A handwritten character recognition unit for performing character recognition on a cursive block, and a handwritten character recognition unit for generating digital ink data for a handwritten block that fails in character recognition if character recognition fails A character recognition section for performing character recognition for each of the print block and the handwritten block, the character recognition section including a digital ink data generation section and a digital ink data character recognition section for performing character recognition using digital ink data; Based on the character recognition result and the picture block, Generating a document to generate a document to be characterized in that it comprises a.

본 발명의 다른 특징에 따르면, 문서 이미지를 입력받는 입력부를 더 포함하고, 입력부는 스캐너 또는 카메라인 것을 특징으로 한다.According to another aspect of the present invention, there is further provided an input unit for inputting a document image, wherein the input unit is a scanner or a camera.

본 발명의 또 다른 특징에 따르면, 인쇄체 문자 인식부는 인쇄체 블록 중 인식에 실패한 인쇄체 블록을 필기체 문자 인식부 또는 디지털 잉크 데이터 생성부로 전송하고, 필기체 문자 인식부는 인쇄체 문자 인식부로부터 수신한 인쇄체 블록에 대한 문자 인식을 더 수행하는 것을 것을 특징으로 한다.According to another aspect of the present invention, a print character recognition unit transmits a print block which has failed recognition of a print block to a handwritten character recognition unit or a digital ink data generation unit, and the handwritten character recognition unit recognizes, Character recognition is further performed.

본 발명의 또 다른 특징에 따르면, 필기체 문자 인식부는 필기체 블록 또는 인쇄체 문자 인식부로부터 수신한 인쇄체 블록 중 인식에 실패한 필기체 블록 또는 인쇄체 블록을 디지털 잉크 데이터 생성부로 전송하고, 디지털 잉크 데이터 생성부는 인쇄체 문자 인식부로부터 수신한 인쇄체 블록, 필기체 문자 인식부로부터 수신한 필기체 블록 또는 인쇄체 블록에 대한 디지털 잉크 데이터를 더 생성하는 것을 특징으로 한다.According to still another aspect of the present invention, a handwritten character recognition unit transmits a handwritable block or a print block, which has failed recognition of a print block received from a handwritten block or a printed character recognition unit, to a digital ink data generation unit, And further generates digital ink data for the print block received from the recognition section, the handwritten block received from the handwritten character recognition section, or the print block.

본 발명의 또 다른 특징에 따르면, 인쇄체 문자 인식부, 필기체 문자 인식부, 디지털 잉크 데이터 생성부, 및 디지털 잉크 데이터 문자 인식부는 인쇄체 문자 인식부, 필기체 문자 인식부, 디지털 잉크 데이터 생성부, 및 디지털 잉크 데이터 문자 인식부의 순서로 순차적으로 구동되는 것을 특징으로 한다.According to still another aspect of the present invention, there is provided a printing apparatus, including a printed character recognizing unit, a handwritten character recognizing unit, a digital ink data generating unit, and a digital ink data character recognizing unit, And the ink data character recognizing unit are sequentially driven in this order.

본 발명의 또 다른 특징에 따르면, 인쇄체 문자 인식부, 필기체 문자 인식부, 디지털 잉크 데이터 생성부, 및 디지털 잉크 데이터 문자 인식부는 병렬적으로 구동되는 것을 특징으로 한다.According to another aspect of the present invention, a printed character recognition unit, a handwritten character recognition unit, a digital ink data generation unit, and a digital ink data character recognition unit are driven in parallel.

본 발명의 또 다른 특징에 따르면, 인쇄체 문자 인식부 및 필기체 문자 인식부는 선택적으로 구동되는 것을 특징으로 한다.According to another aspect of the present invention, the printed character recognizing unit and the handwritten character recognizing unit are selectively driven.

본 발명의 또 다른 특징에 따르면, 인쇄체 문자 인식부, 필기체 문자 인식부 및 디지털 잉크 데이터 문자 인식부는 문자 인식을 위해 전처리 공정, 특징 추출 공정, 인식 공정, 및 후처리 공정을 사용하는 것을 특징으로 한다.According to another aspect of the present invention, the print character recognition unit, the handwritten character recognition unit, and the digital ink data character recognition unit are characterized by using a preprocessing process, a feature extraction process, a recognition process, and a post-process process for character recognition .

본 발명의 또 다른 특징에 따르면, 디지털 잉크 데이터 문자 인식부는 문자 인식에 실패한 경우, 디지털 잉크 데이터를 문서 생성부로 전송하는 것을 특징으로 한다.According to another aspect of the present invention, the digital ink data character recognition unit transmits digital ink data to the document generation unit when the character recognition fails.

전술한 바와 같은 과제를 해결하기 위하여 본 발명의 일 실시예에 따른 문서 디지털 복원 방법은 문서 이미지를 분석하여, 문서 이미지로부터 인쇄체 블록, 필기체 블록, 및 그림 블록을 분류하는 단계; 인쇄체 블록에 대한 문자 인식을 수행하는 단계, 필기체 블록에 대한 문자 인식을 수행하는 단계, 필기체 블록에 대한 문자 인식이 실패한 경우, 문자 인식에 실패한 필기체 블록에 대한 디지털 잉크 데이터를 생성하는 단계, 및 디지털 잉크 데이터를 사용하여 문자 인식을 수행하는 단계를 포함하는, 인쇄체 블록 및 필기체 블록 각각에 대한 문자 인식을 수행하는 단계; 및 문자 인식을 수행하는 단계의 문자 인식 결과 및 그림 블록에 기초하여, 문서 이미지에 대한 문서를 생성하는 단계를 포함하는 것을 특징으로 한다.According to an aspect of the present invention, there is provided a digital document restoration method comprising: analyzing a document image to classify a print block, a handwritten block, and a picture block from a document image; Generating digital ink data for a handwritten block that fails in character recognition when the character recognition for the handwritten block fails, and generating digital ink data for the handwritten block, Performing character recognition on each of the print block and the handwritten block, including performing character recognition using ink data; And generating a document for the document image based on the character recognition result and the picture block in the step of performing character recognition.

본 발명의 또 다른 특징에 따르면, 필기체 블록에 대한 문자 인식을 수행하는 단계는 인쇄체 블록에 대한 문자 인식에 실패한 경우 문자 인식에 실패한 인쇄체 블록에 대한 문자 인식을 수행하는 단계를 더 포함하는 것을 특징으로 한다.According to another aspect of the present invention, the step of performing character recognition on the handwritten block further includes the step of performing character recognition on the print block that fails to recognize the character when the character recognition on the print block fails do.

본 발명의 또 다른 특징에 따르면, 디지털 잉크 데이터를 생성하는 단계는, 인쇄체 블록에 대한 문자 인식에 실패한 경우 문자 인식에 실패한 인쇄체 블록에 대한 문자 인식을 수행하는 단계, 또는 필기체 블록에 대한 문자 인식에 실패한 경우 문자 인식에 실패한 필기체 블록에 대한 문자 인식을 수행하는 단계 중 적어도 하나를 포함하는 것을 특징으로 한다.According to another aspect of the present invention, the step of generating digital ink data may include a step of performing character recognition on a print block that fails to recognize a character when the character recognition on the print block fails, And performing character recognition on a handwritten block that fails in character recognition if the character recognition fails.

본 발명의 또 다른 특징에 따르면, 인쇄체 블록에 대한 문자 인식을 수행하는 단계, 필기체 블록에 대한 문자 인식을 수행하는 단계, 디지털 잉크 데이터를 생성하는 단계, 및 디지털 잉크 데이터를 사용하여 문자 인식을 수행하는 단계는 병렬적으로 수행되는 것을 특징으로 한다.According to another aspect of the present invention, there is provided a method for performing character recognition on a print block, performing character recognition on a cursive block, generating digital ink data, and performing character recognition using digital ink data Is performed in parallel.

전술한 바와 같은 과제를 해결하기 위하여 본 발명의 일 실시예에 따른 컴퓨터 판독가능 매체는 문서 이미지를 분석하여, 문서 이미지로부터 인쇄체 블록, 필기체 블록, 및 그림 블록을 분류하게 하고, 인쇄체 블록에 대한 문자 인식을 수행하게 하고, 필기체 블록에 대한 문자 인식을 수행하게 하고, 필기체 블록에 대한 문자 인식이 실패한 경우, 실패된 필기체 블록에 대한 디지털 잉크 데이터를 생성하게 하고, 디지털 잉크 데이터를 사용하여 문자 인식을 수행하게 하여, 인쇄체 블록 및 필기체 블록 각각에 대한 문자 인식을 수행하게 하고, 문자 인식을 수행하는 단계의 문자 인식 결과 및 그림 블록에 기초하여, 문서 이미지에 대한 문서를 생성하게 하는 명령어들의 세트를 포함하는 것을 특징으로 한다.According to an aspect of the present invention, there is provided a computer-readable medium for analyzing a document image to classify a print block, a handwritten block, and a picture block from a document image, The character recognition is performed on the cursive block, the digital ink data on the failed cursive block is generated when the character recognition on the cursive block fails, and the character recognition is performed using the digital ink data To perform character recognition for each of the print block and the handwritten block and to generate a document for the document image based on the character recognition result and the picture block in the step of performing character recognition .

기타 실시예의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.The details of other embodiments are included in the detailed description and drawings.

본 발명은 인쇄체 문자, 필기체 문자 및 그림이 혼합된 문서 이미지에 대한 문자 인식률을 높일 수 있는 문서 디지털 복원 시스템 및 방법을 제공할 수 있다.The present invention can provide a document digital restoration system and method capable of enhancing a character recognition rate for a document image in which a printed character, a cursive character, and a picture are mixed.

본 발명은 문서 이미지에 대한 문자 인식 결과에 이미지가 포함되는 것을 최소화하여 편집의 용이성을 높일 수 있는 문서 디지털 복원 시스템 및 방법을 제공할 수 있다.The present invention can provide a document digital restoration system and method that can increase the easiness of editing by minimizing the inclusion of an image in a character recognition result on a document image.

본 발명에 따른 효과는 이상에서 예시된 내용에 의해 제한되지 않으며, 더욱 다양한 효과들이 본 명세서 내에 포함되어 있다.The effects according to the present invention are not limited by the contents exemplified above, and more various effects are included in the specification.

도 1은 본 발명의 일 실시예에 따른 문서 디지털 복원 방법의 흐름도이다.
도 2는 본 발명의 일 실시예에 따른 문서 디지털 복원 시스템의 개략도이다.
도 3은 본 발명의 문서 디지털 복원 시스템 및 방법에서 사용되는 문서 이미지의 예이다.
도 4는 본 발명의 일 실시예에 따른 문서 디지털 복원 방법의 문자 인식 수행 단계에 대한 흐름도이다.
도 5는 본 발명의 일 실시예에 따른 문서 디지털 복원 시스템의 문자 인식부에 대한 개략도이다.
도 6은 본 발명의 일 실시예에 따른 문서 디지털 복원 시스템의 문자 인식부의 인쇄체 문자 인식부에 대한 개략도이다.
1 is a flowchart of a digital document restoration method according to an embodiment of the present invention.
2 is a schematic diagram of a document digital restoration system in accordance with an embodiment of the present invention.
3 is an example of a document image used in the document digital restoration system and method of the present invention.
4 is a flowchart illustrating a character recognition step of the digital document restoration method according to an embodiment of the present invention.
5 is a schematic view of a character recognition unit of a document digital restoration system according to an embodiment of the present invention.
6 is a schematic view of a printed character recognition unit of a character recognition unit of a document digital restoration system according to an embodiment of the present invention.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.BRIEF DESCRIPTION OF THE DRAWINGS The advantages and features of the present invention and the manner of achieving them will become apparent with reference to the embodiments described in detail below with reference to the accompanying drawings. The present invention may, however, be embodied in many different forms and should not be construed as being limited to the embodiments set forth herein. Rather, these embodiments are provided so that this disclosure will be thorough and complete, and will fully convey the scope of the invention to those skilled in the art. Is provided to fully convey the scope of the invention to those skilled in the art, and the invention is only defined by the scope of the claims.

명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.Like reference numerals refer to like elements throughout the specification.

첨부된 블록도의 각 블록과 흐름도의 각 단계의 조합들은 펌웨어 (firmware), 소프트웨어 (software), 또는 하드웨어 (hardware) 로 구성된, 알고리즘 또는 컴퓨터 프로그램 인스트럭션들에 의해 수행될 수도 있다. 이들 알고리즘 또는 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 디지털 신호 처리 디바이스 (Digital Signal Processing Device) 의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능들을 수행하는 수단을 생성하게 된다. 이들 알고리즘 또는 컴퓨터 프로그램 인스트럭션들은 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용 가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 블록도의 각 블록 또는 흐름도 각 단계에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다. 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 블록도의 각 블록 및 흐름도의 각 단계에서 설명된 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.Each block of the accompanying block diagrams and combinations of the steps of the flowcharts may be performed by algorithms or computer program instructions comprised of firmware, software, or hardware. These algorithms or computer program instructions may be embedded in a processor of a general purpose computer, special purpose computer, or other programmable digital signal processing device, so that the instructions that are executed by a processor of a computer or other programmable data processing apparatus Generate means for performing the functions described in each block or flowchart of the block diagram. These algorithms or computer program instructions may also be stored in a computer usable or computer readable memory capable of directing a computer or other programmable data processing apparatus to implement a function in a particular manner, It is also possible for instructions stored in a possible memory to produce a manufacturing item containing instruction means for performing the function described in each block or flowchart of each block diagram. Computer program instructions may also be stored on a computer or other programmable data processing equipment so that a series of operating steps may be performed on a computer or other programmable data processing equipment to create a computer- It is also possible that the instructions that perform the processing equipment provide the steps for executing the functions described in each block of the block diagram and at each step of the flowchart.

또한, 각 블록 또는 각 단계는 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또한, 몇 가지 대체 실시예들에서는 블록들 또는 단계들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들 또는 단계들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.Also, each block or each step may represent a module, segment, or portion of code that includes one or more executable instructions for executing the specified logical function (s). It should also be noted that in some alternative embodiments, the functions mentioned in the blocks or steps may occur out of order. For example, two blocks or steps shown in succession may in fact be performed substantially concurrently, or the blocks or steps may sometimes be performed in reverse order according to the corresponding function.

본 발명의 여러 실시예들의 각각 특징들이 부분적으로 또는 전체적으로 서로 결합 또는 조합 가능하며, 당업자가 충분히 이해할 수 있듯이 기술적으로 다양한 연동 및 구동이 가능하며, 각 실시예들이 서로에 대하여 독립적으로 실시 가능할 수도 있고 연관 관계로 함께 실시 가능할 수도 있다.It is to be understood that each of the features of the various embodiments of the present invention may be combined or combined with each other partially or entirely and technically various interlocking and driving is possible as will be appreciated by those skilled in the art, It may be possible to cooperate with each other in association.

이하, 첨부된 도면을 참조하여 본 발명의 다양한 실시예들을 상세히 설명한다.Various embodiments of the present invention will now be described in detail with reference to the accompanying drawings.

도 1은 본 발명의 일 실시예에 따른 문서 디지털 복원 방법의 흐름도이다. 도 2는 본 발명의 일 실시예에 따른 문서 디지털 복원 시스템의 개략도이다. 도 2를 참조하면, 문서 디지털 복원 시스템 (100) 은 문서 구조 분석부 (110), 문자 인식부 (120) 및 문서 생성부 (130) 를 포함한다. 이하에서는 본 발명의 일 실시예에 따른 문서 디지털 복원 방법과 문서 디지털 복원 시스템 (100) 에 대한 이해를 돕기 위해, 문서 디지털 복원 방법과 문서 디지털 복원 시스템 (100) 에 대한 도 1 및 도 2를 함께 참조하여 설명한다.1 is a flowchart of a digital document restoration method according to an embodiment of the present invention. 2 is a schematic diagram of a document digital restoration system in accordance with an embodiment of the present invention. Referring to FIG. 2, the document digital restoration system 100 includes a document structure analysis unit 110, a character recognition unit 120, and a document generation unit 130. 1 and 2 for a document digital restoration method and a document digital restoration system 100 will be described below in order to facilitate understanding of the document digital restoration method and the document digital restoration system 100 according to an embodiment of the present invention. .

먼저, 도 1을 참조하면, 문서 이미지를 분석하여, 문서 이미지로부터 인쇄체 블록, 필기체 블록, 및 그림 블록을 분류한다 (S10). 단계 S10은 문서 디지털 복원 시스템 (100) 의 문서 구조 분석부 (110) 에 의해 수행된다.First, referring to FIG. 1, a document image is analyzed to classify a print block, a cursive block, and a picture block from a document image (S10). Step S10 is performed by the document structure analysis unit 110 of the document digital restoration system 100. [

문서 구조 분석부 (110) 는 문서 이미지를 분석하여 문서 이미지에 포함된 문자와 그림을, 인쇄체 블록, 필기체 블록, 및 그림 블록을 분류한다. 문서 이미지는 스캐너를 통해서 스캔된 이미지, 카메라를 통해서 촬영된 이미지 또는 이미지 파일로부터 읽어진 이미지일 수 있으며, 문서 이미지 포맷은 BMP, JPEG, PNG 등 다양한 이미지 포맷일 수 있다. 또한, 문서 이미지는 컬러 이미지, 흑백 이미지 등 다양한 컬러 깊이를 가질 수 있다. 도 2에 도시되지는 않았으나, 문서 디지털 복원 시스템 (100) 은 메모리를 더 포함할 수 있으며, 문서 이미지는 메모리에 저장될 수 있고, 문서 구조 분석부 (110) 는 메모리에 저장된 문서 이미지에 접근하여 문서 이미지에 대한 프로세스를 수행할 수 있다.The document structure analyzing unit 110 analyzes the document image and classifies characters and pictures included in the document image into a print block, a cursive block, and a picture block. The document image may be an image scanned through a scanner, an image captured through a camera, or an image read from an image file, and the document image format may be a variety of image formats such as BMP, JPEG, and PNG. In addition, the document image may have various color depths, such as color images, monochrome images, and the like. Although not shown in FIG. 2, the document digital restoration system 100 may further include a memory, the document image may be stored in a memory, and the document structure analysis unit 110 may access the document image stored in the memory Process the document image.

도 2에 도시되지는 않았으나, 문서 디지털 복원 시스템 (100) 은 문서 이미지를 입력받기 위한 입력부를 포함할 수 있다. 입력부로서 스캐너 또는 카메라등과 같은 이미지 촬영을 위한 장치가 사용될 수 있다.Although not shown in FIG. 2, the document digital restoration system 100 may include an input unit for receiving a document image. As an input unit, a device for image photographing such as a scanner or a camera may be used.

이하에서는, 문서 이미지 및 문서 구조 분석부 (110) 에 대한 보다 상세한 설명을 위해 도 3을 함께 참조한다.Hereinafter, the document image and document structure analyzing unit 110 will be referred to together with FIG. 3 for a more detailed description.

도 3은 본 발명의 문서 디지털 복원 시스템 및 방법에서 사용되는 문서 이미지의 예이다.3 is an example of a document image used in the document digital restoration system and method of the present invention.

문서 이미지 (200) 는 인쇄체 블록 (210), 필기체 블록 (220), 및 그림 블록 (230) 을 포함한다. 인쇄체 블록 (210) 은, 도 3에 도시된 바와 같이, 문서 이미지 (200) 에 포함된 문자 중 워드 프로세서 등에 의해 편집된 형태의 문자들의 블록을 의미한다. 필기체 블록 (220) 은, 도 3에 도시된 바와 같이, 문서 이미지 (200) 에 포함된 문자 중 사람이 직접 수기로 작성한 형태의 문자들의 블록을 의미한다. 그림 블록 (230) 은, 도 3에 도시된 바와 같이, 문서 이미지 (200) 에 포함된 그림 또는 사진들의 블록을 의미한다. The document image 200 includes a print block 210, a cursive block 220, and a picture block 230. As shown in FIG. 3, the print block 210 refers to a block of characters included in the document image 200 and edited by a word processor or the like. As shown in FIG. 3, the cursive block 220 refers to a block of characters included in the document image 200 in the form manually generated by a person. The picture block 230 refers to a block of pictures or pictures contained in the document image 200, as shown in FIG.

문서 구조 분석부 (110) 는 문서 이미지 (200) 에 포함된 인쇄체 블록 (210), 필기체 블록 (220), 및 그림 블록 (230) 을 식별하여 분류한다. 문서 구조 분석부 (110) 는 문서 이미지 (200) 를 분석하여 문서 이미지 (200) 를 인쇄체 블록 (210), 필기체 블록 (220), 및 그림 블록 (230) 으로 분할한다. 인쇄체 블록 (210) 및 필기체 블록 (220) 의 경우, 문서 복원을 위해 해당 블록에 포함된 문자에 대한 문자 인식이 수행되어야 하므로, 문서 구조 분석부 (110) 는 인쇄체 블록 (210) 및 필기체 블록 (220) 을 문자 인식부 (120) 로 전송한다. 그림 블록 (230) 의 경우, 별도의 문자 인식이 수행됨이 없이 문서 복원이 가능하므로, 문서 구조 분석부 (110) 는 그림 블록 (230) 을 문서 생성부 (130) 로 전송한다. The document structure analysis unit 110 identifies and classifies the print block 210, the handwritten block 220, and the picture block 230 included in the document image 200. The document structure analysis unit 110 analyzes the document image 200 and divides the document image 200 into a print block 210, a cursive block 220, and a picture block 230. In the case of the print block 210 and the handwritten block 220, since the character recognition for the characters included in the corresponding block is performed for restoring the document, the document structure analyzing unit 110 analyzes the print block 210 and the cursive block 220 to the character recognition unit 120. In the case of the picture block 230, the document structure analyzing unit 110 transmits the picture block 230 to the document generating unit 130 because it is possible to restore the document without performing a separate character recognition.

다시 도 1 및 도 2를 참조하면, 이어서, 문서 구조 분석부 (110) 의 분류에 기초하여, 디지털 잉크 데이터를 사용하여 인쇄체 블록 (210) 및 필기체 블록 (220) 각각에 대한 문자 인식을 수행한다 (S20). 단계 S20은 문서 디지털 복원 시스템 (100) 의 문자 인식부 (120) 에 의해 수행된다.1 and 2, character recognition is performed on each of the print block 210 and the cursive block 220 using the digital ink data, based on the classification of the document structure analyzing unit 110 (S20). Step S20 is performed by the character recognition unit 120 of the document digital restoration system 100. [

문자 인식부 (120) 는 인쇄체 블록 (210) 및 필기체 블록 (220) 각각에 대한 문자 인식을 수행한다. 문자 인식부 (120) 에 대한 보다 상세한 설명을 위해 도 4 및 도 5를 함께 참조한다.The character recognition unit 120 performs character recognition on the print block 210 and the cursive block 220, respectively. 4 and 5 together for a more detailed description of the character recognition unit 120. [

도 4는 본 발명의 일 실시예에 따른 문서 디지털 복원 방법의 문자 인식 수행 단계에 대한 흐름도이다. 도 5는 본 발명의 일 실시예에 따른 문서 디지털 복원 시스템의 문자 인식부에 대한 개략도이다. 도 5를 참조하면, 문자 인식부 (120) 는 인쇄체 문자 인식부 (121), 필기체 문자 인식부 (122), 디지털 잉크 데이터 (digital ink data) 생성부 (123) 및 디지털 잉크 데이터 문자 인식부 (124) 를 포함한다. 이하에서는 본 발명의 일 실시예에 따른 문서 디지털 복원 방법의 문자 인식 수행 단계와 문서 디지털 복원 시스템 (100) 의 문자 인식부 (120) 에 대한 이해를 돕기 위해, 문서 디지털 복원 방법의 문자 인식 수행 단계와 문서 디지털 복원 시스템 (100) 의 문자 인식부 (120) 에 대한 도 4 및 도 5를 함께 참조하여 설명한다.4 is a flowchart illustrating a character recognition step of the digital document restoration method according to an embodiment of the present invention. 5 is a schematic view of a character recognition unit of a document digital restoration system according to an embodiment of the present invention. 5, the character recognition unit 120 includes a print character recognition unit 121, a handwritten character recognition unit 122, a digital ink data generation unit 123, and a digital ink data character recognition unit 124). Hereinafter, in order to understand the character recognizing step of the document digital restoring method and the character recognizing part 120 of the document digital restoring system 100 according to an embodiment of the present invention, And the character recognition unit 120 of the document digital restoration system 100 will be described with reference to FIGS. 4 and 5. FIG.

먼저, 도 4를 참조하면, 인쇄체 블록 (210) 에 대한 문자 인식을 수행한다 (S21). 단계 S21은 문서 디지털 복원 시스템 (100) 의 문자 인식부 (120) 의 인쇄체 문자 인식부 (121) 에 의해 수행된다.Referring to FIG. 4, character recognition is performed on the print block 210 (S21). Step S21 is performed by the printed character recognition unit 121 of the character recognition unit 120 of the document digital restoration system 100.

인쇄체 문자 인식부 (121) 는 문서 구조 분석부 (110) 로부터의 인쇄체 블록 (210) 에 대한 문자 인식을 수행한다. 인쇄체 문자 인식부 (121) 는 문서 구조 분석부 (110) 로부터 인쇄체 블록 (210) 을 수신하고, 인쇄체 블록 (210) 에 포함된 인쇄체 문자에 대한 문자 인식을 수행한다. 인쇄체 문자 인식부 (121) 의 문자 인식 과정에 대한 보다 상세한 설명을 위해 도 6을 함께 참조한다. The print character recognition unit 121 performs character recognition on the print block 210 from the document structure analysis unit 110. The print character recognizing unit 121 receives the print block 210 from the document structure analyzing unit 110 and performs character recognition on the print character included in the print block 210. [ For a more detailed description of the character recognizing process of the printed character recognition unit 121, refer to Fig.

도 6은 본 발명의 일 실시예에 따른 문서 디지털 복원 시스템의 문자 인식부의 인쇄체 문자 인식부에 대한 개략도이다. 인쇄체 문자 인식부 (121) 는 전처리부 (126), 특징 추출부 (127), 인식부 (128) 및 후처리부 (129) 를 포함한다.6 is a schematic view of a printed character recognition unit of a character recognition unit of a document digital restoration system according to an embodiment of the present invention. The printed character recognition unit 121 includes a preprocessing unit 126, a feature extraction unit 127, a recognition unit 128, and a post-processing unit 129.

인쇄체 문자 인식부 (121) 가 인쇄체 문자에 대한 문자 인식을 수행하기 위해, 먼저, 인쇄체 블록 (210) 에 포함된 문자들에 대한 전처리가 인쇄체 문자 인식부 (121) 의 전처리부 (126) 에 의해 수행된다. 전처리부 (126) 는 인쇄체 블록 (210) 에 포함된 문자의 기울어짐을 교정하고, 인쇄체 블록 (210) 에 포함된 잡티 등의 노이즈를 제거하고, 인쇄체 블록 (210) 에 포함된 문자가 컬러 이미지인 경우 문자 인식을 보다 수월하게 하기 위해 컬러 이미지를 흑백 이미지로 이진화하며, 인쇄체 블록 (210) 에 포함된 문자들에 대해 라인 분할 (line segmentation), 단어 분할 (word segmentation), 문자 분할 (character segmentation) 을 수행하는 등의 다양한 전처리를 수행할 수 있다.The preprocessing of the characters included in the print block 210 is performed by the preprocessing unit 126 of the printed character recognition unit 121 so that the printed character recognition unit 121 recognizes the characters of the printed character . The preprocessing unit 126 corrects inclination of characters included in the print block 210, removes noise such as dirt contained in the print block 210, and determines whether the characters included in the print block 210 are color images A character segmentation process is performed on the characters included in the print block 210. The character segmentation process includes the steps of performing line segmentation, word segmentation, character segmentation, To perform various preprocessing operations.

인쇄체 문자 인식부 (121) 의 특징 추출부 (127) 는 전처리가 완료된 인쇄체 블록 (210) 에 포함된 문자들에 대한 특징을 추출한다.The feature extraction unit 127 of the printed character recognition unit 121 extracts the characteristics of characters included in the preprinted print block 210. [

인쇄체 문자 인식부 (121) 의 인식부 (128) 는 특징 추출부 (127) 에 의해 추출된 문자들에 대한 특징에 기초하여, 구조적 분석이나 신경 회로망과 같은 방법, 통계적 방법 등의 다양한 방법을 사용하여 인쇄체 블록 (210) 에 포함된 문자들에 대한 ASCII 등의 문자 코드를 생성한다.The recognition unit 128 of the printed character recognition unit 121 uses various methods such as a structural analysis, a neural network method, and a statistical method based on the characteristics of the characters extracted by the feature extraction unit 127 And generates a character code such as ASCII for the characters included in the print block 210. [

인쇄체 문자 인식부 (121) 의 후처리부 (129) 는 사전 (dictionary, lexicon) 과 같은 언어 모델링을 이용하여, 인식부 (128) 에 의해 인식된 문자들 중 오인식된 문자를 정확한 문자로 교정한다.The post-processing unit 129 of the printed character recognizing unit 121 calibrates the erroneously recognized character among the characters recognized by the recognizing unit 128 by correct character using language modeling such as dictionary (lexicon).

도 6에 도시되지는 않았지만, 인쇄체 문자 인식부 (121) 는 인식 결과 평가부를 더 포함할 수 있다. 인식 결과 평가부는 인쇄체 문자 인식부 (121) 에서의 문자 인식 결과에 대한 확신의 정도를 산출한다. 예를 들어, 인식 결과 평가부는 문자 인식 결과에 대한 확신의 정도를 수치화하여 산출할 수 있고, 산출 결과가 미리 결정된 임계값 이상인 경우 인식 성공이고, 임계값 미만인 경우 인식 실패인 것으로 판단할 수 있다.Although not shown in Fig. 6, the printed character recognition unit 121 may further include a recognition result evaluation unit. The recognition result evaluating unit calculates the degree of assurance of the character recognition result in the printed character recognition unit (121). For example, the recognition result evaluating unit can calculate the degree of confidence in the character recognition result by numerical calculation, and can determine that recognition is successful if the calculation result is greater than or equal to the predetermined threshold value, and can be determined to be the recognition failure if the calculation result is less than the threshold value.

인쇄체 문자 인식부 (121) 는 인식 결과 평가부의 평가 결과에 기초하여 문자 인식 결과를 필기체 문자 인식부 (122), 디지털 잉크 데이터 생성부 (123) 또는 문서 생성부 (130) 로 전송한다. 인식 결과 평가부에 의한 평가 결과가 인식 성공인 경우, 인쇄체 문자 인식부 (121) 에 의한 인식 결과를 문서 생성부 (130) 로 전송한다. 인식 결과 평가부에 의한 평가 결과가 인식 실패인 경우, 인식에 실패한 인쇄체 블록 (210) 을 필기체 문자 인식부 (122) 또는 디지털 잉크 데이터 생성부 (123) 로 전송한다. 인쇄체 문자 인식부 (121) 에 의한 문자 인식이 실패하였다는 것은, 인쇄체 블록 (210) 에 포함된 문자들의 글자체가 정형화된 인쇄체 글자의 형태와 상이하다는 것을 의미할 수 있다. 따라서, 인쇄체 문자 인식부 (121) 에 의해 문자 인식에 실패한 인쇄체 블록 (210) 에 대한 추가적인 문자 인식을 수행하기 위해, 인쇄체 문자 인식부 (121) 는 인식에 실패한 인쇄체 블록 (210) 을 필기체 문자 인식부 (122) 또는 디지털 잉크 데이터 생성부 (123) 로 전송할 수 있다. 또한, 상술한 바와 같이, 인쇄체 블록 (210) 에 포함된 문자들은 라인 분할, 단어 분할, 및 문자 분할될 수 있으므로, 인쇄체 문자 인식부 (121) 는 분할된 라인, 분할된 단어, 또는 분할된 문자 단위로 문자 인식 성공 여부를 결정할 수 있고, 분할된 라인, 분할된 단어, 또는 분할된 문자 단위로 인쇄체 블록 (210) 에 포함된 문자를 필기체 문자 인식부 (122) 또는 디지털 잉크 데이터 생성부 (123) 로 전송할 수 있다.The printed character recognition unit 121 transmits the character recognition result to the handwritten character recognition unit 122, the digital ink data generation unit 123 or the document generation unit 130 based on the evaluation result of the recognition result evaluation unit. If the evaluation result by the recognition result evaluation unit is successful, the recognition result by the printed matter character recognition unit 121 is transmitted to the document generation unit 130. [ If the evaluation result by the recognition result evaluating unit is a recognition failure, the print block 210 which has failed to be recognized is sent to the handwritten character recognizing unit 122 or the digital ink data generating unit 123. The failure of the character recognizing unit 121 to recognize characters may mean that the characters of the characters included in the print block 210 are different from those of the standard printed characters. Therefore, in order to perform additional character recognition on the print block 210 that failed to recognize the character by the print character recognizing unit 121, the print character recognizing unit 121 recognizes the print block 210 that failed to recognize as a handwritten character recognition To the digital ink data generation unit 123 or the digital ink data generation unit 123. [ In addition, as described above, since the characters included in the print block 210 can be line segmented, word segmented, and character segmented, the printed character recognition unit 121 recognizes the segmented line, segmented word, And the character included in the print block 210 in units of divided lines, divided words, or divided characters is determined by the handwritten character recognition unit 122 or the digital ink data generation unit 123 ).

인쇄체 문자 인식부 (121) 는 선택적으로 구동될 수 있다. 즉, 인쇄체 문자 인식부 (121) 는 인쇄체 블록 (210) 에 대한 문자 인식을 항상 수행하도록 구동될 수도 있고, 인쇄체 블록 (210) 에 대한 문자 인식을 선택적으로 수행하도록 구동될 수도 있다. 인쇄체 문자 인식부 (121) 가 항상 구동되도록 설정된 경우 상술한 바와 같이 인쇄체 블록 (210) 에 대한 문자 인식이 인쇄체 문자 인식부 (121) 에 의해 수행되나, 인쇄체 문자 인식부 (121) 가 선택적으로 구동되어 인쇄체 문자 인식부 (121) 가 구동되지 않도록 설정된 경우, 인쇄체 블록 (210) 은 문서 구조 분석부 (110) 로부터 필기체 문자 인식부 (122) 또는 디지털 잉크 데이터 생성부 (123) 로 전송될 수 있다. The printed character recognition unit 121 can be selectively driven. That is, the print character recognition unit 121 may be driven to always perform character recognition on the print block 210, or may be driven to selectively perform character recognition on the print block 210. [ When the print character recognition unit 121 is set to be always driven, character recognition for the print block 210 is performed by the print character recognition unit 121 as described above. However, when the print character recognition unit 121 is selectively driven The print block 210 may be transmitted from the document structure analyzing unit 110 to the handwritten character recognizing unit 122 or the digital ink data generating unit 123 when the print character recognizing unit 121 is set not to be driven .

다시 도 4 및 도 5를 참조하면, 필기체 블록 (220) 에 대한 문자 인식을 수행한다 (S22). 단계 S22는 문서 디지털 복원 시스템 (100) 의 문자 인식부 (120) 의 필기체 문자 인식부 (122) 에 의해 수행된다.4 and 5, character recognition is performed on the handwritten block 220 (S22). Step S22 is performed by the handwritten character recognition unit 122 of the character recognition unit 120 of the document digital restoration system 100. [

필기체 문자 인식부 (122) 는 문서 구조 분석부 (110) 로부터의 필기체 블록 (220) 에 대한 문자 인식을 수행한다. 필기체 문자 인식부 (122) 는 문서 구조 분석부 (110) 로부터 필기체 블록 (220) 을 수신하고, 필기체 블록 (220) 에 포함된 필기체 문자에 대한 문자 인식을 수행한다. 또한, 상술한 바와 같이 인쇄체 문자 인식부 (121) 에 의해 인쇄체 블록 (210) 에 대한 문자 인식이 실패한 경우, 필기체 문자 인식부 (122) 는 문자 인식에 실패한 인쇄체 블록 (210) 을 수신하고, 인쇄체 블록 (210) 에 포함된 인쇄체 문자를 필기체 문자인 것으로 간주하여 문자 인식을 수행할 수도 있다. 또한, 상술한 바와 같이 인쇄체 문자 인식부 (121) 가 구동되지 않도록 설정된 경우, 필기체 문자 인식부 (122) 는 문서 구조 분석부 (110) 로부터 인쇄체 블록 (210) 을 수신하고, 인쇄체 블록 (210) 에 포함된 인쇄체 문자에 대해서도 문자 인식을 수행할 수도 있다.The handwritten character recognition unit 122 performs character recognition on the handwritten block 220 from the document structure analysis unit 110. [ The handwritten character recognition unit 122 receives the handwritten block 220 from the document structure analysis unit 110 and performs character recognition on handwritten characters included in the handwritten block 220. [ When the character recognition of the print block 210 fails by the print character recognizing unit 121 as described above, the handwritten character recognizing unit 122 receives the print block 210 which has failed to recognize the character, Character recognition may be performed by considering the printed character included in the block 210 as a cursive character. When the printed character recognition unit 121 is set not to be driven as described above, the handwritten character recognition unit 122 receives the printed material block 210 from the document structure analysis unit 110, Character recognition may also be performed on the printed characters included in the text.

필기체 문자 인식부 (122) 는 전처리부, 특징 추출부, 인식부 및 후처리부를 포함할 수 있다. 필기체 문자 인식부 (122) 는 필기체 블록 (220) 에 포함된 문자들에 대한 기울어짐 교정, 노이즈 제거, 흑백 이미지로의 이진화, 라인 분할, 단어 분할, 문자 분할 등과 같은 다양한 전처리를 수행하는 전처리부, 전처리가 완료된 필기체 블록 (220) 에 포함된 문자들에 대한 특징을 추출하는 특징 추출부, 추출된 문자들의 특징에 기초하여 다양한 방법을 사용하여 필기체 블록 (220) 에 포함된 문자들에 대한 문자 코드를 생성하는 인식부, 언어 모델링을 이용하여 오인식된 문자를 교정하는 후처리부를 포함할 수 있다. 필기체 문자 인식부 (122) 의 전처리부, 특징 추출부, 인식부 및 후처리부는 그 처리 대상이 필기체 블록 (220) 에 포함된 문자들이라는 점을 제외하면, 인쇄체 문자 인식부 (121) 의 전처리부 (126), 특징 추출부 (127), 인식부 (128) 및 후처리부 (129) 와 실질적으로 동일한 기능을 수행할 수 있다.The handwritten character recognition unit 122 may include a preprocessor, a feature extraction unit, a recognition unit, and a post-processing unit. The handwritten character recognizing unit 122 includes a preprocessing unit 130 for performing various preprocessing such as skew correction for characters included in the handwritten block 220, noise elimination, binarization to a monochrome image, line segmentation, word segmentation, A feature extracting unit for extracting a feature of characters included in the handwritten block 220 that has been preprocessed, a character extracting unit for extracting characters corresponding to characters included in the handwritten block 220 using various methods based on the extracted characters, A recognition unit for generating a code, and a post-processing unit for correcting the erroneous character using language modeling. The preprocessing unit, the feature extraction unit, the recognition unit, and the post-processing unit of the handwritten character recognition unit 122 are the same as the preprocessing unit 121, except that the processing object is the characters included in the handwritten block 220, The feature extracting unit 127, the recognizing unit 128, and the post-processing unit 129 according to an embodiment of the present invention.

필기체 문자 인식부 (122) 는 인식 결과 평가부를 더 포함할 수 있다. 인식 결과 평가부는 필기체 문자 인식부 (122) 에서의 문자 인식 결과에 대한 확신의 정도를 산출한다. 예를 들어, 인식 결과 평가부는 문자 인식 결과에 대한 확신의 정도를 수치화하여 산출할 수 있고, 산출 결과가 미리 결정된 임계값 이상인 경우 인식 성공이고, 임계값 미만인 경우 인식 실패인 것으로 판단할 수 있다.The handwritten character recognition unit 122 may further include a recognition result evaluation unit. The recognition result evaluation unit calculates the degree of certainty of the character recognition result in the handwritten character recognition unit (122). For example, the recognition result evaluating unit can calculate the degree of confidence in the character recognition result by numerical calculation, and can determine that recognition is successful if the calculation result is greater than or equal to the predetermined threshold value, and can be determined to be the recognition failure if the calculation result is less than the threshold value.

필기체 문자 인식부 (122) 는 인식 결과 평가부의 평가 결과에 기초하여 문자 인식 결과를 디지털 잉크 데이터 생성부 (123) 또는 문서 생성부 (130) 로 전송한다. 인식 결과 평가부에 의한 평가 결과가 인식 성공인 경우, 필기체 문자 인식부 (122) 에 의한 인식 결과를 문서 생성부 (130) 로 전송한다. 인식 결과 평가부에 의한 평가 결과가 인식 실패인 경우, 인식에 실패한 필기체 블록 (220) 을 디지털 잉크 데이터 생성부 (123) 로 전송한다. 필기체 문자 인식부 (122) 에 의한 문자 인식이 실패하였다는 것은, 필기체 블록 (220) 에 포함된 문자들의 글자체가 일반적인 형태와 상이하다는 것을 의미할 수 있다. 따라서, 필기체 문자 인식부 (122) 에 의해 문자 인식에 실패한 필기체 블록 (220) 에 대한 추가적인 문자 인식을 수행하기 위해, 필기체 문자 인식부 (122) 는 인식에 실패한 필기체 블록 (220) 을 디지털 잉크 데이터 생성부 (123) 로 전송할 수 있다. 또한, 상술한 바와 같이, 필기체 블록 (220) 에 포함된 문자들은 라인 분할, 단어 분할, 및 문자 분할될 수 있으므로, 필기체 문자 인식부 (122) 는 분할된 라인, 분할된 단어, 또는 분할된 문자 단위로 문자 인식 성공 여부를 결정할 수 있고, 분할된 라인, 분할된 단어, 또는 분할된 문자 단위로 필기체 블록 (220) 에 포함된 문자를 디지털 잉크 데이터 생성부 (123) 로 전송할 수 있다.The handwritten character recognition unit 122 transmits the character recognition result to the digital ink data generation unit 123 or the document generation unit 130 based on the evaluation result of the recognition result evaluation unit. If the evaluation result by the recognition result evaluating unit is successful, the recognition result by the handwritten character recognizing unit 122 is transmitted to the document generating unit 130. If the evaluation result by the recognition result evaluating unit is a recognition failure, the handwritten block 220 which has failed to be recognized is transmitted to the digital ink data generation unit 123. [ The failure of the recognition of the character by the handwritten character recognition unit 122 may mean that the characters of the characters included in the cursive block 220 are different from the general shape. Therefore, in order to perform additional character recognition on the handwritten block 220 that has failed to recognize the character by the handwritten character recognition unit 122, the handwritten character recognition unit 122 recognizes the handwritten block 220, To the generating unit 123. As described above, since the characters included in the cursive block 220 can be line segmented, word segmented, and character segmented, the handwritten character recognition unit 122 recognizes the segmented line, segmented word, And can transmit characters included in the cursive block 220 to the digital ink data generation unit 123 in units of divided lines, divided words, or divided characters.

필기체 문자 인식부 (122) 는 선택적으로 구동될 수 있다. 즉, 필기체 문자 인식부 (122) 는 필기체 블록 (220) 에 대한 문자 인식, 및 인쇄체 문자 인식부 (121) 의 미구동 및 인쇄체 문자 인식부 (121) 의 인식 실패에 따른 인쇄체 블록 (210) 에 대한 문자 인식을 항상 수행하도록 구동될 수도 있고, 필기체 블록 (220) 에 대한 문자 인식, 및 인쇄체 문자 인식부 (121) 의 미구동 및 인쇄체 문자 인식부 (121) 의 인식 실패에 따른 인쇄체 블록 (210) 에 대한 문자 인식을 선택적으로 수행하도록 구동될 수도 있다. 따라서, 필기체 문자 인식부 (122) 가 항상 구동되도록 설정된 경우 상술한 바와 같이 필기체 블록 (220) 및/또는 인쇄체 블록 (210) 에 대한 문자 인식이 필기체 문자 인식부 (122) 에 의해 수행되나, 필기체 문자 인식부 (122) 가 선택적으로 구동되어 필기체 문자 인식부 (122) 가 구동되지 않도록 설정된 경우, 필기체 블록 (220) 및/또는 인쇄체 블록 (210) 은 디지털 잉크 데이터 생성부 (123) 로 전송될 수 있다.The handwritten character recognition unit 122 can be selectively driven. That is, the handwritten character recognizing unit 122 recognizes the characters in the handwritten block 220, and recognizes that the printed character recognizing unit 121 is not operated and the printed character recognizing unit 121 is not recognized, The character recognition for the handwritten block 220 and the failure to recognize the printed character recognition unit 121 and the printed character recognition unit 121 As shown in FIG. Therefore, when the handwritten character recognition unit 122 is set to be always driven, character recognition for the handwritten block 220 and / or the print block 210 is performed by the handwritten character recognition unit 122 as described above. However, The handwritable block 220 and / or the print block 210 are transmitted to the digital ink data generation unit 123 when the character recognition unit 122 is selectively driven so that the handwritten character recognition unit 122 is not driven .

이어서, 필기체 블록 (220) 에 대한 문자 인식이 실패한 경우, 문자 인식에 실패한 필기체 블록 (220) 에 대한 디지털 잉크 데이터를 생성한다 (S23). 단계 S23은 문서 디지털 복원 시스템 (100) 의 문자 인식부 (120) 의 디지털 잉크 데이터 생성부 (123) 에 의해 수행된다.Then, when the character recognition of the handwritten block 220 fails, the digital ink data for the handwritten block 220 that failed to recognize the character is generated (S23). Step S23 is performed by the digital ink data generation unit 123 of the character recognition unit 120 of the document digital restoration system 100. [

디지털 잉크 데이터 생성부 (123) 는 필기체 문자 인식부 (122) 에서 필기체 블록 (220) 에 대한 문자 인식이 실패한 경우, 문자 인식에 실패한 필기체 블록 (220) 에 대한 디지털 잉크 데이터를 생성한다. 즉, 디지털 잉크 데이터 생성부 (123) 는 필기체 블록 (220) 에 포함된 문자들의 궤적을 복원하여 디지털 잉크 데이터를 생성한다. 디지털 잉크 데이터란, 사용자가 디지타이저 (digitizer) 또는 터치 스크린 디스플레이와 같은 입력 장치 상에 손 또는 스타일러스 (stylus) 등의 입력 수단을 이용해 수기 (手記, handwriting) 하는 과정에서 생성되는 데이터를 의미하며, 입력에 따른 스트로크 (stroke) 를 기초로 생성된 데이터를 의미한다. 스트로크 (stroke) 란, 공간 상의 좌표에 의해 정의되는 일련의 점들의 집합으로 구성된다. 스트로크는, 사용자가 입력을 인가한 때부터 입력이 해제 (release) 된 때까지 입력의 이동 경로를 따라 시간 순서로 정렬된 일련의 점들의 집합일 수 있으나, 반드시 이에 한정되는 것은 아니다. 디지털 잉크 데이터 생성부 (123) 는 필기체 블록 (220) 에 포함된 문자들과 같은 정적인 이미지로부터 동적인 스트로크를 복원하여, 디지털 잉크 데이터를 생성한다.The digital ink data generation unit 123 generates digital ink data for the handwritten block 220 that failed to recognize the character when the handwritten character recognition unit 122 fails to recognize the character for the handwritten block 220. [ That is, the digital ink data generation unit 123 restores the locus of the characters included in the cursive block 220 to generate digital ink data. Digital ink data refers to data generated by a user in a process of handwriting using an input means such as a hand or a stylus on an input device such as a digitizer or a touch screen display, Quot; refers to data generated on the basis of a stroke according to the stroke. A stroke consists of a set of points defined by spatial coordinates. The stroke may be, but is not limited to, a set of points arranged in time sequence along the path of the input from when the user applies the input until the input is released. The digital ink data generation unit 123 restores the dynamic stroke from the static image such as the characters included in the cursive block 220 and generates digital ink data.

디지털 잉크 데이터 생성부 (123) 는 평가부를 더 포함할 수 있다. 평가부는 디지털 잉크 데이터 생성부 (123) 에서의 디지털 잉크 데이터 생성 결과에 대한 확신의 정도를 산출한다. 예를 들어, 평가부는 디지털 잉크 데이터 생성 결과에 대한 확신의 정도를 수치화하여 산출할 수 있고, 산출 결과가 미리 결정된 임계값 이상인 경우 생성 성공이고, 임계값 미만인 경우 생성 실패인 것으로 판단할 수 있다.The digital ink data generation unit 123 may further include an evaluation unit. The evaluation unit calculates the degree of confidence in the digital ink data generation result in the digital ink data generation unit (123). For example, the evaluating unit can calculate the degree of confidence in the digital ink data generation result by numerically calculating it. If the calculation result is greater than or equal to the predetermined threshold value, it is determined that the generation is successful. If the calculation result is less than the threshold value,

디지털 잉크 데이터 생성부 (123) 는 평가부의 평가 결과에 기초하여 디지털 잉크 데이터 또는 이미지를 디지털 잉크 데이터 문자 인식부 (124) 또는 문서 생성부 (130) 로 전송한다. 평가부에 의한 평가 결과가 생성 성공인 경우, 디지털 잉크 데이터 생성부 (123) 에 의한 디지털 잉크 데이터를 디지털 잉크 데이터 문자 인식부 (124) 로 전송한다. 평가부에 의한 평가 결과가 생성 실패인 경우, 생성에 실패한 필기체 블록 (220) 에 포함된 문자를 이미지로 처리하여, 해당 필기체 블록 (220) 또는 해당 필기체 블록 (220) 에 포함된 문자를 이미지로 하여 문서 생성부 (130) 로 전송한다. The digital ink data generation unit 123 transmits the digital ink data or image to the digital ink data character recognition unit 124 or the document generation unit 130 based on the evaluation result of the evaluation unit. If the evaluation result by the evaluation unit is successful, the digital ink data generation unit 123 transfers the digital ink data to the digital ink data character recognition unit 124. The character included in the handwritten block 220 which has failed to be generated is processed as an image and the character included in the handwritten block 220 or the handwritten block 220 is converted into an image And transmits it to the document generation unit 130.

상술한 바와 같이, 필기체 문자 인식부 (122) 는 선택적으로 구동되어, 필기체 문자 인식부 (122) 가 구동되지 않도록 설정될 수 있다. 이 경우, 디지털 잉크 데이터 생성부 (123) 는 문서 구조 분석부 (110) 로부터 필기체 블록 (220) 을 수신하고, 필기체 블록 (220) 에 대한 디지털 잉크 데이터를 생성할 수 있다. As described above, the handwritten character recognition unit 122 is selectively driven so that the handwritten character recognition unit 122 can be set not to be driven. In this case, the digital ink data generation unit 123 may receive the handwritten block 220 from the document structure analysis unit 110 and generate digital ink data for the handwritten block 220.

또한, 필기체 문자 인식부 (122) 가 구동되지 않도록 설정된 경우, 인쇄체 문자 인식부 (121) 에서 문자 인식에 실패한 인쇄체 블록 (210) 은, 상술한 바와 같이 필기체 문자 인식부 (122) 로 전송되는 것이 아니라, 디지털 잉크 데이터 생성부 (123) 로 전송될 수 있다. 이 경우, 디지털 잉크 데이터 생성부 (123) 는 인쇄체 문자 인식부 (121) 에서 문자 인식에 실패한 인쇄체 블록 (210) 을 수신하고, 해당 인쇄체 블록 (210) 에 대한 디지털 잉크 데이터를 생성할 수 있다.When the handwritten character recognizing unit 122 is set not to be driven, the printed character block 210 failed to recognize the character in the printed character recognizing unit 121 is transferred to the handwritten character recognizing unit 122 as described above But may be transmitted to the digital ink data generation unit 123. In this case, the digital ink data generation unit 123 may receive the print block 210 that failed in character recognition in the print character recognition unit 121, and may generate digital ink data for the print block 210.

또한, 인쇄체 문자 인식부 (121) 또한 선택적으로 구동되어, 인쇄체 문자 인식부 (121) 도 구동되지 않도록 설정될 수 있다. 이에 따라, 인쇄체 문자 인식부 (121) 와 필기체 문자 인식부 (122) 둘 모두가 구동되지 않도록 설정된 경우, 문서 이미지 (200) 에 포함된 인쇄체 블록 (210) 및 필기체 블록 (220) 모두는 문서 구조 분석부 (110) 로부터 디지털 잉크 데이터 생성부 (123) 로 전송될 수 있다. 이 경우, 디지털 잉크 데이터 생성부 (123) 는 문서 구조 분석부 (110) 로부터 인쇄체 블록 (210) 및 필기체 블록 (220) 을 수신하고, 해당 인쇄체 블록 (210) 및 필기체 블록 (220) 에 대한 디지털 잉크 데이터를 생성할 수 있다.Also, the printed character recognition unit 121 may be selectively driven so that the printed character recognition unit 121 is not driven. Accordingly, when both the print character recognition unit 121 and the cursive character recognition unit 122 are set not to be driven, both the print block 210 and the handwritten block 220 included in the document image 200 are displayed in the document structure And may be transmitted from the analysis unit 110 to the digital ink data generation unit 123. In this case, the digital ink data generation unit 123 receives the print block 210 and the handwritten block 220 from the document structure analysis unit 110 and generates digital data for the print block 210 and the handwritten block 220 Ink data can be generated.

한편, 인쇄체 문자 인식부 (121) 에서 인쇄체 블록 (210) 에 포함된 문자에 대한 문자 인식에 실패한 경우, 인쇄체 문자 인식부 (121) 는 문자 인식에 실패한 인쇄체 블록 (210) 을 디지털 잉크 데이터 생성부 (123) 로 전송할 수 있다. 이 경우, 디지털 잉크 데이터 생성부 (123) 는 인쇄체 문자 인식부 (121) 에서 문자 인식에 실패한 인쇄체 블록 (210) 을 수신하고, 해당 인쇄체 블록 (210) 에 대한 디지털 잉크 데이터를 생성할 수 있다.On the other hand, when the character recognition unit 121 fails to recognize the characters included in the print block 210, the print character recognition unit 121 outputs the print block 210, which has failed to recognize the character, (123). In this case, the digital ink data generation unit 123 may receive the print block 210 that failed in character recognition in the print character recognition unit 121, and may generate digital ink data for the print block 210.

이어서, 디지털 잉크 데이터를 사용하여 문자 인식을 수행한다 (S24). 단계 S24는 문서 디지털 복원 시스템 (100) 의 문자 인식부 (120) 의 디지털 잉크 데이터 문자 인식부 (124) 에 의해 수행된다.Then, character recognition is performed using the digital ink data (S24). Step S24 is performed by the digital ink data character recognition unit 124 of the character recognition unit 120 of the document digital restoration system 100. [

디지털 잉크 데이터 문자 인식부 (124) 는 디지털 잉크 데이터 생성부 (123) 로부터의 디지털 잉크 데이터를 사용하여 문자 인식을 수행한다. 디지털 잉크 데이터 문자 인식부 (124) 는 디지털 잉크 데이터 생성부 (123) 로부터 디지털 잉크 데이터를 수신하고, 디지털 잉크 데이터에 포함된 스트로크에 기초하여 문자 인식을 수행한다. The digital ink data character recognition unit 124 performs character recognition using the digital ink data from the digital ink data generation unit 123. [ The digital ink data character recognition unit 124 receives the digital ink data from the digital ink data generation unit 123 and performs character recognition based on the strokes included in the digital ink data.

디지털 잉크 데이터 문자 인식부 (124) 는 전처리부, 특징 추출부, 인식부 및 후처리부를 포함할 수 있다. 디지털 잉크 데이터 문자 인식부 (124) 는 디지털 잉크 데이터에 포함된 스트로크에 대한 교정, 크기 정규화 등과 같은 다양한 전처리를 수행하는 전처리부, 전처리가 완료된 스트로크에 대한 특징을 추출하는 특징 추출부, 추출된 특징에 기초하여 다양한 방법을 사용하여 문자들에 대한 문자 코드를 생성하는 인식부, 언어 모델링을 이용하여 오인식된 문자를 교정하는 후처리부를 포함할 수 있다. 디지털 잉크 데이터 문자 인식부 (124) 의 전처리부, 특징 추출부, 인식부 및 후처리부는 그 처리 대상이 디지털 잉크 데이터라는 점을 제외하면, 인쇄체 문자 인식부 (121) 의 전처리부 (126), 특징 추출부 (127), 인식부 (128) 및 후처리부 (129) 와 실질적으로 동일한 기능을 수행할 수 있다.The digital ink data character recognizing unit 124 may include a preprocessing unit, a feature extracting unit, a recognizing unit, and a post-processing unit. The digital ink data character recognizing unit 124 includes a preprocessing unit for performing various preprocessing such as calibration, size normalization and the like for the strokes included in the digital ink data, a feature extracting unit for extracting the features of the preprocessed strokes, A recognition unit for generating a character code for the characters using various methods based on the recognition result, and a post-processing unit for correcting the erroneous character using language modeling. The preprocessing unit, the feature extracting unit, the recognizing unit, and the post-processing unit of the digital ink data character recognizing unit 124 are the same as the preprocessing unit 126, The feature extracting unit 127, the recognizing unit 128, and the post-processing unit 129 according to an embodiment of the present invention.

디지털 잉크 데이터 문자 인식부 (124) 는 인식 결과 평가부를 더 포함할 수 있다. 인식 결과 평가부는 디지털 잉크 데이터 문자 인식부 (124) 에서의 문자 인식 결과에 대한 확신의 정도를 산출한다. 예를 들어, 인식 결과 평가부는 문자 인식 결과에 대한 확신의 정도를 수치화하여 산출할 수 있고, 산출 결과가 미리 결정된 임계값 이상인 경우 인식 성공이고, 임계값 미만인 경우 인식 실패인 것으로 판단할 수 있다.The digital ink data character recognition unit 124 may further include a recognition result evaluation unit. The recognition result evaluation unit calculates the degree of assurance of the character recognition result in the digital ink data character recognition unit (124). For example, the recognition result evaluating unit can calculate the degree of confidence in the character recognition result by numerical calculation, and can determine that recognition is successful if the calculation result is greater than or equal to the predetermined threshold value, and can be determined to be the recognition failure if the calculation result is less than the threshold value.

디지털 잉크 데이터 문자 인식부 (124) 는 인식 결과 평가부의 평가 결과에 기초하여 문자 인식 결과를 문서 생성부 (130) 로 전송한다. 인식 결과 평가부에 의한 평가 결과가 인식 성공인 경우, 디지털 잉크 데이터 문자 인식부 (124) 에 의한 인식 결과를 문서 생성부 (130) 로 전송한다. 인식 결과 평가부에 의한 평가 결과가 인식 실패인 경우, 인식에 디지털 잉크 데이터를 문서 생성부 (130) 로 전송한다. The digital ink data character recognition unit 124 transmits the character recognition result to the document generation unit 130 based on the evaluation result of the recognition result evaluation unit. If the evaluation result by the recognition result evaluation unit is successful, the recognition result by the digital ink data character recognition unit 124 is transmitted to the document generation unit 130. [ If the evaluation result by the recognition result evaluation unit is a recognition failure, the digital ink data is transmitted to the document generation unit 130 for recognition.

인쇄체 블록 (210) 에 대한 문자 인식을 수행하는 것과, 필기체 블록 (220) 에 대한 문자 인식을 수행하는 것과, 디지털 잉크 데이터를 생성하는 것과, 디지털 잉크 데이터를 사용하여 문자 인식을 수행하는 것은 순차적으로 수행될 수 있다. 즉, 인쇄체 문자 인식부 (121) 에 의한 인쇄체 블록 (210) 에 대한 문자 인식이 수행되고, 그 후 필기체 문자 인식부 (122) 에 의한 필기체 블록 (220) 에 대한 문자 인식이 수행되고, 그 후 디지털 잉크 데이터 생성부 (123) 에 의해 문자 인식에 실패한 필기체 블록 (220) 에 대한 디지털 잉크 데이터가 생성되고, 그 후 디지털 잉크 데이터 문자 인식부 (124) 에 의해 디지털 잉크 데이터를 사용하여 문자 인식이 수행될 수 있다. Performing character recognition for the print block 210, performing character recognition for the cursive block 220, generating digital ink data, and performing character recognition using digital ink data, . That is, character recognition for the print block 210 by the printed character recognition unit 121 is performed, character recognition for the handwritten block 220 by the handwritten character recognition unit 122 is performed, The digital ink data generating unit 123 generates digital ink data for the pen body block 220 that failed in character recognition and then the digital ink data character recognizing unit 124 recognizes the character using the digital ink data .

한편, 인쇄체 블록 (210) 에 대한 문자 인식을 수행하는 것과, 필기체 블록 (220) 에 대한 문자 인식을 수행하는 것과, 디지털 잉크 데이터를 생성하는 것과, 디지털 잉크 데이터를 사용하여 문자 인식을 수행하는 것은 병렬적으로 수행될 수 있다. 즉, 인쇄체 문자 인식부 (121) 에 의한 인쇄체 블록 (210) 에 대한 문자 인식이 수행되고, 필기체 문자 인식부 (122) 에 의한 필기체 블록 (220) 에 대한 문자 인식이 수행되고, 디지털 잉크 데이터 생성부 (123) 에 의해 문자 인식에 실패한 필기체 블록 (220) 에 대한 디지털 잉크 데이터가 생성되고, 디지털 잉크 데이터 문자 인식부 (124) 에 의해 디지털 잉크 데이터를 사용하여 문자 인식이 수행되는 것은 동시에 수행될 수 있다.On the other hand, performing character recognition for the print block 210, performing character recognition for the cursive block 220, generating digital ink data, and performing character recognition using digital ink data Can be performed in parallel. That is, character recognition for the print block 210 is performed by the print character recognition unit 121, character recognition for the handwritten block 220 by the handwritten character recognition unit 122 is performed, The digital ink data for the handwritten block 220 that failed in character recognition by the digital ink data character recognition unit 124 is generated and the character recognition using the digital ink data by the digital ink data character recognition unit 124 is performed simultaneously .

다시 도 1 및 도 2를 참조하면, 문자 인식 결과 및 그림 블록 (230) 에 기초하여, 문서 이미지 (200) 에 대한 문서를 생성한다 (S30). 단계 S30은 문서 디지털 복원 시스템 (100) 의 문서 생성부 (130) 에 의해 수행된다.Referring again to FIGS. 1 and 2, a document for the document image 200 is generated based on the character recognition result and the image block 230 (S30). Step S30 is performed by the document generation unit 130 of the document digital restoration system 100. [

문서 생성부 (130) 는 문자 인식부 (120) 의 인쇄체 문자 인식부 (121), 필기체 문자 인식부 (122) 및 디지털 잉크 데이터 문자 인식부 (124) 로부터의 문자 인식 결과, 및 문서 구조 분석부 (110) 로부터의 그림 블록 (230) 에 기초하여 문서 이미지 (200) 에 대한 문서를 생성한다. 문서 생성부 (130) 는 문자 인식부 (120) 의 인쇄체 문자 인식부 (121) 로부터의 인쇄체 블록 (210) 에 대한 문자 인식 결과, 문자 인식부 (120) 의 필기체 문자 인식부 (122) 로부터의 필기체 블록 (220) 에 대한 문자 인식 결과, 및 문자 인식부 (120) 의 디지털 잉크 데이터 문자 인식부 (124) 로부터의 디지털 잉크 데이터에 대한 문자 인식 결과를 수신하며, 문자 인식 결과는 텍스트로서 사용될 수 있다. 또한, 문서 생성부 (130) 는 문서 구조 분석부 (110) 에 의해 분류된 문서 이미지 (200) 의 그림 블록 (230) 을 수신하고, 문자 인식부 (120) 에서 문자 인식이 실패한 경우, 문서 생성부 (130) 는 해당 문자에 대한 디지털 잉크 데이터를 수신하며, 그림 블록 (230) 과 디지털 잉크 데이터는 이미지로서 사용될 수 있다.The document generation unit 130 generates character recognition results from the print character recognition unit 121, the handwritten character recognition unit 122 and the digital ink data character recognition unit 124 of the character recognition unit 120, And generates a document for the document image 200 based on the image block 230 from the image processor 110. The document generation unit 130 generates a character recognition result for the printed material block 210 from the printed character recognition unit 121 of the character recognition unit 120 and a character recognition result from the written character recognition unit 122 of the character recognition unit 120 A character recognition result for the cursive block 220 and a character recognition result for the digital ink data from the digital ink data character recognition unit 124 of the character recognition unit 120. The character recognition result can be used as text have. The document generation unit 130 receives the image block 230 of the document image 200 classified by the document structure analysis unit 110. If the character recognition unit 120 fails in character recognition, The block 130 receives the digital ink data for the character, and the block 230 and the digital ink data can be used as the image.

문서 생성부 (130) 는 문자 인식부 (120) 로부터 수신한 문자 인식 결과 및 문서 구조 분석부 (110) 로부터 수신한 그림 블록 (230) 에 기초하여 문서를 생성한다. 문서 생성부 (130) 에 의해 생성될 수 있는 문서는 디지털 문서로서 XML (eXtensible Markup Language) 나 마이크로소프트 Word, PDF (Portable Document Format) 등의 다양한 파일 포맷의 문서일 수 있다. 문서 생성부 (130) 에 의해 생성된 문서는 메모리에 저장될 수 있고, 추후에 다른 시스템이나 응용 프로그램과 연계되어 이용될 수도 있다.The document generation unit 130 generates a document based on the character recognition result received from the character recognition unit 120 and the picture block 230 received from the document structure analysis unit 110. [ The document that can be generated by the document generation unit 130 may be a document in various file formats such as XML (eXtensible Markup Language), Microsoft Word, and PDF (Portable Document Format) as digital documents. The document generated by the document generation unit 130 may be stored in a memory, and may be used in conjunction with other systems or application programs at a later time.

본 발명의 일 실시예에 따른 문서 디지털 복원 시스템 및 방법은 인쇄체 블록에 대한 인식 및 필기체 블록에 대한 인식뿐만 아니라, 온라인 문자 인식 방식인 디지털 잉크 데이터를 사용한 문자 인식을 함께 사용하여, 문서 이미지에 대한 문자 인식률을 높일 수 있을 뿐만 아니라, 문자 인식 결과에 이미지가 포함되는 것을 최소화하여 편집의 용이성을 높일 수 있다.The document digital restoration system and method according to an embodiment of the present invention can be used not only for recognition of print blocks and handwritten blocks but also for character recognition using digital ink data which is an online character recognition method, It is possible not only to increase the character recognition rate but also to minimize the inclusion of the image in the character recognition result, thereby improving the ease of editing.

본 명세서에 개시된 실시예들과 관련하여 설명된 방법 또는 알고리즘의 단계는 프로세서에 의해 실행되는 하드웨어, 소프트웨어 모듈 또는 그 2개의 결합으로 직접 구현될 수도 있다. 소프트웨어 모듈은 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터, 하드 디스크, 착탈형 디스크, CD-ROM 또는 당업계에 알려진 임의의 다른 형태의 저장 매체에 상주할 수도 있다. 예시적인 저장 매체는 프로세서에 커플링되며, 그 프로세서는 저장 매체로부터 정보를 판독할 수 있고 저장 매체에 정보를 기입할 수 있다. 다른 방법으로, 저장 매체는 프로세서와 일체형일 수도 있다. 프로세서 및 저장 매체는 주문형 집적회로 (ASIC) 내에 상주할 수도 있다. ASIC는 사용자 단말기 내에 상주할 수도 있다. 다른 방법으로, 프로세서 및 저장 매체는 사용자 단말기 내에 개별 컴포넌트로서 상주할 수도 있다.The steps of a method or algorithm described in connection with the embodiments disclosed herein may be embodied directly in hardware, in a software module executed by a processor, or in a combination of the two. The software module may reside in a RAM memory, a flash memory, a ROM memory, an EPROM memory, an EEPROM memory, a register, a hard disk, a removable disk, a CD-ROM or any other form of storage medium known in the art. An exemplary storage medium is coupled to the processor, which is capable of reading information from, and writing information to, the storage medium. Alternatively, the storage medium may be integral with the processor. The processor and the storage medium may reside within an application specific integrated circuit (ASIC). The ASIC may reside within the user terminal. Alternatively, the processor and the storage medium may reside as discrete components in a user terminal.

이상으로 실시예를 들어 본 발명을 더욱 상세하게 설명하였으나, 본 발명은 반드시 이러한 실시예로 국한되는 것은 아니고, 본 발명의 기술사상을 벗어나지 않는 범위 내에서 다양하게 변형실시될 수 있다. 따라서 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.While the present invention has been particularly shown and described with reference to exemplary embodiments thereof, it is to be understood that the present invention is not limited to the disclosed exemplary embodiments, but various changes and modifications may be made without departing from the spirit and scope of the invention. Therefore, the embodiments disclosed in the present invention are not intended to limit the scope of the present invention but to limit the scope of the technical idea of the present invention. The scope of protection of the present invention should be construed according to the following claims, and all technical ideas within the scope of equivalents should be construed as falling within the scope of the present invention.

110: 문서 구조 분석부
120: 문자 인식부
121: 인쇄체 문자 인식부
122: 필기체 문자 인식부
123: 디지털 잉크 데이터 생성부
124: 디지털 잉크 데이터 문자 인식부
126: 전처리부
127: 특징 추출부
128: 인식부
129: 후처리부
130: 문서 생성부
100: 문서 디지털 복원 시스템
200: 문서 이미지
210: 인쇄체 블록
220: 필기체 블록
230: 그림 블록
110: document structure analysis section
120: Character recognition unit
121: Printed character recognition unit
122: Handwritten character recognition unit
123: Digital ink data generation unit
124: Digital ink data character recognition unit
126:
127: Feature extraction unit
128:
129: Post-
130:
100: Document Digital Restoration System
200: Document image
210: print block
220: Handwriting Block
230: picture block

Claims (14)

문서 이미지를 분석하여, 상기 문서 이미지로부터 인쇄체 블록, 필기체 블록, 및 그림 블록을 분류하는 문서 구조 분석부;
상기 인쇄체 블록에 대한 문자 인식을 수행하는 인쇄체 문자 인식부, 상기 필기체 블록에 대한 문자 인식을 수행하는 필기체 문자 인식부, 상기 필기체 문자 인식부가 문자 인식에 실패한 경우, 문자 인식에 실패한 필기체 블록에 대한 디지털 잉크 데이터를 생성하는 디지털 잉크 데이터 생성부, 및 상기 디지털 잉크 데이터를 사용하여 문자 인식을 수행하는 디지털 잉크 데이터 문자 인식부를 포함하는, 상기 인쇄체 블록 및 상기 필기체 블록 각각에 대한 문자 인식을 수행하는 문자 인식부; 및
상기 문자 인식부로부터의 문자 인식 결과 및 상기 그림 블록에 기초하여 상기 문서 이미지에 대한 문서를 생성하는 문서 생성부를 포함하는 것을 특징으로 하는, 문서 디지털 복원 시스템.
A document structure analyzer for analyzing a document image and classifying a print block, a handwritten block, and a picture block from the document image;
A handwritten character recognizing unit for recognizing characters of the handwritten block; a handwritten character recognizing unit for recognizing a handwritten block which has failed in character recognition if the handwritten character recognizing unit fails in character recognition; A digital ink data generation unit for generating ink data, and a digital ink data character recognition unit for performing character recognition using the digital ink data, wherein the character recognition unit performs character recognition for each of the print block and the handwritten block part; And
And a document generation unit for generating a character recognition result from the character recognition unit and a document for the document image based on the picture block.
제1항에 있어서,
상기 문서 이미지를 입력받는 입력부를 더 포함하고,
상기 입력부는 스캐너 또는 카메라인 것을 특징으로 하는, 문서 디지털 복원 시스템.
The method according to claim 1,
Further comprising an input unit for receiving the document image,
Wherein the input unit is a scanner or a camera.
제1항에 있어서,
상기 인쇄체 문자 인식부는 상기 인쇄체 블록 중 문자 인식에 실패한 인쇄체 블록을 상기 필기체 문자 인식부 또는 상기 디지털 잉크 데이터 생성부로 전송하고,
상기 필기체 문자 인식부는 상기 인쇄체 문자 인식부로부터 수신한 인쇄체 블록에 대한 문자 인식을 더 수행하는 것을 것을 특징으로 하는, 문서 디지털 복원 시스템.
The method according to claim 1,
The print character recognizing unit transmits a print block which failed in character recognition among the print block to the handwritten character recognizing unit or the digital ink data generating unit,
Wherein the handwritten character recognition unit further performs character recognition on the print block received from the print character recognition unit.
제3항에 있어서,
상기 필기체 문자 인식부는 상기 필기체 블록 중 문자 인식에 실패한 필기체 블록, 또는 상기 인쇄체 문자 인식부로부터 수신한 인쇄체 블록 중 문자 인식에 실패한 인쇄체 블록을 상기 디지털 잉크 데이터 생성부로 전송하고,
상기 디지털 잉크 데이터 생성부는 상기 인쇄체 문자 인식부로부터 수신한 인쇄체 블록, 상기 필기체 문자 인식부로부터 수신한 필기체 블록 또는 상기 필기체 문자 인식부로부터 수신한 인쇄체 블록에 대한 디지털 잉크 데이터를 더 생성하는 것을 특징으로 하는, 문서 디지털 복원 시스템.
The method of claim 3,
Wherein the handwritten character recognition unit transmits to the digital ink data generation unit a printed matter block in which a character recognition failure in the handwritten character block or a character block in the printed matter block received from the printed character recognition unit fails,
The digital ink data generation unit may further generate digital ink data for a print block received from the print character recognition unit, a handwritable block received from the handwritten character recognition unit, or a print block received from the handwritten character recognition unit , A digital restoration system for documents.
제1항에 있어서,
상기 인쇄체 문자 인식부, 상기 필기체 문자 인식부, 상기 디지털 잉크 데이터 생성부, 및 상기 디지털 잉크 데이터 문자 인식부는 상기 인쇄체 문자 인식부, 상기 필기체 문자 인식부, 상기 디지털 잉크 데이터 생성부, 및 상기 디지털 잉크 데이터 문자 인식부의 순서로 순차적으로 구동되는 것을 특징으로 하는, 문서 디지털 복원 시스템.
The method according to claim 1,
The digital ink data character recognition unit, the handwritten character recognition unit, the digital ink data generation unit, and the digital ink data character recognition unit may include the print character recognition unit, the handwritten character recognition unit, the digital ink data generation unit, And a data character recognizing unit are sequentially driven in this order.
제1항에 있어서,
상기 인쇄체 문자 인식부, 상기 필기체 문자 인식부, 상기 디지털 잉크 데이터 생성부, 및 상기 디지털 잉크 데이터 문자 인식부는 병렬적으로 구동되는 것을 특징으로 하는, 문서 디지털 복원 시스템.
The method according to claim 1,
Wherein the digital character data recognizing unit, the printed character recognizing unit, the handwritten character recognizing unit, the digital ink data generating unit, and the digital ink data character recognizing unit are driven in parallel.
제1항에 있어서,
상기 인쇄체 문자 인식부 및 상기 필기체 문자 인식부는 선택적으로 구동되는 것을 특징으로 하는, 문서 디지털 복원 시스템.
The method according to claim 1,
Wherein the printed character recognition unit and the handwritten character recognition unit are selectively activated.
제1항에 있어서,
상기 인쇄체 문자 인식부, 상기 필기체 문자 인식부 및 상기 디지털 잉크 데이터 문자 인식부는 문자 인식을 위해 전처리 공정, 특징 추출 공정, 인식 공정, 및 후처리 공정을 사용하는 것을 특징으로 하는, 문서 디지털 복원 시스템.
The method according to claim 1,
Wherein the print character recognition unit, the handwritten character recognition unit, and the digital ink data character recognition unit use a preprocessing process, a feature extraction process, a recognition process, and a post-process process for character recognition.
제1항에 있어서,
상기 디지털 잉크 데이터 문자 인식부는 문자 인식에 실패한 경우, 상기 디지털 잉크 데이터를 상기 문서 생성부로 전송하는 것을 특징으로 하는, 문서 디지털 복원 시스템.
The method according to claim 1,
Wherein the digital ink data character recognition unit transmits the digital ink data to the document generation unit when the character recognition fails.
문서 이미지를 분석하여, 상기 문서 이미지로부터 인쇄체 블록, 필기체 블록, 및 그림 블록을 분류하는 단계;
상기 인쇄체 블록에 대한 문자 인식을 수행하는 단계, 상기 필기체 블록에 대한 문자 인식을 수행하는 단계, 상기 필기체 블록에 대한 문자 인식이 실패한 경우, 문자 인식에 실패한 필기체 블록에 대한 디지털 잉크 데이터를 생성하는 단계, 및 상기 디지털 잉크 데이터를 사용하여 문자 인식을 수행하는 단계를 포함하는, 상기 인쇄체 블록 및 상기 필기체 블록 각각에 대한 문자 인식을 수행하는 단계; 및
상기 문자 인식을 수행하는 단계의 문자 인식 결과 및 상기 그림 블록에 기초하여, 상기 문서 이미지에 대한 문서를 생성하는 단계를 포함하는 것을 특징으로 하는, 문서 디지털 복원 시스템에 의해 수행되는 문서 디지털 복원 방법.
Analyzing the document image to classify a print block, a handwritten block, and a picture block from the document image;
Performing character recognition on the print block, performing character recognition on the handwritten block, generating digital ink data for a handwritten block failed in character recognition if the character recognition on the handwritten block fails Performing character recognition on each of the print block and the handwritten block, and performing character recognition using the digital ink data; And
And generating a document for the document image based on the character recognition result of the character recognition step and the picture block.
제10항에 있어서,
상기 필기체 블록에 대한 문자 인식을 수행하는 단계는 상기 인쇄체 블록에 대한 문자 인식에 실패한 경우 문자 인식에 실패한 인쇄체 블록에 대한 문자 인식을 수행하는 단계를 더 포함하는 것을 특징으로 하는, 문서 디지털 복원 시스템에 의해 수행되는 문서 디지털 복원 방법.
11. The method of claim 10,
Wherein the step of performing character recognition on the cursive block further comprises performing character recognition on a print block that fails to recognize the character when the character recognition on the print block fails. A method of digital restoration performed by a document.
제10항에 있어서,
상기 디지털 잉크 데이터를 생성하는 단계는, 상기 인쇄체 블록에 대한 문자 인식에 실패한 경우 문자 인식에 실패한 인쇄체 블록에 대한 디지털 잉크 데이터를 생성하는 단계, 또는 상기 필기체 블록에 대한 문자 인식에 실패한 경우 문자 인식에 실패한 필기체 블록에 대한 디지털 잉크데이터를 생성하는 단계 중 적어도 하나를 포함하는 것을 특징으로 하는, 문서 디지털 복원 시스템에 의해 수행되는 문서 디지털 복원 방법.
11. The method of claim 10,
Wherein the step of generating digital ink data comprises the steps of generating digital ink data for a print block which fails to recognize a character when the character recognition for the print block fails, And generating digital ink data for the failed handwritten block. ≪ Desc / Clms Page number 19 >
제10항에 있어서,
상기 인쇄체 블록에 대한 문자 인식을 수행하는 단계, 상기 필기체 블록에 대한 문자 인식을 수행하는 단계, 상기 디지털 잉크 데이터를 생성하는 단계, 및 상기 디지털 잉크 데이터를 사용하여 문자 인식을 수행하는 단계는 병렬적으로 수행되는 것을 특징으로 하는, 문서 디지털 복원 시스템에 의해 수행되는 문서 디지털 복원 방법.
11. The method of claim 10,
Performing character recognition on the print block, performing character recognition on the handwritten block, generating the digital ink data, and performing character recognition using the digital ink data are performed in parallel Wherein the digital restoration is performed with a document digital restoration system.
문서 이미지를 분석하여, 상기 문서 이미지로부터 인쇄체 블록, 필기체 블록, 및 그림 블록을 분류하게 하고,
상기 인쇄체 블록에 대한 문자 인식을 수행하게 하고, 상기 필기체 블록에 대한 문자 인식을 수행하게 하고, 상기 필기체 블록에 대한 문자 인식이 실패한 경우, 실패된 상기 필기체 블록에 대한 디지털 잉크 데이터를 생성하게 하고, 상기 디지털 잉크 데이터를 사용하여 문자 인식을 수행하게 하여, 상기 인쇄체 블록 및 상기 필기체 블록 각각에 대한 문자 인식을 수행하게 하고,
상기 문자 인식을 수행하는 단계의 문자 인식 결과 및 상기 그림 블록에 기초하여, 상기 문서 이미지에 대한 문서를 생성하게 하는 명령어들의 세트를 포함하는 것을 특징으로 하는, 컴퓨터 판독가능 기록매체.


Analyzing the document image to classify the print block, the handwritten block, and the picture block from the document image,
The digital ink data for the failed handwritten block is generated when the character recognition for the handwritten block is failed, the digital ink data for the failed handwritten block is generated, Performing character recognition using the digital ink data to perform character recognition on each of the print block and the handwritten block,
And a set of instructions for generating a document for the document image based on the character recognition result of performing the character recognition and the picture block.


KR1020130099293A 2013-08-21 2013-08-21 System and method for restoring digital documents KR101498546B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020130099293A KR101498546B1 (en) 2013-08-21 2013-08-21 System and method for restoring digital documents

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130099293A KR101498546B1 (en) 2013-08-21 2013-08-21 System and method for restoring digital documents

Publications (2)

Publication Number Publication Date
KR20150021846A KR20150021846A (en) 2015-03-03
KR101498546B1 true KR101498546B1 (en) 2015-03-04

Family

ID=53020063

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130099293A KR101498546B1 (en) 2013-08-21 2013-08-21 System and method for restoring digital documents

Country Status (1)

Country Link
KR (1) KR101498546B1 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102043693B1 (en) * 2018-09-28 2019-11-12 김지성 Machine learning based document management system
KR102125056B1 (en) * 2019-03-26 2020-06-19 부산대학교 산학협력단 System and Method for Generating Character and Book for Mixed Character Automatic Recognition and System and Method for Searching using same
CN113837129B (en) * 2021-09-29 2023-10-03 平安科技(深圳)有限公司 Method, device, equipment and storage medium for identifying wrongly written characters of handwritten signature

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080068776A (en) * 2007-01-20 2008-07-24 삼성전자주식회사 Multi-function device and control method thereof

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080068776A (en) * 2007-01-20 2008-07-24 삼성전자주식회사 Multi-function device and control method thereof

Also Published As

Publication number Publication date
KR20150021846A (en) 2015-03-03

Similar Documents

Publication Publication Date Title
US11663817B2 (en) Automated signature extraction and verification
US10671892B1 (en) Apparatuses, methods, and systems for 3-channel dynamic contextual script recognition using neural network image analytics and 4-tuple machine learning with enhanced templates and context data
TWI606406B (en) Methods, apparatus, and tangible computer readable storage media to extract text from imaged documents
CN111753717B (en) Method, device, equipment and medium for extracting structured information of text
JP4694613B2 (en) Document orientation determination apparatus, document orientation determination method, program, and recording medium therefor
CN107451582A (en) A kind of graphics context identifying system and its recognition methods
US20140023275A1 (en) Redundant aspect ratio decoding of devanagari characters
US11694459B2 (en) On-device partial recognition systems and methods
KR20130066819A (en) Apparus and method for character recognition based on photograph image
US10452943B2 (en) Information processing apparatus, control method of information processing apparatus, and storage medium
US9396389B2 (en) Techniques for detecting user-entered check marks
US20180174324A1 (en) Image processing apparatus for clipping and sorting images from read image according to cards and control method therefor
KR101498546B1 (en) System and method for restoring digital documents
Hossain et al. Optical character recognition based on template matching
CN111476090B (en) Watermark identification method and device
CN112232282A (en) Gesture recognition method and device, storage medium and electronic equipment
WO2023051384A1 (en) Display method, information sending method, and electronic device
CN112396057A (en) Character recognition method and device and electronic equipment
US9342739B2 (en) Character recognition apparatus, non-transitory computer readable medium, and character recognition method
JP2008219800A (en) Writing extraction method, writing extracting device, and writing extracting program
JP7532124B2 (en) Information processing device, information processing method, and program
JP4083723B2 (en) Image processing device
US20240112348A1 (en) Edge identification of documents within captured image
CN116959016A (en) Document detection method, device, terminal equipment and storage medium
Rodriguez et al. A pen-based interface for real-time document edition

Legal Events

Date Code Title Description
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20180206

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20190129

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20200211

Year of fee payment: 6