KR101498546B1 - System and method for restoring digital documents - Google Patents
System and method for restoring digital documents Download PDFInfo
- Publication number
- KR101498546B1 KR101498546B1 KR1020130099293A KR20130099293A KR101498546B1 KR 101498546 B1 KR101498546 B1 KR 101498546B1 KR 1020130099293 A KR1020130099293 A KR 1020130099293A KR 20130099293 A KR20130099293 A KR 20130099293A KR 101498546 B1 KR101498546 B1 KR 101498546B1
- Authority
- KR
- South Korea
- Prior art keywords
- character recognition
- block
- unit
- handwritten
- ink data
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000007781 pre-processing Methods 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 8
- 238000011156 evaluation Methods 0.000 description 26
- 238000004458 analytical method Methods 0.000 description 15
- 238000004364 calculation method Methods 0.000 description 11
- 238000012805 post-processing Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 230000011218 segmentation Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000012015 optical character recognition Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012916 structural analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
Landscapes
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Character Discrimination (AREA)
Abstract
본 발명은 문서 디지털 복원 시스템 및 방법에 관한 것으로서, 본 발명에 따른 문서 디지털 복원 방법은 문서 이미지를 분석하여, 문서 이미지로부터 인쇄체 블록, 필기체 블록, 및 그림 블록을 분류하는 단계; 인쇄체 블록에 대한 문자 인식을 수행하는 단계, 필기체 블록에 대한 문자 인식을 수행하는 단계, 필기체 블록에 대한 문자 인식이 실패한 경우, 문자 인식에 실패한 필기체 블록에 대한 디지털 잉크 데이터를 생성하는 단계, 및 디지털 잉크 데이터를 사용하여 문자 인식을 수행하는 단계를 포함하는, 인쇄체 블록 및 필기체 블록 각각에 대한 문자 인식을 수행하는 단계; 및 문자 인식을 수행하는 단계의 문자 인식 결과 및 그림 블록에 기초하여, 문서 이미지에 대한 문서를 생성하는 단계를 포함하고, 문서 이미지에 대한 문자 인식률을 높일 수 있을 뿐만 아니라, 문자 인식 결과에 이미지가 포함되는 것을 최소화하여 편집의 용이성을 높일 수 있다.The present invention relates to a document digital restoration system and method, and a document digital restoration method according to the present invention comprises the steps of classifying a print block, a handwritten block and a picture block from a document image by analyzing a document image; Generating digital ink data for a handwritten block that fails in character recognition when the character recognition for the handwritten block fails, and generating digital ink data for the handwritten block, Performing character recognition on each of the print block and the handwritten block, including performing character recognition using ink data; And a step of generating a document for the document image based on the character recognition result and the picture block in the step of performing the character recognition. In addition, not only the character recognition rate for the document image can be increased, It is possible to minimize the inclusion and enhance the ease of editing.
Description
본 발명은 문서 디지털 복원 시스템 및 방법에 관한 것으로서, 보다 상세하게는 인쇄체, 필기체 및 그림이 혼합된 문서 이미지를 문서로 복원하는 문서 디지털 복원 시스템 및 방법에 관한 것이다.BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a document digital restoration system and method, and more particularly, to a document digital restoration system and method for restoring a document image obtained by mixing a printed matter, a writing body, and a picture into a document.
최근 스마트폰, 태블릿 PC, 노트북 등과 같은 카메라가 내장된 전자 장치의 보급이 증가하면서, 스캐너로 스캔하여 획득한 이미지로부터 문자나 그림을 찾아서 디지털 문서로 복원하는 기술뿐만 아니라, 회의록 등과 같은 오프라인 문서, 길거리의 안내판, 또는 음식점의 메뉴판과 같은 인쇄체 및/또는 필기체 문자를 포함하는 문서를 카메라로 촬영하여 이미지로 보관하거나, 촬영 이미지를 문자 인식하여 문서 파일로 보관하며 편집할 수 있는 기술에 대한 요구가 증가하고 있다.Recently, electronic devices having cameras such as smart phones, tablet PCs, and notebooks have been increasing in popularity. In addition to technologies for retrieving characters or pictures from scanned images and restoring them as digital documents, offline documents such as minutes, A demand for a technique of photographing a document including a printed matter such as a signboard on the street or a menu plate of a restaurant and / or a handwritten character and storing the image as an image or storing the captured image as a character file, Is increasing.
종이나 이미지로 된 문서를 인식하여 텍스트로 변환하여 디지털 문서로 복원하는 OCR (Optical Character Reader) 기술은 인쇄체 문자를 대상으로 해서는 인식률이 높은 편이다. 그러나, 오프라인 필기체 문자의 경우, 문자의 형태가 정형화되어 있지 않아서 문자 인식 난이도가 매우 높고, OCR 기술을 통한 문자 인식률 또한 매우 낮은 편이다. 따라서, 필기체 문자가 있는 문서 이미지의 경우는 필기체 문자를 이미지로 취급하여 편집을 하나 이러한 문자 인식 방법은 여러 가지로 불편한 점이 많다.
[관련기술문헌]
필기 인식 시스템 및 이를 이용한 필기 인식 방법 (한국특허출원번호 제 10-2011-0089500 호)The OCR (Optical Character Reader) technology that recognizes a document or image and converts it into text and restores it as a digital document has a high recognition rate for printed characters. However, in the case of off-line handwritten characters, the character type is not standardized, so the difficulty of character recognition is very high, and the character recognition rate through OCR technology is also very low. Therefore, in the case of a document image with handwritten characters, the handwritten character is treated as an image and edited. However, many of such character recognition methods are inconvenient.
[Related Technical Literature]
A handwriting recognition system and a handwriting recognition method using the same (Korean Patent Application No. 10-2011-0089500)
이에, 본 발명이 해결하고자 하는 과제는 인쇄체 문자, 필기체 문자 및 그림이 혼합된 문서 이미지에 대한 문자 인식률을 높일 수 있는 문서 디지털 복원 시스템 및 방법을 제공하는 것이다.SUMMARY OF THE INVENTION Accordingly, it is an object of the present invention to provide a document digital restoration system and method capable of enhancing a character recognition rate for a document image in which a printed character, a cursive character, and a picture are mixed.
본 발명이 해결하고자 하는 다른 과제는 문서 이미지에 대한 문자 인식 결과에 이미지가 포함되는 것을 최소화하여 편집의 용이성을 높일 수 있는 문서 디지털 복원 시스템 및 방법을 제공하는 것이다.Another object of the present invention is to provide a document digital restoration system and method which can enhance the easiness of editing by minimizing the inclusion of an image in a character recognition result of a document image.
본 발명의 과제들은 이상에서 언급한 과제들로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.The problems of the present invention are not limited to the above-mentioned problems, and other problems not mentioned can be clearly understood by those skilled in the art from the following description.
전술한 바와 같은 과제를 해결하기 위하여 본 발명의 일 실시예에 따른 문서 디지털 복원 시스템은 문서 이미지를 분석하여, 문서 이미지로부터 인쇄체 블록, 필기체 블록, 및 그림 블록을 분류하는 문서 구조 분석부, 인쇄체 블록에 대한 문자 인식을 수행하는 인쇄체 문자 인식부, 필기체 블록에 대한 문자 인식을 수행하는 필기체 문자 인식부, 필기체 문자 인식부가 문자 인식에 실패한 경우, 문자 인식에 실패한 필기체 블록에 대한 디지털 잉크 데이터를 생성하는 디지털 잉크 데이터 생성부, 및 디지털 잉크 데이터를 사용하여 문자 인식을 수행하는 디지털 잉크 데이터 문자 인식부를 포함하는, 인쇄체 블록 및 필기체 블록 각각에 대한 문자 인식을 수행하는 문자 인식부, 및 문자 인식부로부터의 문자 인식 결과 및 그림 블록에 기초하여 문서 이미지에 대한 문서를 생성하는 문서 생성부를 포함하는 것을 특징으로 한다. According to an aspect of the present invention, there is provided a document digital restoration system for analyzing a document image and analyzing the document image to classify a print block, a handwritten block, and a picture block from a document image, A handwritten character recognition unit for performing character recognition on a cursive block, and a handwritten character recognition unit for generating digital ink data for a handwritten block that fails in character recognition if character recognition fails A character recognition section for performing character recognition for each of the print block and the handwritten block, the character recognition section including a digital ink data generation section and a digital ink data character recognition section for performing character recognition using digital ink data; Based on the character recognition result and the picture block, Generating a document to generate a document to be characterized in that it comprises a.
본 발명의 다른 특징에 따르면, 문서 이미지를 입력받는 입력부를 더 포함하고, 입력부는 스캐너 또는 카메라인 것을 특징으로 한다.According to another aspect of the present invention, there is further provided an input unit for inputting a document image, wherein the input unit is a scanner or a camera.
본 발명의 또 다른 특징에 따르면, 인쇄체 문자 인식부는 인쇄체 블록 중 인식에 실패한 인쇄체 블록을 필기체 문자 인식부 또는 디지털 잉크 데이터 생성부로 전송하고, 필기체 문자 인식부는 인쇄체 문자 인식부로부터 수신한 인쇄체 블록에 대한 문자 인식을 더 수행하는 것을 것을 특징으로 한다.According to another aspect of the present invention, a print character recognition unit transmits a print block which has failed recognition of a print block to a handwritten character recognition unit or a digital ink data generation unit, and the handwritten character recognition unit recognizes, Character recognition is further performed.
본 발명의 또 다른 특징에 따르면, 필기체 문자 인식부는 필기체 블록 또는 인쇄체 문자 인식부로부터 수신한 인쇄체 블록 중 인식에 실패한 필기체 블록 또는 인쇄체 블록을 디지털 잉크 데이터 생성부로 전송하고, 디지털 잉크 데이터 생성부는 인쇄체 문자 인식부로부터 수신한 인쇄체 블록, 필기체 문자 인식부로부터 수신한 필기체 블록 또는 인쇄체 블록에 대한 디지털 잉크 데이터를 더 생성하는 것을 특징으로 한다.According to still another aspect of the present invention, a handwritten character recognition unit transmits a handwritable block or a print block, which has failed recognition of a print block received from a handwritten block or a printed character recognition unit, to a digital ink data generation unit, And further generates digital ink data for the print block received from the recognition section, the handwritten block received from the handwritten character recognition section, or the print block.
본 발명의 또 다른 특징에 따르면, 인쇄체 문자 인식부, 필기체 문자 인식부, 디지털 잉크 데이터 생성부, 및 디지털 잉크 데이터 문자 인식부는 인쇄체 문자 인식부, 필기체 문자 인식부, 디지털 잉크 데이터 생성부, 및 디지털 잉크 데이터 문자 인식부의 순서로 순차적으로 구동되는 것을 특징으로 한다.According to still another aspect of the present invention, there is provided a printing apparatus, including a printed character recognizing unit, a handwritten character recognizing unit, a digital ink data generating unit, and a digital ink data character recognizing unit, And the ink data character recognizing unit are sequentially driven in this order.
본 발명의 또 다른 특징에 따르면, 인쇄체 문자 인식부, 필기체 문자 인식부, 디지털 잉크 데이터 생성부, 및 디지털 잉크 데이터 문자 인식부는 병렬적으로 구동되는 것을 특징으로 한다.According to another aspect of the present invention, a printed character recognition unit, a handwritten character recognition unit, a digital ink data generation unit, and a digital ink data character recognition unit are driven in parallel.
본 발명의 또 다른 특징에 따르면, 인쇄체 문자 인식부 및 필기체 문자 인식부는 선택적으로 구동되는 것을 특징으로 한다.According to another aspect of the present invention, the printed character recognizing unit and the handwritten character recognizing unit are selectively driven.
본 발명의 또 다른 특징에 따르면, 인쇄체 문자 인식부, 필기체 문자 인식부 및 디지털 잉크 데이터 문자 인식부는 문자 인식을 위해 전처리 공정, 특징 추출 공정, 인식 공정, 및 후처리 공정을 사용하는 것을 특징으로 한다.According to another aspect of the present invention, the print character recognition unit, the handwritten character recognition unit, and the digital ink data character recognition unit are characterized by using a preprocessing process, a feature extraction process, a recognition process, and a post-process process for character recognition .
본 발명의 또 다른 특징에 따르면, 디지털 잉크 데이터 문자 인식부는 문자 인식에 실패한 경우, 디지털 잉크 데이터를 문서 생성부로 전송하는 것을 특징으로 한다.According to another aspect of the present invention, the digital ink data character recognition unit transmits digital ink data to the document generation unit when the character recognition fails.
전술한 바와 같은 과제를 해결하기 위하여 본 발명의 일 실시예에 따른 문서 디지털 복원 방법은 문서 이미지를 분석하여, 문서 이미지로부터 인쇄체 블록, 필기체 블록, 및 그림 블록을 분류하는 단계; 인쇄체 블록에 대한 문자 인식을 수행하는 단계, 필기체 블록에 대한 문자 인식을 수행하는 단계, 필기체 블록에 대한 문자 인식이 실패한 경우, 문자 인식에 실패한 필기체 블록에 대한 디지털 잉크 데이터를 생성하는 단계, 및 디지털 잉크 데이터를 사용하여 문자 인식을 수행하는 단계를 포함하는, 인쇄체 블록 및 필기체 블록 각각에 대한 문자 인식을 수행하는 단계; 및 문자 인식을 수행하는 단계의 문자 인식 결과 및 그림 블록에 기초하여, 문서 이미지에 대한 문서를 생성하는 단계를 포함하는 것을 특징으로 한다.According to an aspect of the present invention, there is provided a digital document restoration method comprising: analyzing a document image to classify a print block, a handwritten block, and a picture block from a document image; Generating digital ink data for a handwritten block that fails in character recognition when the character recognition for the handwritten block fails, and generating digital ink data for the handwritten block, Performing character recognition on each of the print block and the handwritten block, including performing character recognition using ink data; And generating a document for the document image based on the character recognition result and the picture block in the step of performing character recognition.
본 발명의 또 다른 특징에 따르면, 필기체 블록에 대한 문자 인식을 수행하는 단계는 인쇄체 블록에 대한 문자 인식에 실패한 경우 문자 인식에 실패한 인쇄체 블록에 대한 문자 인식을 수행하는 단계를 더 포함하는 것을 특징으로 한다.According to another aspect of the present invention, the step of performing character recognition on the handwritten block further includes the step of performing character recognition on the print block that fails to recognize the character when the character recognition on the print block fails do.
본 발명의 또 다른 특징에 따르면, 디지털 잉크 데이터를 생성하는 단계는, 인쇄체 블록에 대한 문자 인식에 실패한 경우 문자 인식에 실패한 인쇄체 블록에 대한 문자 인식을 수행하는 단계, 또는 필기체 블록에 대한 문자 인식에 실패한 경우 문자 인식에 실패한 필기체 블록에 대한 문자 인식을 수행하는 단계 중 적어도 하나를 포함하는 것을 특징으로 한다.According to another aspect of the present invention, the step of generating digital ink data may include a step of performing character recognition on a print block that fails to recognize a character when the character recognition on the print block fails, And performing character recognition on a handwritten block that fails in character recognition if the character recognition fails.
본 발명의 또 다른 특징에 따르면, 인쇄체 블록에 대한 문자 인식을 수행하는 단계, 필기체 블록에 대한 문자 인식을 수행하는 단계, 디지털 잉크 데이터를 생성하는 단계, 및 디지털 잉크 데이터를 사용하여 문자 인식을 수행하는 단계는 병렬적으로 수행되는 것을 특징으로 한다.According to another aspect of the present invention, there is provided a method for performing character recognition on a print block, performing character recognition on a cursive block, generating digital ink data, and performing character recognition using digital ink data Is performed in parallel.
전술한 바와 같은 과제를 해결하기 위하여 본 발명의 일 실시예에 따른 컴퓨터 판독가능 매체는 문서 이미지를 분석하여, 문서 이미지로부터 인쇄체 블록, 필기체 블록, 및 그림 블록을 분류하게 하고, 인쇄체 블록에 대한 문자 인식을 수행하게 하고, 필기체 블록에 대한 문자 인식을 수행하게 하고, 필기체 블록에 대한 문자 인식이 실패한 경우, 실패된 필기체 블록에 대한 디지털 잉크 데이터를 생성하게 하고, 디지털 잉크 데이터를 사용하여 문자 인식을 수행하게 하여, 인쇄체 블록 및 필기체 블록 각각에 대한 문자 인식을 수행하게 하고, 문자 인식을 수행하는 단계의 문자 인식 결과 및 그림 블록에 기초하여, 문서 이미지에 대한 문서를 생성하게 하는 명령어들의 세트를 포함하는 것을 특징으로 한다.According to an aspect of the present invention, there is provided a computer-readable medium for analyzing a document image to classify a print block, a handwritten block, and a picture block from a document image, The character recognition is performed on the cursive block, the digital ink data on the failed cursive block is generated when the character recognition on the cursive block fails, and the character recognition is performed using the digital ink data To perform character recognition for each of the print block and the handwritten block and to generate a document for the document image based on the character recognition result and the picture block in the step of performing character recognition .
기타 실시예의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.The details of other embodiments are included in the detailed description and drawings.
본 발명은 인쇄체 문자, 필기체 문자 및 그림이 혼합된 문서 이미지에 대한 문자 인식률을 높일 수 있는 문서 디지털 복원 시스템 및 방법을 제공할 수 있다.The present invention can provide a document digital restoration system and method capable of enhancing a character recognition rate for a document image in which a printed character, a cursive character, and a picture are mixed.
본 발명은 문서 이미지에 대한 문자 인식 결과에 이미지가 포함되는 것을 최소화하여 편집의 용이성을 높일 수 있는 문서 디지털 복원 시스템 및 방법을 제공할 수 있다.The present invention can provide a document digital restoration system and method that can increase the easiness of editing by minimizing the inclusion of an image in a character recognition result on a document image.
본 발명에 따른 효과는 이상에서 예시된 내용에 의해 제한되지 않으며, 더욱 다양한 효과들이 본 명세서 내에 포함되어 있다.The effects according to the present invention are not limited by the contents exemplified above, and more various effects are included in the specification.
도 1은 본 발명의 일 실시예에 따른 문서 디지털 복원 방법의 흐름도이다.
도 2는 본 발명의 일 실시예에 따른 문서 디지털 복원 시스템의 개략도이다.
도 3은 본 발명의 문서 디지털 복원 시스템 및 방법에서 사용되는 문서 이미지의 예이다.
도 4는 본 발명의 일 실시예에 따른 문서 디지털 복원 방법의 문자 인식 수행 단계에 대한 흐름도이다.
도 5는 본 발명의 일 실시예에 따른 문서 디지털 복원 시스템의 문자 인식부에 대한 개략도이다.
도 6은 본 발명의 일 실시예에 따른 문서 디지털 복원 시스템의 문자 인식부의 인쇄체 문자 인식부에 대한 개략도이다.1 is a flowchart of a digital document restoration method according to an embodiment of the present invention.
2 is a schematic diagram of a document digital restoration system in accordance with an embodiment of the present invention.
3 is an example of a document image used in the document digital restoration system and method of the present invention.
4 is a flowchart illustrating a character recognition step of the digital document restoration method according to an embodiment of the present invention.
5 is a schematic view of a character recognition unit of a document digital restoration system according to an embodiment of the present invention.
6 is a schematic view of a printed character recognition unit of a character recognition unit of a document digital restoration system according to an embodiment of the present invention.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.BRIEF DESCRIPTION OF THE DRAWINGS The advantages and features of the present invention and the manner of achieving them will become apparent with reference to the embodiments described in detail below with reference to the accompanying drawings. The present invention may, however, be embodied in many different forms and should not be construed as being limited to the embodiments set forth herein. Rather, these embodiments are provided so that this disclosure will be thorough and complete, and will fully convey the scope of the invention to those skilled in the art. Is provided to fully convey the scope of the invention to those skilled in the art, and the invention is only defined by the scope of the claims.
명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.Like reference numerals refer to like elements throughout the specification.
첨부된 블록도의 각 블록과 흐름도의 각 단계의 조합들은 펌웨어 (firmware), 소프트웨어 (software), 또는 하드웨어 (hardware) 로 구성된, 알고리즘 또는 컴퓨터 프로그램 인스트럭션들에 의해 수행될 수도 있다. 이들 알고리즘 또는 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 디지털 신호 처리 디바이스 (Digital Signal Processing Device) 의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능들을 수행하는 수단을 생성하게 된다. 이들 알고리즘 또는 컴퓨터 프로그램 인스트럭션들은 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용 가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 블록도의 각 블록 또는 흐름도 각 단계에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다. 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 블록도의 각 블록 및 흐름도의 각 단계에서 설명된 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.Each block of the accompanying block diagrams and combinations of the steps of the flowcharts may be performed by algorithms or computer program instructions comprised of firmware, software, or hardware. These algorithms or computer program instructions may be embedded in a processor of a general purpose computer, special purpose computer, or other programmable digital signal processing device, so that the instructions that are executed by a processor of a computer or other programmable data processing apparatus Generate means for performing the functions described in each block or flowchart of the block diagram. These algorithms or computer program instructions may also be stored in a computer usable or computer readable memory capable of directing a computer or other programmable data processing apparatus to implement a function in a particular manner, It is also possible for instructions stored in a possible memory to produce a manufacturing item containing instruction means for performing the function described in each block or flowchart of each block diagram. Computer program instructions may also be stored on a computer or other programmable data processing equipment so that a series of operating steps may be performed on a computer or other programmable data processing equipment to create a computer- It is also possible that the instructions that perform the processing equipment provide the steps for executing the functions described in each block of the block diagram and at each step of the flowchart.
또한, 각 블록 또는 각 단계는 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또한, 몇 가지 대체 실시예들에서는 블록들 또는 단계들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들 또는 단계들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.Also, each block or each step may represent a module, segment, or portion of code that includes one or more executable instructions for executing the specified logical function (s). It should also be noted that in some alternative embodiments, the functions mentioned in the blocks or steps may occur out of order. For example, two blocks or steps shown in succession may in fact be performed substantially concurrently, or the blocks or steps may sometimes be performed in reverse order according to the corresponding function.
본 발명의 여러 실시예들의 각각 특징들이 부분적으로 또는 전체적으로 서로 결합 또는 조합 가능하며, 당업자가 충분히 이해할 수 있듯이 기술적으로 다양한 연동 및 구동이 가능하며, 각 실시예들이 서로에 대하여 독립적으로 실시 가능할 수도 있고 연관 관계로 함께 실시 가능할 수도 있다.It is to be understood that each of the features of the various embodiments of the present invention may be combined or combined with each other partially or entirely and technically various interlocking and driving is possible as will be appreciated by those skilled in the art, It may be possible to cooperate with each other in association.
이하, 첨부된 도면을 참조하여 본 발명의 다양한 실시예들을 상세히 설명한다.Various embodiments of the present invention will now be described in detail with reference to the accompanying drawings.
도 1은 본 발명의 일 실시예에 따른 문서 디지털 복원 방법의 흐름도이다. 도 2는 본 발명의 일 실시예에 따른 문서 디지털 복원 시스템의 개략도이다. 도 2를 참조하면, 문서 디지털 복원 시스템 (100) 은 문서 구조 분석부 (110), 문자 인식부 (120) 및 문서 생성부 (130) 를 포함한다. 이하에서는 본 발명의 일 실시예에 따른 문서 디지털 복원 방법과 문서 디지털 복원 시스템 (100) 에 대한 이해를 돕기 위해, 문서 디지털 복원 방법과 문서 디지털 복원 시스템 (100) 에 대한 도 1 및 도 2를 함께 참조하여 설명한다.1 is a flowchart of a digital document restoration method according to an embodiment of the present invention. 2 is a schematic diagram of a document digital restoration system in accordance with an embodiment of the present invention. Referring to FIG. 2, the document
먼저, 도 1을 참조하면, 문서 이미지를 분석하여, 문서 이미지로부터 인쇄체 블록, 필기체 블록, 및 그림 블록을 분류한다 (S10). 단계 S10은 문서 디지털 복원 시스템 (100) 의 문서 구조 분석부 (110) 에 의해 수행된다.First, referring to FIG. 1, a document image is analyzed to classify a print block, a cursive block, and a picture block from a document image (S10). Step S10 is performed by the document
문서 구조 분석부 (110) 는 문서 이미지를 분석하여 문서 이미지에 포함된 문자와 그림을, 인쇄체 블록, 필기체 블록, 및 그림 블록을 분류한다. 문서 이미지는 스캐너를 통해서 스캔된 이미지, 카메라를 통해서 촬영된 이미지 또는 이미지 파일로부터 읽어진 이미지일 수 있으며, 문서 이미지 포맷은 BMP, JPEG, PNG 등 다양한 이미지 포맷일 수 있다. 또한, 문서 이미지는 컬러 이미지, 흑백 이미지 등 다양한 컬러 깊이를 가질 수 있다. 도 2에 도시되지는 않았으나, 문서 디지털 복원 시스템 (100) 은 메모리를 더 포함할 수 있으며, 문서 이미지는 메모리에 저장될 수 있고, 문서 구조 분석부 (110) 는 메모리에 저장된 문서 이미지에 접근하여 문서 이미지에 대한 프로세스를 수행할 수 있다.The document
도 2에 도시되지는 않았으나, 문서 디지털 복원 시스템 (100) 은 문서 이미지를 입력받기 위한 입력부를 포함할 수 있다. 입력부로서 스캐너 또는 카메라등과 같은 이미지 촬영을 위한 장치가 사용될 수 있다.Although not shown in FIG. 2, the document
이하에서는, 문서 이미지 및 문서 구조 분석부 (110) 에 대한 보다 상세한 설명을 위해 도 3을 함께 참조한다.Hereinafter, the document image and document
도 3은 본 발명의 문서 디지털 복원 시스템 및 방법에서 사용되는 문서 이미지의 예이다.3 is an example of a document image used in the document digital restoration system and method of the present invention.
문서 이미지 (200) 는 인쇄체 블록 (210), 필기체 블록 (220), 및 그림 블록 (230) 을 포함한다. 인쇄체 블록 (210) 은, 도 3에 도시된 바와 같이, 문서 이미지 (200) 에 포함된 문자 중 워드 프로세서 등에 의해 편집된 형태의 문자들의 블록을 의미한다. 필기체 블록 (220) 은, 도 3에 도시된 바와 같이, 문서 이미지 (200) 에 포함된 문자 중 사람이 직접 수기로 작성한 형태의 문자들의 블록을 의미한다. 그림 블록 (230) 은, 도 3에 도시된 바와 같이, 문서 이미지 (200) 에 포함된 그림 또는 사진들의 블록을 의미한다. The
문서 구조 분석부 (110) 는 문서 이미지 (200) 에 포함된 인쇄체 블록 (210), 필기체 블록 (220), 및 그림 블록 (230) 을 식별하여 분류한다. 문서 구조 분석부 (110) 는 문서 이미지 (200) 를 분석하여 문서 이미지 (200) 를 인쇄체 블록 (210), 필기체 블록 (220), 및 그림 블록 (230) 으로 분할한다. 인쇄체 블록 (210) 및 필기체 블록 (220) 의 경우, 문서 복원을 위해 해당 블록에 포함된 문자에 대한 문자 인식이 수행되어야 하므로, 문서 구조 분석부 (110) 는 인쇄체 블록 (210) 및 필기체 블록 (220) 을 문자 인식부 (120) 로 전송한다. 그림 블록 (230) 의 경우, 별도의 문자 인식이 수행됨이 없이 문서 복원이 가능하므로, 문서 구조 분석부 (110) 는 그림 블록 (230) 을 문서 생성부 (130) 로 전송한다. The document
다시 도 1 및 도 2를 참조하면, 이어서, 문서 구조 분석부 (110) 의 분류에 기초하여, 디지털 잉크 데이터를 사용하여 인쇄체 블록 (210) 및 필기체 블록 (220) 각각에 대한 문자 인식을 수행한다 (S20). 단계 S20은 문서 디지털 복원 시스템 (100) 의 문자 인식부 (120) 에 의해 수행된다.1 and 2, character recognition is performed on each of the
문자 인식부 (120) 는 인쇄체 블록 (210) 및 필기체 블록 (220) 각각에 대한 문자 인식을 수행한다. 문자 인식부 (120) 에 대한 보다 상세한 설명을 위해 도 4 및 도 5를 함께 참조한다.The
도 4는 본 발명의 일 실시예에 따른 문서 디지털 복원 방법의 문자 인식 수행 단계에 대한 흐름도이다. 도 5는 본 발명의 일 실시예에 따른 문서 디지털 복원 시스템의 문자 인식부에 대한 개략도이다. 도 5를 참조하면, 문자 인식부 (120) 는 인쇄체 문자 인식부 (121), 필기체 문자 인식부 (122), 디지털 잉크 데이터 (digital ink data) 생성부 (123) 및 디지털 잉크 데이터 문자 인식부 (124) 를 포함한다. 이하에서는 본 발명의 일 실시예에 따른 문서 디지털 복원 방법의 문자 인식 수행 단계와 문서 디지털 복원 시스템 (100) 의 문자 인식부 (120) 에 대한 이해를 돕기 위해, 문서 디지털 복원 방법의 문자 인식 수행 단계와 문서 디지털 복원 시스템 (100) 의 문자 인식부 (120) 에 대한 도 4 및 도 5를 함께 참조하여 설명한다.4 is a flowchart illustrating a character recognition step of the digital document restoration method according to an embodiment of the present invention. 5 is a schematic view of a character recognition unit of a document digital restoration system according to an embodiment of the present invention. 5, the
먼저, 도 4를 참조하면, 인쇄체 블록 (210) 에 대한 문자 인식을 수행한다 (S21). 단계 S21은 문서 디지털 복원 시스템 (100) 의 문자 인식부 (120) 의 인쇄체 문자 인식부 (121) 에 의해 수행된다.Referring to FIG. 4, character recognition is performed on the print block 210 (S21). Step S21 is performed by the printed
인쇄체 문자 인식부 (121) 는 문서 구조 분석부 (110) 로부터의 인쇄체 블록 (210) 에 대한 문자 인식을 수행한다. 인쇄체 문자 인식부 (121) 는 문서 구조 분석부 (110) 로부터 인쇄체 블록 (210) 을 수신하고, 인쇄체 블록 (210) 에 포함된 인쇄체 문자에 대한 문자 인식을 수행한다. 인쇄체 문자 인식부 (121) 의 문자 인식 과정에 대한 보다 상세한 설명을 위해 도 6을 함께 참조한다. The print
도 6은 본 발명의 일 실시예에 따른 문서 디지털 복원 시스템의 문자 인식부의 인쇄체 문자 인식부에 대한 개략도이다. 인쇄체 문자 인식부 (121) 는 전처리부 (126), 특징 추출부 (127), 인식부 (128) 및 후처리부 (129) 를 포함한다.6 is a schematic view of a printed character recognition unit of a character recognition unit of a document digital restoration system according to an embodiment of the present invention. The printed
인쇄체 문자 인식부 (121) 가 인쇄체 문자에 대한 문자 인식을 수행하기 위해, 먼저, 인쇄체 블록 (210) 에 포함된 문자들에 대한 전처리가 인쇄체 문자 인식부 (121) 의 전처리부 (126) 에 의해 수행된다. 전처리부 (126) 는 인쇄체 블록 (210) 에 포함된 문자의 기울어짐을 교정하고, 인쇄체 블록 (210) 에 포함된 잡티 등의 노이즈를 제거하고, 인쇄체 블록 (210) 에 포함된 문자가 컬러 이미지인 경우 문자 인식을 보다 수월하게 하기 위해 컬러 이미지를 흑백 이미지로 이진화하며, 인쇄체 블록 (210) 에 포함된 문자들에 대해 라인 분할 (line segmentation), 단어 분할 (word segmentation), 문자 분할 (character segmentation) 을 수행하는 등의 다양한 전처리를 수행할 수 있다.The preprocessing of the characters included in the
인쇄체 문자 인식부 (121) 의 특징 추출부 (127) 는 전처리가 완료된 인쇄체 블록 (210) 에 포함된 문자들에 대한 특징을 추출한다.The
인쇄체 문자 인식부 (121) 의 인식부 (128) 는 특징 추출부 (127) 에 의해 추출된 문자들에 대한 특징에 기초하여, 구조적 분석이나 신경 회로망과 같은 방법, 통계적 방법 등의 다양한 방법을 사용하여 인쇄체 블록 (210) 에 포함된 문자들에 대한 ASCII 등의 문자 코드를 생성한다.The
인쇄체 문자 인식부 (121) 의 후처리부 (129) 는 사전 (dictionary, lexicon) 과 같은 언어 모델링을 이용하여, 인식부 (128) 에 의해 인식된 문자들 중 오인식된 문자를 정확한 문자로 교정한다.The
도 6에 도시되지는 않았지만, 인쇄체 문자 인식부 (121) 는 인식 결과 평가부를 더 포함할 수 있다. 인식 결과 평가부는 인쇄체 문자 인식부 (121) 에서의 문자 인식 결과에 대한 확신의 정도를 산출한다. 예를 들어, 인식 결과 평가부는 문자 인식 결과에 대한 확신의 정도를 수치화하여 산출할 수 있고, 산출 결과가 미리 결정된 임계값 이상인 경우 인식 성공이고, 임계값 미만인 경우 인식 실패인 것으로 판단할 수 있다.Although not shown in Fig. 6, the printed
인쇄체 문자 인식부 (121) 는 인식 결과 평가부의 평가 결과에 기초하여 문자 인식 결과를 필기체 문자 인식부 (122), 디지털 잉크 데이터 생성부 (123) 또는 문서 생성부 (130) 로 전송한다. 인식 결과 평가부에 의한 평가 결과가 인식 성공인 경우, 인쇄체 문자 인식부 (121) 에 의한 인식 결과를 문서 생성부 (130) 로 전송한다. 인식 결과 평가부에 의한 평가 결과가 인식 실패인 경우, 인식에 실패한 인쇄체 블록 (210) 을 필기체 문자 인식부 (122) 또는 디지털 잉크 데이터 생성부 (123) 로 전송한다. 인쇄체 문자 인식부 (121) 에 의한 문자 인식이 실패하였다는 것은, 인쇄체 블록 (210) 에 포함된 문자들의 글자체가 정형화된 인쇄체 글자의 형태와 상이하다는 것을 의미할 수 있다. 따라서, 인쇄체 문자 인식부 (121) 에 의해 문자 인식에 실패한 인쇄체 블록 (210) 에 대한 추가적인 문자 인식을 수행하기 위해, 인쇄체 문자 인식부 (121) 는 인식에 실패한 인쇄체 블록 (210) 을 필기체 문자 인식부 (122) 또는 디지털 잉크 데이터 생성부 (123) 로 전송할 수 있다. 또한, 상술한 바와 같이, 인쇄체 블록 (210) 에 포함된 문자들은 라인 분할, 단어 분할, 및 문자 분할될 수 있으므로, 인쇄체 문자 인식부 (121) 는 분할된 라인, 분할된 단어, 또는 분할된 문자 단위로 문자 인식 성공 여부를 결정할 수 있고, 분할된 라인, 분할된 단어, 또는 분할된 문자 단위로 인쇄체 블록 (210) 에 포함된 문자를 필기체 문자 인식부 (122) 또는 디지털 잉크 데이터 생성부 (123) 로 전송할 수 있다.The printed
인쇄체 문자 인식부 (121) 는 선택적으로 구동될 수 있다. 즉, 인쇄체 문자 인식부 (121) 는 인쇄체 블록 (210) 에 대한 문자 인식을 항상 수행하도록 구동될 수도 있고, 인쇄체 블록 (210) 에 대한 문자 인식을 선택적으로 수행하도록 구동될 수도 있다. 인쇄체 문자 인식부 (121) 가 항상 구동되도록 설정된 경우 상술한 바와 같이 인쇄체 블록 (210) 에 대한 문자 인식이 인쇄체 문자 인식부 (121) 에 의해 수행되나, 인쇄체 문자 인식부 (121) 가 선택적으로 구동되어 인쇄체 문자 인식부 (121) 가 구동되지 않도록 설정된 경우, 인쇄체 블록 (210) 은 문서 구조 분석부 (110) 로부터 필기체 문자 인식부 (122) 또는 디지털 잉크 데이터 생성부 (123) 로 전송될 수 있다. The printed
다시 도 4 및 도 5를 참조하면, 필기체 블록 (220) 에 대한 문자 인식을 수행한다 (S22). 단계 S22는 문서 디지털 복원 시스템 (100) 의 문자 인식부 (120) 의 필기체 문자 인식부 (122) 에 의해 수행된다.4 and 5, character recognition is performed on the handwritten block 220 (S22). Step S22 is performed by the handwritten
필기체 문자 인식부 (122) 는 문서 구조 분석부 (110) 로부터의 필기체 블록 (220) 에 대한 문자 인식을 수행한다. 필기체 문자 인식부 (122) 는 문서 구조 분석부 (110) 로부터 필기체 블록 (220) 을 수신하고, 필기체 블록 (220) 에 포함된 필기체 문자에 대한 문자 인식을 수행한다. 또한, 상술한 바와 같이 인쇄체 문자 인식부 (121) 에 의해 인쇄체 블록 (210) 에 대한 문자 인식이 실패한 경우, 필기체 문자 인식부 (122) 는 문자 인식에 실패한 인쇄체 블록 (210) 을 수신하고, 인쇄체 블록 (210) 에 포함된 인쇄체 문자를 필기체 문자인 것으로 간주하여 문자 인식을 수행할 수도 있다. 또한, 상술한 바와 같이 인쇄체 문자 인식부 (121) 가 구동되지 않도록 설정된 경우, 필기체 문자 인식부 (122) 는 문서 구조 분석부 (110) 로부터 인쇄체 블록 (210) 을 수신하고, 인쇄체 블록 (210) 에 포함된 인쇄체 문자에 대해서도 문자 인식을 수행할 수도 있다.The handwritten
필기체 문자 인식부 (122) 는 전처리부, 특징 추출부, 인식부 및 후처리부를 포함할 수 있다. 필기체 문자 인식부 (122) 는 필기체 블록 (220) 에 포함된 문자들에 대한 기울어짐 교정, 노이즈 제거, 흑백 이미지로의 이진화, 라인 분할, 단어 분할, 문자 분할 등과 같은 다양한 전처리를 수행하는 전처리부, 전처리가 완료된 필기체 블록 (220) 에 포함된 문자들에 대한 특징을 추출하는 특징 추출부, 추출된 문자들의 특징에 기초하여 다양한 방법을 사용하여 필기체 블록 (220) 에 포함된 문자들에 대한 문자 코드를 생성하는 인식부, 언어 모델링을 이용하여 오인식된 문자를 교정하는 후처리부를 포함할 수 있다. 필기체 문자 인식부 (122) 의 전처리부, 특징 추출부, 인식부 및 후처리부는 그 처리 대상이 필기체 블록 (220) 에 포함된 문자들이라는 점을 제외하면, 인쇄체 문자 인식부 (121) 의 전처리부 (126), 특징 추출부 (127), 인식부 (128) 및 후처리부 (129) 와 실질적으로 동일한 기능을 수행할 수 있다.The handwritten
필기체 문자 인식부 (122) 는 인식 결과 평가부를 더 포함할 수 있다. 인식 결과 평가부는 필기체 문자 인식부 (122) 에서의 문자 인식 결과에 대한 확신의 정도를 산출한다. 예를 들어, 인식 결과 평가부는 문자 인식 결과에 대한 확신의 정도를 수치화하여 산출할 수 있고, 산출 결과가 미리 결정된 임계값 이상인 경우 인식 성공이고, 임계값 미만인 경우 인식 실패인 것으로 판단할 수 있다.The handwritten
필기체 문자 인식부 (122) 는 인식 결과 평가부의 평가 결과에 기초하여 문자 인식 결과를 디지털 잉크 데이터 생성부 (123) 또는 문서 생성부 (130) 로 전송한다. 인식 결과 평가부에 의한 평가 결과가 인식 성공인 경우, 필기체 문자 인식부 (122) 에 의한 인식 결과를 문서 생성부 (130) 로 전송한다. 인식 결과 평가부에 의한 평가 결과가 인식 실패인 경우, 인식에 실패한 필기체 블록 (220) 을 디지털 잉크 데이터 생성부 (123) 로 전송한다. 필기체 문자 인식부 (122) 에 의한 문자 인식이 실패하였다는 것은, 필기체 블록 (220) 에 포함된 문자들의 글자체가 일반적인 형태와 상이하다는 것을 의미할 수 있다. 따라서, 필기체 문자 인식부 (122) 에 의해 문자 인식에 실패한 필기체 블록 (220) 에 대한 추가적인 문자 인식을 수행하기 위해, 필기체 문자 인식부 (122) 는 인식에 실패한 필기체 블록 (220) 을 디지털 잉크 데이터 생성부 (123) 로 전송할 수 있다. 또한, 상술한 바와 같이, 필기체 블록 (220) 에 포함된 문자들은 라인 분할, 단어 분할, 및 문자 분할될 수 있으므로, 필기체 문자 인식부 (122) 는 분할된 라인, 분할된 단어, 또는 분할된 문자 단위로 문자 인식 성공 여부를 결정할 수 있고, 분할된 라인, 분할된 단어, 또는 분할된 문자 단위로 필기체 블록 (220) 에 포함된 문자를 디지털 잉크 데이터 생성부 (123) 로 전송할 수 있다.The handwritten
필기체 문자 인식부 (122) 는 선택적으로 구동될 수 있다. 즉, 필기체 문자 인식부 (122) 는 필기체 블록 (220) 에 대한 문자 인식, 및 인쇄체 문자 인식부 (121) 의 미구동 및 인쇄체 문자 인식부 (121) 의 인식 실패에 따른 인쇄체 블록 (210) 에 대한 문자 인식을 항상 수행하도록 구동될 수도 있고, 필기체 블록 (220) 에 대한 문자 인식, 및 인쇄체 문자 인식부 (121) 의 미구동 및 인쇄체 문자 인식부 (121) 의 인식 실패에 따른 인쇄체 블록 (210) 에 대한 문자 인식을 선택적으로 수행하도록 구동될 수도 있다. 따라서, 필기체 문자 인식부 (122) 가 항상 구동되도록 설정된 경우 상술한 바와 같이 필기체 블록 (220) 및/또는 인쇄체 블록 (210) 에 대한 문자 인식이 필기체 문자 인식부 (122) 에 의해 수행되나, 필기체 문자 인식부 (122) 가 선택적으로 구동되어 필기체 문자 인식부 (122) 가 구동되지 않도록 설정된 경우, 필기체 블록 (220) 및/또는 인쇄체 블록 (210) 은 디지털 잉크 데이터 생성부 (123) 로 전송될 수 있다.The handwritten
이어서, 필기체 블록 (220) 에 대한 문자 인식이 실패한 경우, 문자 인식에 실패한 필기체 블록 (220) 에 대한 디지털 잉크 데이터를 생성한다 (S23). 단계 S23은 문서 디지털 복원 시스템 (100) 의 문자 인식부 (120) 의 디지털 잉크 데이터 생성부 (123) 에 의해 수행된다.Then, when the character recognition of the
디지털 잉크 데이터 생성부 (123) 는 필기체 문자 인식부 (122) 에서 필기체 블록 (220) 에 대한 문자 인식이 실패한 경우, 문자 인식에 실패한 필기체 블록 (220) 에 대한 디지털 잉크 데이터를 생성한다. 즉, 디지털 잉크 데이터 생성부 (123) 는 필기체 블록 (220) 에 포함된 문자들의 궤적을 복원하여 디지털 잉크 데이터를 생성한다. 디지털 잉크 데이터란, 사용자가 디지타이저 (digitizer) 또는 터치 스크린 디스플레이와 같은 입력 장치 상에 손 또는 스타일러스 (stylus) 등의 입력 수단을 이용해 수기 (手記, handwriting) 하는 과정에서 생성되는 데이터를 의미하며, 입력에 따른 스트로크 (stroke) 를 기초로 생성된 데이터를 의미한다. 스트로크 (stroke) 란, 공간 상의 좌표에 의해 정의되는 일련의 점들의 집합으로 구성된다. 스트로크는, 사용자가 입력을 인가한 때부터 입력이 해제 (release) 된 때까지 입력의 이동 경로를 따라 시간 순서로 정렬된 일련의 점들의 집합일 수 있으나, 반드시 이에 한정되는 것은 아니다. 디지털 잉크 데이터 생성부 (123) 는 필기체 블록 (220) 에 포함된 문자들과 같은 정적인 이미지로부터 동적인 스트로크를 복원하여, 디지털 잉크 데이터를 생성한다.The digital ink
디지털 잉크 데이터 생성부 (123) 는 평가부를 더 포함할 수 있다. 평가부는 디지털 잉크 데이터 생성부 (123) 에서의 디지털 잉크 데이터 생성 결과에 대한 확신의 정도를 산출한다. 예를 들어, 평가부는 디지털 잉크 데이터 생성 결과에 대한 확신의 정도를 수치화하여 산출할 수 있고, 산출 결과가 미리 결정된 임계값 이상인 경우 생성 성공이고, 임계값 미만인 경우 생성 실패인 것으로 판단할 수 있다.The digital ink
디지털 잉크 데이터 생성부 (123) 는 평가부의 평가 결과에 기초하여 디지털 잉크 데이터 또는 이미지를 디지털 잉크 데이터 문자 인식부 (124) 또는 문서 생성부 (130) 로 전송한다. 평가부에 의한 평가 결과가 생성 성공인 경우, 디지털 잉크 데이터 생성부 (123) 에 의한 디지털 잉크 데이터를 디지털 잉크 데이터 문자 인식부 (124) 로 전송한다. 평가부에 의한 평가 결과가 생성 실패인 경우, 생성에 실패한 필기체 블록 (220) 에 포함된 문자를 이미지로 처리하여, 해당 필기체 블록 (220) 또는 해당 필기체 블록 (220) 에 포함된 문자를 이미지로 하여 문서 생성부 (130) 로 전송한다. The digital ink
상술한 바와 같이, 필기체 문자 인식부 (122) 는 선택적으로 구동되어, 필기체 문자 인식부 (122) 가 구동되지 않도록 설정될 수 있다. 이 경우, 디지털 잉크 데이터 생성부 (123) 는 문서 구조 분석부 (110) 로부터 필기체 블록 (220) 을 수신하고, 필기체 블록 (220) 에 대한 디지털 잉크 데이터를 생성할 수 있다. As described above, the handwritten
또한, 필기체 문자 인식부 (122) 가 구동되지 않도록 설정된 경우, 인쇄체 문자 인식부 (121) 에서 문자 인식에 실패한 인쇄체 블록 (210) 은, 상술한 바와 같이 필기체 문자 인식부 (122) 로 전송되는 것이 아니라, 디지털 잉크 데이터 생성부 (123) 로 전송될 수 있다. 이 경우, 디지털 잉크 데이터 생성부 (123) 는 인쇄체 문자 인식부 (121) 에서 문자 인식에 실패한 인쇄체 블록 (210) 을 수신하고, 해당 인쇄체 블록 (210) 에 대한 디지털 잉크 데이터를 생성할 수 있다.When the handwritten
또한, 인쇄체 문자 인식부 (121) 또한 선택적으로 구동되어, 인쇄체 문자 인식부 (121) 도 구동되지 않도록 설정될 수 있다. 이에 따라, 인쇄체 문자 인식부 (121) 와 필기체 문자 인식부 (122) 둘 모두가 구동되지 않도록 설정된 경우, 문서 이미지 (200) 에 포함된 인쇄체 블록 (210) 및 필기체 블록 (220) 모두는 문서 구조 분석부 (110) 로부터 디지털 잉크 데이터 생성부 (123) 로 전송될 수 있다. 이 경우, 디지털 잉크 데이터 생성부 (123) 는 문서 구조 분석부 (110) 로부터 인쇄체 블록 (210) 및 필기체 블록 (220) 을 수신하고, 해당 인쇄체 블록 (210) 및 필기체 블록 (220) 에 대한 디지털 잉크 데이터를 생성할 수 있다.Also, the printed
한편, 인쇄체 문자 인식부 (121) 에서 인쇄체 블록 (210) 에 포함된 문자에 대한 문자 인식에 실패한 경우, 인쇄체 문자 인식부 (121) 는 문자 인식에 실패한 인쇄체 블록 (210) 을 디지털 잉크 데이터 생성부 (123) 로 전송할 수 있다. 이 경우, 디지털 잉크 데이터 생성부 (123) 는 인쇄체 문자 인식부 (121) 에서 문자 인식에 실패한 인쇄체 블록 (210) 을 수신하고, 해당 인쇄체 블록 (210) 에 대한 디지털 잉크 데이터를 생성할 수 있다.On the other hand, when the
이어서, 디지털 잉크 데이터를 사용하여 문자 인식을 수행한다 (S24). 단계 S24는 문서 디지털 복원 시스템 (100) 의 문자 인식부 (120) 의 디지털 잉크 데이터 문자 인식부 (124) 에 의해 수행된다.Then, character recognition is performed using the digital ink data (S24). Step S24 is performed by the digital ink data
디지털 잉크 데이터 문자 인식부 (124) 는 디지털 잉크 데이터 생성부 (123) 로부터의 디지털 잉크 데이터를 사용하여 문자 인식을 수행한다. 디지털 잉크 데이터 문자 인식부 (124) 는 디지털 잉크 데이터 생성부 (123) 로부터 디지털 잉크 데이터를 수신하고, 디지털 잉크 데이터에 포함된 스트로크에 기초하여 문자 인식을 수행한다. The digital ink data
디지털 잉크 데이터 문자 인식부 (124) 는 전처리부, 특징 추출부, 인식부 및 후처리부를 포함할 수 있다. 디지털 잉크 데이터 문자 인식부 (124) 는 디지털 잉크 데이터에 포함된 스트로크에 대한 교정, 크기 정규화 등과 같은 다양한 전처리를 수행하는 전처리부, 전처리가 완료된 스트로크에 대한 특징을 추출하는 특징 추출부, 추출된 특징에 기초하여 다양한 방법을 사용하여 문자들에 대한 문자 코드를 생성하는 인식부, 언어 모델링을 이용하여 오인식된 문자를 교정하는 후처리부를 포함할 수 있다. 디지털 잉크 데이터 문자 인식부 (124) 의 전처리부, 특징 추출부, 인식부 및 후처리부는 그 처리 대상이 디지털 잉크 데이터라는 점을 제외하면, 인쇄체 문자 인식부 (121) 의 전처리부 (126), 특징 추출부 (127), 인식부 (128) 및 후처리부 (129) 와 실질적으로 동일한 기능을 수행할 수 있다.The digital ink data
디지털 잉크 데이터 문자 인식부 (124) 는 인식 결과 평가부를 더 포함할 수 있다. 인식 결과 평가부는 디지털 잉크 데이터 문자 인식부 (124) 에서의 문자 인식 결과에 대한 확신의 정도를 산출한다. 예를 들어, 인식 결과 평가부는 문자 인식 결과에 대한 확신의 정도를 수치화하여 산출할 수 있고, 산출 결과가 미리 결정된 임계값 이상인 경우 인식 성공이고, 임계값 미만인 경우 인식 실패인 것으로 판단할 수 있다.The digital ink data
디지털 잉크 데이터 문자 인식부 (124) 는 인식 결과 평가부의 평가 결과에 기초하여 문자 인식 결과를 문서 생성부 (130) 로 전송한다. 인식 결과 평가부에 의한 평가 결과가 인식 성공인 경우, 디지털 잉크 데이터 문자 인식부 (124) 에 의한 인식 결과를 문서 생성부 (130) 로 전송한다. 인식 결과 평가부에 의한 평가 결과가 인식 실패인 경우, 인식에 디지털 잉크 데이터를 문서 생성부 (130) 로 전송한다. The digital ink data
인쇄체 블록 (210) 에 대한 문자 인식을 수행하는 것과, 필기체 블록 (220) 에 대한 문자 인식을 수행하는 것과, 디지털 잉크 데이터를 생성하는 것과, 디지털 잉크 데이터를 사용하여 문자 인식을 수행하는 것은 순차적으로 수행될 수 있다. 즉, 인쇄체 문자 인식부 (121) 에 의한 인쇄체 블록 (210) 에 대한 문자 인식이 수행되고, 그 후 필기체 문자 인식부 (122) 에 의한 필기체 블록 (220) 에 대한 문자 인식이 수행되고, 그 후 디지털 잉크 데이터 생성부 (123) 에 의해 문자 인식에 실패한 필기체 블록 (220) 에 대한 디지털 잉크 데이터가 생성되고, 그 후 디지털 잉크 데이터 문자 인식부 (124) 에 의해 디지털 잉크 데이터를 사용하여 문자 인식이 수행될 수 있다. Performing character recognition for the
한편, 인쇄체 블록 (210) 에 대한 문자 인식을 수행하는 것과, 필기체 블록 (220) 에 대한 문자 인식을 수행하는 것과, 디지털 잉크 데이터를 생성하는 것과, 디지털 잉크 데이터를 사용하여 문자 인식을 수행하는 것은 병렬적으로 수행될 수 있다. 즉, 인쇄체 문자 인식부 (121) 에 의한 인쇄체 블록 (210) 에 대한 문자 인식이 수행되고, 필기체 문자 인식부 (122) 에 의한 필기체 블록 (220) 에 대한 문자 인식이 수행되고, 디지털 잉크 데이터 생성부 (123) 에 의해 문자 인식에 실패한 필기체 블록 (220) 에 대한 디지털 잉크 데이터가 생성되고, 디지털 잉크 데이터 문자 인식부 (124) 에 의해 디지털 잉크 데이터를 사용하여 문자 인식이 수행되는 것은 동시에 수행될 수 있다.On the other hand, performing character recognition for the
다시 도 1 및 도 2를 참조하면, 문자 인식 결과 및 그림 블록 (230) 에 기초하여, 문서 이미지 (200) 에 대한 문서를 생성한다 (S30). 단계 S30은 문서 디지털 복원 시스템 (100) 의 문서 생성부 (130) 에 의해 수행된다.Referring again to FIGS. 1 and 2, a document for the
문서 생성부 (130) 는 문자 인식부 (120) 의 인쇄체 문자 인식부 (121), 필기체 문자 인식부 (122) 및 디지털 잉크 데이터 문자 인식부 (124) 로부터의 문자 인식 결과, 및 문서 구조 분석부 (110) 로부터의 그림 블록 (230) 에 기초하여 문서 이미지 (200) 에 대한 문서를 생성한다. 문서 생성부 (130) 는 문자 인식부 (120) 의 인쇄체 문자 인식부 (121) 로부터의 인쇄체 블록 (210) 에 대한 문자 인식 결과, 문자 인식부 (120) 의 필기체 문자 인식부 (122) 로부터의 필기체 블록 (220) 에 대한 문자 인식 결과, 및 문자 인식부 (120) 의 디지털 잉크 데이터 문자 인식부 (124) 로부터의 디지털 잉크 데이터에 대한 문자 인식 결과를 수신하며, 문자 인식 결과는 텍스트로서 사용될 수 있다. 또한, 문서 생성부 (130) 는 문서 구조 분석부 (110) 에 의해 분류된 문서 이미지 (200) 의 그림 블록 (230) 을 수신하고, 문자 인식부 (120) 에서 문자 인식이 실패한 경우, 문서 생성부 (130) 는 해당 문자에 대한 디지털 잉크 데이터를 수신하며, 그림 블록 (230) 과 디지털 잉크 데이터는 이미지로서 사용될 수 있다.The
문서 생성부 (130) 는 문자 인식부 (120) 로부터 수신한 문자 인식 결과 및 문서 구조 분석부 (110) 로부터 수신한 그림 블록 (230) 에 기초하여 문서를 생성한다. 문서 생성부 (130) 에 의해 생성될 수 있는 문서는 디지털 문서로서 XML (eXtensible Markup Language) 나 마이크로소프트 Word, PDF (Portable Document Format) 등의 다양한 파일 포맷의 문서일 수 있다. 문서 생성부 (130) 에 의해 생성된 문서는 메모리에 저장될 수 있고, 추후에 다른 시스템이나 응용 프로그램과 연계되어 이용될 수도 있다.The
본 발명의 일 실시예에 따른 문서 디지털 복원 시스템 및 방법은 인쇄체 블록에 대한 인식 및 필기체 블록에 대한 인식뿐만 아니라, 온라인 문자 인식 방식인 디지털 잉크 데이터를 사용한 문자 인식을 함께 사용하여, 문서 이미지에 대한 문자 인식률을 높일 수 있을 뿐만 아니라, 문자 인식 결과에 이미지가 포함되는 것을 최소화하여 편집의 용이성을 높일 수 있다.The document digital restoration system and method according to an embodiment of the present invention can be used not only for recognition of print blocks and handwritten blocks but also for character recognition using digital ink data which is an online character recognition method, It is possible not only to increase the character recognition rate but also to minimize the inclusion of the image in the character recognition result, thereby improving the ease of editing.
본 명세서에 개시된 실시예들과 관련하여 설명된 방법 또는 알고리즘의 단계는 프로세서에 의해 실행되는 하드웨어, 소프트웨어 모듈 또는 그 2개의 결합으로 직접 구현될 수도 있다. 소프트웨어 모듈은 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터, 하드 디스크, 착탈형 디스크, CD-ROM 또는 당업계에 알려진 임의의 다른 형태의 저장 매체에 상주할 수도 있다. 예시적인 저장 매체는 프로세서에 커플링되며, 그 프로세서는 저장 매체로부터 정보를 판독할 수 있고 저장 매체에 정보를 기입할 수 있다. 다른 방법으로, 저장 매체는 프로세서와 일체형일 수도 있다. 프로세서 및 저장 매체는 주문형 집적회로 (ASIC) 내에 상주할 수도 있다. ASIC는 사용자 단말기 내에 상주할 수도 있다. 다른 방법으로, 프로세서 및 저장 매체는 사용자 단말기 내에 개별 컴포넌트로서 상주할 수도 있다.The steps of a method or algorithm described in connection with the embodiments disclosed herein may be embodied directly in hardware, in a software module executed by a processor, or in a combination of the two. The software module may reside in a RAM memory, a flash memory, a ROM memory, an EPROM memory, an EEPROM memory, a register, a hard disk, a removable disk, a CD-ROM or any other form of storage medium known in the art. An exemplary storage medium is coupled to the processor, which is capable of reading information from, and writing information to, the storage medium. Alternatively, the storage medium may be integral with the processor. The processor and the storage medium may reside within an application specific integrated circuit (ASIC). The ASIC may reside within the user terminal. Alternatively, the processor and the storage medium may reside as discrete components in a user terminal.
이상으로 실시예를 들어 본 발명을 더욱 상세하게 설명하였으나, 본 발명은 반드시 이러한 실시예로 국한되는 것은 아니고, 본 발명의 기술사상을 벗어나지 않는 범위 내에서 다양하게 변형실시될 수 있다. 따라서 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.While the present invention has been particularly shown and described with reference to exemplary embodiments thereof, it is to be understood that the present invention is not limited to the disclosed exemplary embodiments, but various changes and modifications may be made without departing from the spirit and scope of the invention. Therefore, the embodiments disclosed in the present invention are not intended to limit the scope of the present invention but to limit the scope of the technical idea of the present invention. The scope of protection of the present invention should be construed according to the following claims, and all technical ideas within the scope of equivalents should be construed as falling within the scope of the present invention.
110: 문서 구조 분석부
120: 문자 인식부
121: 인쇄체 문자 인식부
122: 필기체 문자 인식부
123: 디지털 잉크 데이터 생성부
124: 디지털 잉크 데이터 문자 인식부
126: 전처리부
127: 특징 추출부
128: 인식부
129: 후처리부
130: 문서 생성부
100: 문서 디지털 복원 시스템
200: 문서 이미지
210: 인쇄체 블록
220: 필기체 블록
230: 그림 블록110: document structure analysis section
120: Character recognition unit
121: Printed character recognition unit
122: Handwritten character recognition unit
123: Digital ink data generation unit
124: Digital ink data character recognition unit
126:
127: Feature extraction unit
128:
129: Post-
130:
100: Document Digital Restoration System
200: Document image
210: print block
220: Handwriting Block
230: picture block
Claims (14)
상기 인쇄체 블록에 대한 문자 인식을 수행하는 인쇄체 문자 인식부, 상기 필기체 블록에 대한 문자 인식을 수행하는 필기체 문자 인식부, 상기 필기체 문자 인식부가 문자 인식에 실패한 경우, 문자 인식에 실패한 필기체 블록에 대한 디지털 잉크 데이터를 생성하는 디지털 잉크 데이터 생성부, 및 상기 디지털 잉크 데이터를 사용하여 문자 인식을 수행하는 디지털 잉크 데이터 문자 인식부를 포함하는, 상기 인쇄체 블록 및 상기 필기체 블록 각각에 대한 문자 인식을 수행하는 문자 인식부; 및
상기 문자 인식부로부터의 문자 인식 결과 및 상기 그림 블록에 기초하여 상기 문서 이미지에 대한 문서를 생성하는 문서 생성부를 포함하는 것을 특징으로 하는, 문서 디지털 복원 시스템.A document structure analyzer for analyzing a document image and classifying a print block, a handwritten block, and a picture block from the document image;
A handwritten character recognizing unit for recognizing characters of the handwritten block; a handwritten character recognizing unit for recognizing a handwritten block which has failed in character recognition if the handwritten character recognizing unit fails in character recognition; A digital ink data generation unit for generating ink data, and a digital ink data character recognition unit for performing character recognition using the digital ink data, wherein the character recognition unit performs character recognition for each of the print block and the handwritten block part; And
And a document generation unit for generating a character recognition result from the character recognition unit and a document for the document image based on the picture block.
상기 문서 이미지를 입력받는 입력부를 더 포함하고,
상기 입력부는 스캐너 또는 카메라인 것을 특징으로 하는, 문서 디지털 복원 시스템.The method according to claim 1,
Further comprising an input unit for receiving the document image,
Wherein the input unit is a scanner or a camera.
상기 인쇄체 문자 인식부는 상기 인쇄체 블록 중 문자 인식에 실패한 인쇄체 블록을 상기 필기체 문자 인식부 또는 상기 디지털 잉크 데이터 생성부로 전송하고,
상기 필기체 문자 인식부는 상기 인쇄체 문자 인식부로부터 수신한 인쇄체 블록에 대한 문자 인식을 더 수행하는 것을 것을 특징으로 하는, 문서 디지털 복원 시스템.The method according to claim 1,
The print character recognizing unit transmits a print block which failed in character recognition among the print block to the handwritten character recognizing unit or the digital ink data generating unit,
Wherein the handwritten character recognition unit further performs character recognition on the print block received from the print character recognition unit.
상기 필기체 문자 인식부는 상기 필기체 블록 중 문자 인식에 실패한 필기체 블록, 또는 상기 인쇄체 문자 인식부로부터 수신한 인쇄체 블록 중 문자 인식에 실패한 인쇄체 블록을 상기 디지털 잉크 데이터 생성부로 전송하고,
상기 디지털 잉크 데이터 생성부는 상기 인쇄체 문자 인식부로부터 수신한 인쇄체 블록, 상기 필기체 문자 인식부로부터 수신한 필기체 블록 또는 상기 필기체 문자 인식부로부터 수신한 인쇄체 블록에 대한 디지털 잉크 데이터를 더 생성하는 것을 특징으로 하는, 문서 디지털 복원 시스템.The method of claim 3,
Wherein the handwritten character recognition unit transmits to the digital ink data generation unit a printed matter block in which a character recognition failure in the handwritten character block or a character block in the printed matter block received from the printed character recognition unit fails,
The digital ink data generation unit may further generate digital ink data for a print block received from the print character recognition unit, a handwritable block received from the handwritten character recognition unit, or a print block received from the handwritten character recognition unit , A digital restoration system for documents.
상기 인쇄체 문자 인식부, 상기 필기체 문자 인식부, 상기 디지털 잉크 데이터 생성부, 및 상기 디지털 잉크 데이터 문자 인식부는 상기 인쇄체 문자 인식부, 상기 필기체 문자 인식부, 상기 디지털 잉크 데이터 생성부, 및 상기 디지털 잉크 데이터 문자 인식부의 순서로 순차적으로 구동되는 것을 특징으로 하는, 문서 디지털 복원 시스템.The method according to claim 1,
The digital ink data character recognition unit, the handwritten character recognition unit, the digital ink data generation unit, and the digital ink data character recognition unit may include the print character recognition unit, the handwritten character recognition unit, the digital ink data generation unit, And a data character recognizing unit are sequentially driven in this order.
상기 인쇄체 문자 인식부, 상기 필기체 문자 인식부, 상기 디지털 잉크 데이터 생성부, 및 상기 디지털 잉크 데이터 문자 인식부는 병렬적으로 구동되는 것을 특징으로 하는, 문서 디지털 복원 시스템.The method according to claim 1,
Wherein the digital character data recognizing unit, the printed character recognizing unit, the handwritten character recognizing unit, the digital ink data generating unit, and the digital ink data character recognizing unit are driven in parallel.
상기 인쇄체 문자 인식부 및 상기 필기체 문자 인식부는 선택적으로 구동되는 것을 특징으로 하는, 문서 디지털 복원 시스템.The method according to claim 1,
Wherein the printed character recognition unit and the handwritten character recognition unit are selectively activated.
상기 인쇄체 문자 인식부, 상기 필기체 문자 인식부 및 상기 디지털 잉크 데이터 문자 인식부는 문자 인식을 위해 전처리 공정, 특징 추출 공정, 인식 공정, 및 후처리 공정을 사용하는 것을 특징으로 하는, 문서 디지털 복원 시스템.The method according to claim 1,
Wherein the print character recognition unit, the handwritten character recognition unit, and the digital ink data character recognition unit use a preprocessing process, a feature extraction process, a recognition process, and a post-process process for character recognition.
상기 디지털 잉크 데이터 문자 인식부는 문자 인식에 실패한 경우, 상기 디지털 잉크 데이터를 상기 문서 생성부로 전송하는 것을 특징으로 하는, 문서 디지털 복원 시스템.The method according to claim 1,
Wherein the digital ink data character recognition unit transmits the digital ink data to the document generation unit when the character recognition fails.
상기 인쇄체 블록에 대한 문자 인식을 수행하는 단계, 상기 필기체 블록에 대한 문자 인식을 수행하는 단계, 상기 필기체 블록에 대한 문자 인식이 실패한 경우, 문자 인식에 실패한 필기체 블록에 대한 디지털 잉크 데이터를 생성하는 단계, 및 상기 디지털 잉크 데이터를 사용하여 문자 인식을 수행하는 단계를 포함하는, 상기 인쇄체 블록 및 상기 필기체 블록 각각에 대한 문자 인식을 수행하는 단계; 및
상기 문자 인식을 수행하는 단계의 문자 인식 결과 및 상기 그림 블록에 기초하여, 상기 문서 이미지에 대한 문서를 생성하는 단계를 포함하는 것을 특징으로 하는, 문서 디지털 복원 시스템에 의해 수행되는 문서 디지털 복원 방법.Analyzing the document image to classify a print block, a handwritten block, and a picture block from the document image;
Performing character recognition on the print block, performing character recognition on the handwritten block, generating digital ink data for a handwritten block failed in character recognition if the character recognition on the handwritten block fails Performing character recognition on each of the print block and the handwritten block, and performing character recognition using the digital ink data; And
And generating a document for the document image based on the character recognition result of the character recognition step and the picture block.
상기 필기체 블록에 대한 문자 인식을 수행하는 단계는 상기 인쇄체 블록에 대한 문자 인식에 실패한 경우 문자 인식에 실패한 인쇄체 블록에 대한 문자 인식을 수행하는 단계를 더 포함하는 것을 특징으로 하는, 문서 디지털 복원 시스템에 의해 수행되는 문서 디지털 복원 방법.11. The method of claim 10,
Wherein the step of performing character recognition on the cursive block further comprises performing character recognition on a print block that fails to recognize the character when the character recognition on the print block fails. A method of digital restoration performed by a document.
상기 디지털 잉크 데이터를 생성하는 단계는, 상기 인쇄체 블록에 대한 문자 인식에 실패한 경우 문자 인식에 실패한 인쇄체 블록에 대한 디지털 잉크 데이터를 생성하는 단계, 또는 상기 필기체 블록에 대한 문자 인식에 실패한 경우 문자 인식에 실패한 필기체 블록에 대한 디지털 잉크데이터를 생성하는 단계 중 적어도 하나를 포함하는 것을 특징으로 하는, 문서 디지털 복원 시스템에 의해 수행되는 문서 디지털 복원 방법.11. The method of claim 10,
Wherein the step of generating digital ink data comprises the steps of generating digital ink data for a print block which fails to recognize a character when the character recognition for the print block fails, And generating digital ink data for the failed handwritten block. ≪ Desc / Clms Page number 19 >
상기 인쇄체 블록에 대한 문자 인식을 수행하는 단계, 상기 필기체 블록에 대한 문자 인식을 수행하는 단계, 상기 디지털 잉크 데이터를 생성하는 단계, 및 상기 디지털 잉크 데이터를 사용하여 문자 인식을 수행하는 단계는 병렬적으로 수행되는 것을 특징으로 하는, 문서 디지털 복원 시스템에 의해 수행되는 문서 디지털 복원 방법.11. The method of claim 10,
Performing character recognition on the print block, performing character recognition on the handwritten block, generating the digital ink data, and performing character recognition using the digital ink data are performed in parallel Wherein the digital restoration is performed with a document digital restoration system.
상기 인쇄체 블록에 대한 문자 인식을 수행하게 하고, 상기 필기체 블록에 대한 문자 인식을 수행하게 하고, 상기 필기체 블록에 대한 문자 인식이 실패한 경우, 실패된 상기 필기체 블록에 대한 디지털 잉크 데이터를 생성하게 하고, 상기 디지털 잉크 데이터를 사용하여 문자 인식을 수행하게 하여, 상기 인쇄체 블록 및 상기 필기체 블록 각각에 대한 문자 인식을 수행하게 하고,
상기 문자 인식을 수행하는 단계의 문자 인식 결과 및 상기 그림 블록에 기초하여, 상기 문서 이미지에 대한 문서를 생성하게 하는 명령어들의 세트를 포함하는 것을 특징으로 하는, 컴퓨터 판독가능 기록매체.
Analyzing the document image to classify the print block, the handwritten block, and the picture block from the document image,
The digital ink data for the failed handwritten block is generated when the character recognition for the handwritten block is failed, the digital ink data for the failed handwritten block is generated, Performing character recognition using the digital ink data to perform character recognition on each of the print block and the handwritten block,
And a set of instructions for generating a document for the document image based on the character recognition result of performing the character recognition and the picture block.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020130099293A KR101498546B1 (en) | 2013-08-21 | 2013-08-21 | System and method for restoring digital documents |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020130099293A KR101498546B1 (en) | 2013-08-21 | 2013-08-21 | System and method for restoring digital documents |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20150021846A KR20150021846A (en) | 2015-03-03 |
KR101498546B1 true KR101498546B1 (en) | 2015-03-04 |
Family
ID=53020063
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020130099293A KR101498546B1 (en) | 2013-08-21 | 2013-08-21 | System and method for restoring digital documents |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101498546B1 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102043693B1 (en) * | 2018-09-28 | 2019-11-12 | 김지성 | Machine learning based document management system |
KR102125056B1 (en) * | 2019-03-26 | 2020-06-19 | 부산대학교 산학협력단 | System and Method for Generating Character and Book for Mixed Character Automatic Recognition and System and Method for Searching using same |
CN113837129B (en) * | 2021-09-29 | 2023-10-03 | 平安科技(深圳)有限公司 | Method, device, equipment and storage medium for identifying wrongly written characters of handwritten signature |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20080068776A (en) * | 2007-01-20 | 2008-07-24 | 삼성전자주식회사 | Multi-function device and control method thereof |
-
2013
- 2013-08-21 KR KR1020130099293A patent/KR101498546B1/en active IP Right Grant
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20080068776A (en) * | 2007-01-20 | 2008-07-24 | 삼성전자주식회사 | Multi-function device and control method thereof |
Also Published As
Publication number | Publication date |
---|---|
KR20150021846A (en) | 2015-03-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11663817B2 (en) | Automated signature extraction and verification | |
US10671892B1 (en) | Apparatuses, methods, and systems for 3-channel dynamic contextual script recognition using neural network image analytics and 4-tuple machine learning with enhanced templates and context data | |
TWI606406B (en) | Methods, apparatus, and tangible computer readable storage media to extract text from imaged documents | |
CN111753717B (en) | Method, device, equipment and medium for extracting structured information of text | |
JP4694613B2 (en) | Document orientation determination apparatus, document orientation determination method, program, and recording medium therefor | |
CN107451582A (en) | A kind of graphics context identifying system and its recognition methods | |
US20140023275A1 (en) | Redundant aspect ratio decoding of devanagari characters | |
US11694459B2 (en) | On-device partial recognition systems and methods | |
KR20130066819A (en) | Apparus and method for character recognition based on photograph image | |
US10452943B2 (en) | Information processing apparatus, control method of information processing apparatus, and storage medium | |
US9396389B2 (en) | Techniques for detecting user-entered check marks | |
US20180174324A1 (en) | Image processing apparatus for clipping and sorting images from read image according to cards and control method therefor | |
KR101498546B1 (en) | System and method for restoring digital documents | |
Hossain et al. | Optical character recognition based on template matching | |
CN111476090B (en) | Watermark identification method and device | |
CN112232282A (en) | Gesture recognition method and device, storage medium and electronic equipment | |
WO2023051384A1 (en) | Display method, information sending method, and electronic device | |
CN112396057A (en) | Character recognition method and device and electronic equipment | |
US9342739B2 (en) | Character recognition apparatus, non-transitory computer readable medium, and character recognition method | |
JP2008219800A (en) | Writing extraction method, writing extracting device, and writing extracting program | |
JP7532124B2 (en) | Information processing device, information processing method, and program | |
JP4083723B2 (en) | Image processing device | |
US20240112348A1 (en) | Edge identification of documents within captured image | |
CN116959016A (en) | Document detection method, device, terminal equipment and storage medium | |
Rodriguez et al. | A pen-based interface for real-time document edition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20180206 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20190129 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20200211 Year of fee payment: 6 |