KR20090108487A - Method, apparatus and computer readable recording medium for preprocessing image - Google Patents
Method, apparatus and computer readable recording medium for preprocessing image Download PDFInfo
- Publication number
- KR20090108487A KR20090108487A KR1020080033926A KR20080033926A KR20090108487A KR 20090108487 A KR20090108487 A KR 20090108487A KR 1020080033926 A KR1020080033926 A KR 1020080033926A KR 20080033926 A KR20080033926 A KR 20080033926A KR 20090108487 A KR20090108487 A KR 20090108487A
- Authority
- KR
- South Korea
- Prior art keywords
- image
- logical structure
- preprocessing
- reference value
- unit
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
- G06V10/421—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation by analysing segments intersecting the pattern
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/03—Arrangements for converting the position or the displacement of a member into a coded form
- G06F3/033—Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
- G06F3/0354—Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor with detection of 2D relative movements between the device, or an operating part thereof, and a plane or surface, e.g. 2D mice, trackballs, pens or pucks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/03—Arrangements for converting the position or the displacement of a member into a coded form
- G06F3/041—Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means
- G06F3/0416—Control or interface arrangements specially adapted for digitisers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/40—Analysis of texture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Character Input (AREA)
- Character Discrimination (AREA)
Abstract
Description
본 발명은 이미지 전처리를 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체에 관한 것이다. 보다 상세하게는, 본 발명은 이미지에 포함되어 있는 논리적 구조를 분석하여 그 결과를 기초로 하여 이미지 전처리를 수행하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체에 관한 것이다.The present invention relates to a method, an apparatus and a computer readable recording medium for image preprocessing. More particularly, the present invention relates to a method, an apparatus and a computer readable recording medium for analyzing a logical structure included in an image and performing image preprocessing based on the result.
근래에 들어, 이미지에 포함되어 있는 문자 정보를, 컴퓨터 등의 디지털 기기로 처리하기 위한 다양한 기술들이 개발되고 있다. 이러한 처리를 통상적으로 디지타이징(digitizing)이라고 하는데, 디지타이징은, 이미지, 문서, 음성 등에 포함되어 있는 아날로그 정보를 디지털 정보로 가공하기 위한 일련의 과정을 의미하기도 한다.In recent years, various technologies have been developed for processing text information included in an image by a digital device such as a computer. This process is commonly referred to as digitizing. Digitizing also refers to a series of processes for processing analog information contained in an image, document, voice, etc. into digital information.
특히, 이미지를 디지타이징하기 위하여, 널리 알려진 광학 문자 인식(Optical Character Recognition; OCR) 기술이 이용되고 있다(여기서, 광학 문자 인식은, 스캐너 혹은 카메라 등의 광학 기기에 의해 생성된 이미지에 포함된, 손으로 쓴 문자나 인쇄된 문자를 컴퓨터 등의 디지털 기기로 편집할 수 있는 문자로 변 환하는 일련의 과정을 의미한다). 이 중에서도, 광학 문자 인식 시스템에서 널리 사용되는 문자 추출 기술(character extraction technology)은 문자 인식의 정확도를 결정 짓는 중요한 기술로서, 이와 관련된 연구가 특히 활발하게 진행되어 왔다.In particular, in order to digitize an image, well-known Optical Character Recognition (OCR) technology is used (wherein optical character recognition is a hand included in an image generated by an optical device such as a scanner or a camera). Means a process of converting written or printed characters into characters that can be edited by a digital device such as a computer). Among these, character extraction technology, which is widely used in optical character recognition systems, is an important technique for determining the accuracy of character recognition, and research on this has been particularly actively conducted.
광학 문자 인식 시스템 등에서 이미지로부터 문자를 추출하고 인식하기 위해서는, 먼저 이미지를 전처리(preprocessing)하여 문자가 포함된 영역을 추출해야 한다. 상기의 전처리 기술의 대표적인 예로는 이진화(binarization) 연산과 가장자리 검출(edge detection) 등이 있다. 그런데, 일반적으로 이미지는 스캐닝 상태가 나쁘다거나 조판 상태가 나쁘다는 등의 다양한 이유로 인해 이미지 내에 포함되는 개별적인 영역의 특성이 고르지 못하기 때문에, 각 영역의 특성에 따라 적응적으로 전처리를 수행하게 되면 성공적인 결과를 가져 올 수 있으며, 이에 대한 연구도 활발히 진행되어 왔다.In order to extract and recognize a character from an image in an optical character recognition system or the like, first, the image must be preprocessed to extract an area including the character. Representative examples of the preprocessing techniques include binarization operations and edge detection. However, in general, the image is uneven characteristics of individual regions included in the image due to various reasons such as bad scanning state or bad typesetting state, so that if the preprocessing is adaptively performed according to the characteristics of each region, Results can be obtained, and research on this has been actively conducted.
이와 같이, 이미지로부터 문자를 추출하기 위해 이미지를 전처리하는 기술의 일례가 일본공개특허공보 평13-043312호(2001.02.16. 공개, 발명의 명칭: 문서 화상 처리 장치)에 개시되어 있다.Thus, an example of the technique which preprocesses an image in order to extract a character from an image is disclosed by Unexamined-Japanese-Patent No. 13-043312 (February 16, 2001, the invention name: document image processing apparatus).
일본공개특허공보 평13-043312호에는, 입력된 이미지를 분할(segmentation)하고, 분할된 이미지 전체에 대해 1차적으로 이진화 연산을 수행하여 상기 이미지에서 문자가 포함된 영역을 찾아낸 후에, 상기 문자가 포함된 영역에 대해 문턱값을 달리하여 2차적으로 이진화 연산을 수행함으로써, 이미지에 포함된 문자를 추출하는 기술이 개시되어 있다.In Japanese Patent Laid-Open No. 13-043312, after segmenting an input image and performing a first binarization operation on the entire divided image to find an area containing the character in the image, the character is A technique for extracting a character included in an image by performing a binarization operation on a second basis with different thresholds is disclosed.
그리고, 이미지에서 문자를 추출하기 위해 이미지를 전처리하는 기술의 다른 일례가 일본공개특허공보 평13-222683호(2001.08.17. 공개, 발명의 명칭: 화상 처리 방법, 화상 처리 장치, 문자 인식 방법, 문자 인식 장치 및 기억 매체)에도 개시되어 있다.And another example of a technique for preprocessing an image to extract a character from the image is disclosed in Japanese Patent Application Laid-Open No. 13-222683 (August 17, 2001. Publication, name of the invention: an image processing method, an image processing apparatus, a character recognition method, A character recognition device and a storage medium).
일본공개특허공보 평13-222683호에는, 입력된 이미지를 문자가 존재하지 않는 영역과 문자가 존재하는 영역으로 분할하고, 문자가 존재하는 영역에 대해서는 이진화 연산의 문턱값을 적응적으로 결정하여 이진화 연산을 수행함으로써, 이미지에 포함된 문자를 추출하는 기술이 개시되어 있다.Japanese Patent Application Laid-Open No. Hei 13-222683 discloses that an input image is divided into a region in which no character exists and a region in which a character exists, and the threshold value of a binarization operation is adaptively determined for the region in which a character exists. By performing the operation, a technique for extracting characters contained in an image is disclosed.
또한, 이미지에 포함된 문자를 적응적으로 추출하여 인식하는 기술의 일례가 일본공개특허공보 평18-011966호(2006.01.12. 공개, 발명의 명칭: 문자 인식 장치, 문자 인식 프로그램)에 개시되어 있다.In addition, an example of a technique for adaptively extracting and recognizing a character included in an image is disclosed in Japanese Patent Laid-Open No. 18-011966 (published on Jan. 12, 2006, title of the invention: a character recognition device, a character recognition program). have.
일본공개특허공보 평18-011966호에는, 입력된 이미지의 전부 또는 일부에 대해 제1 비트 레이트(bit rate)로 복호화 처리하여 문자 인식을 수행하고, 상기 문자 인식의 정확도가 기설정된 값보다 작은 경우에는, 제1 비트 레이트보다 높은 제2 비트 레이트로 복호화 처리하여 다시 문자 인식을 수행하는 기술이 개시되어 있다.In Japanese Laid-Open Patent Publication No. 18-011966, character recognition is performed by decoding all or part of an input image at a first bit rate, and the accuracy of the character recognition is smaller than a predetermined value. In the following, a technique for performing character recognition again by decoding at a second bit rate higher than the first bit rate is disclosed.
그러나, 상기 공보들에 개시된 기술들을 비롯한 종래 기술들에 따르면, 이미지에 포함되어 있는 논리적 구조와는 관계 없이 이미지에 대한 전처리를 수행하기 때문에, 경우에 따라 만족스러운 전처리 결과를 얻기 힘들다는 문제점이 있었다(여기에서, 이미지에 포함되어 있는 논리적 구조란, 이미지에 포함된 객체인 공백, 표, 그림, 그래프, 단락, 문장, 줄, 단어, 문자, 자소 등이 이루고 있는 계층적인 구조를 의미한다). 예를 들어, 이미지에 포함되어 있는 논리적 구조를 고려하지 않은 채 이미지를 전처리하게 되면, 전처리에 의해 추출된 객체들 간에 간섭이 일어나는 문제가 발생하기 쉽다. 특히, 상대적으로 하위인 논리적 구조에 해당하는 객체에 대하여 이러한 현상이 자주 나타나게 된다. 또한, 이렇듯 이미지에 대한 전처리가 성공적이지 못하면, 종국적인 문자 인식의 정확도도 낮아지는 문제점이 있었다.However, according to the prior arts, including the techniques disclosed in the above publications, there is a problem that it is difficult to obtain satisfactory preprocessing results in some cases because the preprocessing of the image is performed regardless of the logical structure included in the image. (Here, the logical structure included in the image refers to a hierarchical structure composed of objects, such as spaces, tables, pictures, graphs, paragraphs, sentences, lines, words, characters, and phonemes, included in the image). For example, if the image is preprocessed without considering the logical structure included in the image, there is a problem that interference occurs between objects extracted by the preprocessing. In particular, this phenomenon often occurs for objects belonging to a relatively lower logical structure. In addition, if the preprocessing of the image is not successful, there is a problem that the accuracy of the final character recognition is also lowered.
본 발명은 상술한 문제점을 모두 해결하는 것을 그 목적으로 한다.The object of the present invention is to solve all the above-mentioned problems.
또한, 본 발명은 이미지에 포함된 문자를 추출하기에 앞서 이미지에 포함되어 있는 논리적 구조를 분석하고, 상기 분석된 논리적 구조에 따라 적응적으로 전처리의 기준값을 결정하여 이미지를 전처리함으로써, 성공적인 전처리 결과를 얻고, 결과적으로는 문자 인식의 정확도를 향상시키는 것에 그 목적이 있다.In addition, the present invention analyzes the logical structure included in the image prior to extracting the characters included in the image, and adaptively determine the reference value of the preprocessing according to the analyzed logical structure to pre-process the image, the successful preprocessing results The purpose is to improve the accuracy of character recognition.
그리고, 본 발명은 적응적으로 전처리된 이미지를 이용하여, 이미지에 포함되어 있는 논리적 구조를 정확하게 분석하는 것에 그 목적이 있다.In addition, an object of the present invention is to accurately analyze a logical structure included in an image using an adaptively preprocessed image.
상기 목적을 달성하기 위한 본 발명의 대표적인 구성은 다음과 같다.Representative configuration of the present invention for achieving the above object is as follows.
본 발명의 일 태양에 따르면, 이미지 전처리 방법으로서, 이미지에 포함되어 있는 논리적 구조를 분석하는 단계, 상기 분석된 논리적 구조에 따라 상기 이미지 중 적어도 일부를 계층적으로 영역화하는 단계, 상기 분석된 논리적 구조에 따라 상기 영역화된 적어도 일부의 이미지에 대한 전처리를 위한 기준값을 적응적으로 결정하는 단계, 및 상기 결정된 기준값을 상기 영역화된 적어도 일부의 이미지에 대하여 적용하는 단계를 포함하는 방법이 제공된다.According to an aspect of the present invention, an image preprocessing method, comprising: analyzing a logical structure included in an image, hierarchically regioning at least a portion of the image according to the analyzed logical structure, and analyzing the logical structure Adaptively determining a reference value for preprocessing the at least a portion of the imaged region according to the structure, and applying the determined reference value to the at least a portion of the imaged region .
본 발명의 다른 태양에 따르면, 이미지 전처리 장치로서, 이미지에 포함되어 있는 논리적 구조를 분석하는 논리적 구조 분석부, 상기 분석된 논리적 구조에 따라 상기 이미지 중 적어도 일부를 계층적으로 영역화하는 영역화부, 및 상기 분석 된 논리적 구조에 따라, 상기 영역화된 적어도 일부의 이미지에 대한 전처리를 위한 기준값을 적응적으로 결정하고, 상기 결정된 기준값을 상기 영역화된 적어도 일부의 이미지에 대하여 적용하는 전처리 연산부를 포함하는 장치가 제공된다.According to another aspect of the present invention, an image preprocessing apparatus, comprising: a logical structure analyzing unit for analyzing a logical structure included in an image, a localization unit hierarchically localizing at least a portion of the image according to the analyzed logical structure; And a preprocessing operation unit adapted to adaptively determine a reference value for the preprocessing of the at least part of the image, according to the analyzed logical structure, and apply the determined reference value to the at least a portion of the image. An apparatus is provided.
본 발명의 또 다른 태양에 따르면, 디지타이징 장치로서, 이미지를 입력 받는 이미지 입력부, 상기 입력된 이미지에 대하여 전처리를 수행하는 이미지 전처리부, 상기 전처리된 이미지로부터 문자를 인식하는 문자 인식부, 및 상기 인식된 문자를 포함하는 디지털 정보를 생성하는 디지털 정보 생성부를 포함하되, 상기 전처리부는, 상기 입력된 이미지에 포함되어 있는 논리적 구조를 분석하는 논리적 구조 분석부, 상기 분석된 논리적 구조에 따라 상기 입력된 이미지 중 적어도 일부를 계층적으로 영역화하는 영역화부, 및 상기 분석된 논리적 구조에 따라, 상기 영역화된 적어도 일부의 이미지에 대한 전처리를 위한 기준값을 적응적으로 결정하고, 상기 결정된 기준값을 상기 영역화된 적어도 일부의 이미지에 대하여 적용하는 전처리 연산부를 포함하는 장치가 제공된다.According to still another aspect of the present invention, there is provided a digitizing apparatus, comprising: an image input unit for receiving an image, an image preprocessor for preprocessing the input image, a character recognition unit for recognizing a character from the preprocessed image, and the recognition And a digital information generating unit for generating digital information including the written characters, wherein the preprocessing unit comprises: a logical structure analyzing unit analyzing the logical structure included in the input image, the input image according to the analyzed logical structure And a localization unit hierarchically localizing at least a portion of the at least a portion, and adaptively determining a reference value for preprocessing the at least a portion of the image, and localizing the determined reference value according to the analyzed logical structure. It includes a preprocessing operation unit for applying to at least a portion of the image It is provided an apparatus.
본 발명에 의하면, 상술한 바와 같이 이미지에 포함되어 있는 논리적 구조에 따라 적응적으로 이미지 전처리를 수행할 수 있게 되어, 이미지로부터 추출되는 객체들 간의 간섭이 최소화되므로, 결과적으로 이미지로부터의 문자 인식의 정확도가 향상되는 효과가 달성된다.According to the present invention, it is possible to adaptively perform image preprocessing according to the logical structure included in the image as described above, thereby minimizing the interference between objects extracted from the image, resulting in the recognition of the character from the image. The effect of improving accuracy is achieved.
또한, 본 발명에 의하면, 적응적으로 전처리된 이미지를 이용하여 입력된 이미지의 논리적 구조를 분석할 수 있게 된다.In addition, according to the present invention, it is possible to analyze the logical structure of the input image using the adaptively pre-processed image.
후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.DETAILED DESCRIPTION The following detailed description of the invention refers to the accompanying drawings that show, by way of illustration, specific embodiments in which the invention may be practiced. These embodiments are described in sufficient detail to enable those skilled in the art to practice the invention. It should be understood that the various embodiments of the present invention are different but need not be mutually exclusive. For example, certain shapes, structures, and characteristics described herein may be embodied in other embodiments without departing from the spirit and scope of the invention with respect to one embodiment. In addition, it is to be understood that the location or arrangement of individual components within each disclosed embodiment may be changed without departing from the spirit and scope of the invention. The following detailed description, therefore, is not to be taken in a limiting sense, and the scope of the present invention, if properly described, is defined only by the appended claims, along with the full range of equivalents to which such claims are entitled. Like reference numerals in the drawings refer to the same or similar functions throughout the several aspects.
이하, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 바람직한 실시예들에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings so that those skilled in the art can easily implement the present invention.
[본 발명의 바람직한 실시예][Preferred Embodiments of the Invention]
본 명세서에 있어서, 디지타이징이란, 이미지, 문서, 음성 등에 포함되어 있는 아날로그 정보를 디지털 정보로 가공하기 위한 일련의 과정을 의미한다. 특히, 본 명세서에서 언급된 디지타이징은 단순히 이미지에 포함된 문자를 인식하여 이를 포함하는 디지털 정보를 생성하는 것 외에도, 이미지에 대한 서지 정보나 이미지에 포함되어 있는 논리적 구조 등을 함께 고려하여 디지털 정보를 생성하는 것을 포함하는 최광의로 이해되어야 한다.In the present specification, digitizing means a series of processes for processing analog information contained in an image, a document, a voice, and the like into digital information. In particular, the digitizing mentioned in the present specification not only generates a digital information including a character included in the image by recognizing the characters included in the image, but also considers the bibliographic information on the image or the logical structure included in the image, and the like. It should be understood in the broadest sense to include what is produced.
또한, 본 명세서에 있어서, 광학 문자 인식이란, 스캐너 혹은 카메라 등의 광학 기기에 의해 생성된 이미지에 포함된, 손으로 쓴 문자나 인쇄된 문자를 컴퓨터 등의 디지털 기기로 편집할 수 있는 문자로 변환하는 일련의 과정을 의미한다. 특히, 본 명세서에서 광학 문자 인식은 이미지에 포함된 문자를 인식하는 것은 물론이고, 표, 그림 등의 객체를 인식하는 과정까지도 포괄하는 최광의로 이해되어야 한다.In addition, in this specification, the optical character recognition refers to converting handwritten characters or printed characters included in an image generated by an optical device such as a scanner or a camera into characters that can be edited by a digital device such as a computer. It means a series of processes. In particular, in the present specification, the optical character recognition should be understood as the broadest not only for recognizing characters included in an image, but also for recognizing objects such as tables and pictures.
또한, 본 명세서에 있어서, 논리적 구조란, 이미지가 포함할 수 있는 객체들이 이루고 있는 계층적인 구조이며, 여기에서, 객체는 이미지에 포함되어 광학적으로 구별될 수 있는 것으로서, 이미지에 포함된 공백, 표, 그림, 그래프, 단락, 문장, 줄, 단어, 문자, 자소 등이 이에 포함될 수 있다. 특히, 본 명세서에서 언급된 논리적 구조는, 상기 객체들 간의 계층 구조를 가리키며, 객체들은 이미지 내에서의 위치와 크기 정보에 의하여 영역화될 수 있는 것으로 이해되어야 한다. 그러나, 논리적 구조는 반드시 계층적이어야 할 필요는 없으며, 하나의 객체가 반드시 다른 객체에 포함되어 있어야 하는 것은 아니다.In addition, in the present specification, the logical structure is a hierarchical structure composed of objects that an image may include, and the objects may be included in the image and may be optically distinguished, and may include blanks and tables included in the image. This can include pictures, graphs, paragraphs, sentences, lines, words, characters, and phonemes. In particular, it is to be understood that the logical structure referred to herein refers to the hierarchical structure between the objects, and that the objects can be zoned by position and size information within the image. However, logical structures do not have to be hierarchical, and one object does not necessarily have to be included in another.
전체 시스템의 구성Configuration of the entire system
도 1은 본 발명의 일 실시예에 따라, 이미지를 이에 포함되어 있는 논리적 구조에 따라 적응적으로 전처리하고, 전처리된 이미지로부터 문자를 추출하고 인식 함으로써, 디지타이징을 수행하기 위한 전체 시스템의 개략적인 구성도이다.1 is a schematic configuration of an entire system for performing digitizing by adaptively preprocessing an image according to a logical structure included therein and extracting and recognizing characters from the preprocessed image according to an embodiment of the present invention. It is also.
도 1에 도시되어 있는 바와 같이 본 발명의 일 실시예에 따른 전체 시스템은, 문자를 포함하는 이미지에 대하여 디지타이징을 수행하는 디지타이징 장치(100), 디지타이징의 대상이 되는 이미지가 저장되어 있는 이미지 데이터베이스(200) 및 디지타이징을 수행한 결과 생성되는 디지털 정보가 저장되는 디지털 정보 데이터베이스(300)로 구성될 수 있다.As shown in FIG. 1, the entire system according to an embodiment of the present invention includes a
먼저, 본 발명의 일 실시예에 따른 디지타이징 장치(100)는 이미지를 입력 받을 수 있으며, 입력된 이미지로부터 문자를 추출하여 디지털 정보를 생성하는 기능을 수행한다. 구체적으로, 디지타이징 장치(100)는 산업용/개인용 컴퓨터, 워크스테이션, PDA, 휴대폰 등과 같이 메모리 수단을 구비하고 프로세서를 탑재하여 연산 능력을 갖춘 디지털 기기(미도시됨) 자체일 수도 있지만, 이러한 디지털 기기에 포함되는 프로그램 모듈에 관한 것일 수도 있다. 이러한 프로그램 모듈은 운영시스템, 응용 프로그램 모듈 및 기타 프로그램 모듈의 형태로 디지털 기기에 포함될 수 있으며, 물리적으로는 여러 가지 공지의 기억 장치 상에 저장될 수 있다. 또한, 이러한 프로그램 모듈은 상기와 같은 디지털 기기와 통신이 가능한 원격 기억 장치에 저장될 수도 있다. 한편, 이러한 프로그램 모듈은 본 발명에 따라 후술할 특정 업무를 수행하거나 특정 데이터 유형을 실행하는 루틴, 서브루틴, 프로그램, 오브젝트, 컴포넌트, 데이터 구조 등을 포괄하지만, 이에 제한되지는 않는다.First, the
전술한 바와 같이, 이미지 데이터베이스(200)와 디지털 정보 데이터베이스(300)에는 각각 디지타이징의 대상이 되는 이미지와 디지타이징 수행 결과 생성 되는 디지털 정보가 저장된다.As described above, the
본 발명에 따른 이미지는 디지타이징의 대상이 되는 것으로서, 단지 이미지 그 자체뿐만 아니라 이미지의 출처, 서지 사항, 생성일자 등의 정보를 더 포함하는 디지털 정보를 포괄적으로 칭한다. 이미지는 손으로 작성된 이미지나 인쇄된 이미지를 스캐너나 카메라 등의 광학 기기(미도시됨)를 이용하여 스캐닝하거나 촬영함으로써 생성되는 것이 일반적이지만, 반드시 이에 한정되는 것은 아니며, 문자 인식을 수반하는 디지타이징의 대상이 될 수 있는 것이라면 어떠한 디지털 정보도 본 발명에서 말하는 이미지에 해당될 수 있다. 예를 들면, 마우스, 펜 마우스, 터치 패드, 터치 패널, 태블릿(tablet) 등의 입력 장치(미도시됨) 등에 의해 생성된 이미지도 본 발명에 따른 이미지에 포함될 수 있다. 그리고, 이러한 이미지가 반드시 문서의 형식으로 작성된 내용을 포함하는 것일 필요는 없으며, 이미지에는 컬러 이미지, 그레이 스케일(gray-scale) 이미지는 물론, 컴퓨터 등의 디지털 기기로 처리할 수 있는 형식으로 작성된 이미지가 모두 포함될 수 있다.The image according to the present invention is an object of digitizing, and refers generically to digital information further including not only the image itself but also information such as the source, bibliographic information, creation date, and the like. An image is generally generated by scanning or photographing a hand-written image or a printed image by using an optical device (not shown) such as a scanner or a camera. However, the image is not necessarily limited thereto. Any digital information may correspond to the image in the present invention as long as it can be an object. For example, an image generated by an input device (not shown) such as a mouse, pen mouse, touch pad, touch panel, tablet, or the like may also be included in the image according to the present invention. In addition, the image does not necessarily need to include content written in the form of a document, and the image may be a color image, a gray-scale image, or an image that may be processed by a digital device such as a computer. All may be included.
또한, 본 발명에 따른 디지털 정보는 본 발명의 디지타이징 장치(100)에 의하여 이미지에 대한 디지타이징이 수행됨으로써 생성된 정보를 총칭하는 것으로서, 이미지에 대한 서지 정보, 이미지에 포함되어 있는 논리적 구조 및 이미지에 포함된 문자의 인식 정보를 포괄하는 것으로 이해되어야 한다.In addition, the digital information according to the present invention collectively refers to information generated by digitizing the image by the digitizing
디지타이징Digitizing 장치의 구성 Configuration of the device
이하에서는, 본 발명의 일 실시예에 따른 디지타이징 장치(100)의 내부 구성 및 각 구성요소의 기능에 대하여 살펴보기로 한다.Hereinafter, the internal structure of the digitizing
도 1을 참조하면, 본 발명의 일 실시예에 따른 디지타이징 장치(100)는 디지타이징 장치(100) 내의 각 구성요소를 제어하는 제어부(110), 이미지를 입력 받는 이미지 입력부(130), 입력 받은 이미지에 대하여 전처리를 수행하는 이미지 전처리부(150), 전처리된 이미지를 이용하여 이미지에 포함되어 있는 문자를 인식하는 문자 인식부(170), 이미지에 대한 서지 정보, 이미지에 포함되어 있는 논리적 구조 정보 및 이미지에 포함된 문자의 인식 정보를 이용하여 소정의 형식에 따라 디지털 정보를 생성하는 디지털 정보 생성부(190) 등으로 구성될 수 있음을 알 수 있다.Referring to FIG. 1, the digitizing
본 발명의 일 실시예에 따르면, 제어부(110), 이미지 입력부(130), 이미지 전처리부(150), 문자 인식부(170) 및 디지털 정보 생성부(190)는 그 중 적어도 일부가 프로그램 모듈들일 수 있다. 이러한 프로그램 모듈들은 운영 시스템, 응용 프로그램 모듈 및 기타 프로그램 모듈의 형태로 디지타이징 장치(100)에 포함될 수 있으며, 물리적으로는 여러 가지 공지의 기억 장치 상에 저장될 수 있다. 또한, 이러한 프로그램 모듈들은 디지타이징 장치(100)와 통신 가능한 원격 기억 장치에 저장될 수도 있다. 한편, 이러한 프로그램 모듈들은 본 발명에 따라 후술할 특정 업무를 수행하거나 특정 추상 데이터 유형을 실행하는 루틴, 서브루틴, 프로그램, 오브젝트, 컴포넌트, 데이터 구조 등을 포괄하지만, 이에 제한되지는 않는다.According to an embodiment of the present invention, the
먼저, 제어부(110)는 이미지 입력부(130), 이미지 전처리부(150), 문자 인식부(170) 및 디지털 정보 생성부(190) 간의 데이터의 흐름을 제어하는 기능을 수행한다. 즉, 본 발명의 일 실시예에 따른 제어부(100)는 디지타이징 장치(100)의 각 구성요소 간의 데이터의 흐름을 제어함으로써, 이미지 입력부(130), 이미지 전처리 부(150), 문자 인식부(170) 및 디지털 정보 생성부(190)가 각각 고유의 기능을 수행하도록 제어한다.First, the
본 발명의 일 실시예에 따르면, 이미지 입력부(130)는 디지타이징의 대상의 되는 이미지를 입력 받는 기능을 수행한다. 디지타이징의 대상이 되는 이미지의 종류는 굳이 제한될 필요가 없으나, 바람직하게는 문자를 포함하는 이미지 또는 이미지들의 집합의 파일이 고려될 수 있다.According to an embodiment of the present invention, the image input unit 130 performs a function of receiving an image that is a target of digitizing. The type of image to be digitized does not necessarily need to be limited, but preferably, a file of an image or a set of images including characters may be considered.
이미지 전처리부(150)는 본 발명의 일 실시예에 따라 이미지 입력부(130)에 의해 입력된 이미지에 포함되어 있는 논리적 구조를 분석하고 이미지의 적어도 일부를 영역화하며, 각 영역에 해당되는 논리적 구조에 따라 전처리의 기준값을 적응적으로 결정하고, 이를 상기 영역화된 이미지에 적용하여 전처리를 수행할 수 있다. 본 발명의 일 실시예에 따른 이미지 전처리부(150)에 관하여는, 도 2와 도 3을 참고하여 나중에 더 자세히 살펴보기로 한다.The
한편, 본 발명의 일 실시예에 따르면, 문자 인식부(170)는 공지의 이미지 분석 알고리즘에 의하여 전처리된 이미지 내에 포함되어 있는 문자를 인식한다. 이와 관련하여, 본 발명이 속하는 기술분야의 당업자는 공지된 기술 문헌인 한국정보과학회의 "2007 한국컴퓨터종합학술대회 논문집 Vol. 34, No. 1(C)"에 개시된 문자 인식 기술 등을 참고할 수 있다. 물론, 이미지 분석 알고리즘에 대하여, 위의 문헌 외에도 다양한 문헌을 참조할 수 있다.On the other hand, according to an embodiment of the present invention, the
본 발명의 일 실시예에 따르면, 디지털 정보 생성부(190)는 이미지에 대한 서지 정보, 이미지에 포함되어 있는 논리적 구조 및 이미지에 포함된 문자의 인식 정보를 이용하여, 소정의 형식에 따른 디지털 정보를 생성하는 기능을 수행한다. 예를 들면, 본 발명의 일 실시예에 따른 디지털 정보는 워드 파일과 같은 문서 파일로서 구현될 수도 있고, HTML(HyperText Markup Language)나 XML(eXtensible Markup Language)와 같은 마크업 언어로 표현된 웹 페이지로서 구현될 수도 있다.According to an embodiment of the present invention, the digital
이미지 전처리부의 구성Image Preprocessor
이하에서는, 본 발명의 일 실시예에 따른 이미지 전처리부(150)의 내부 구성 및 각 구성요소의 기능에 대하여 살펴보기로 한다.Hereinafter, the internal structure of the
도 2는 본 발명의 일 실시예에 따른 이미지 전처리부(150)의 내부 구성을 상세하게 도시한 도면이다. 도 2를 참조하면, 본 발명의 일 실시예에 따른 이미지 전처리부(150)는, 전처리 연산부(152), 논리적 구조 분석부(154), 영역화부(156) 등으로 구성될 수 있음을 알 수 있다.2 is a diagram illustrating an internal configuration of the
먼저, 본 발명의 일 실시예에 따른 전처리 연산부(152)는, 문자를 인식하기에 앞서, 이미지에 포함되어 있는 문자가 문자 외의 부분과 명확하게 구별되도록 하여 문자가 포함된 이미지 영역을 정확하게 추출할 수 있도록 처리하는 기능을 수행한다. 전처리 연산부(152)는 상기와 같은 처리를 위해서 다양한 전처리 기술을 채용할 수 있는데, 이러한 전처리 기술의 예로서 이진화 연산을 상정할 수 있다. 여기에서, 이진화 연산은 이미지를 구성하는 개별 픽셀에 대하여, 픽셀값이 문턱값 이상인 경우에는 픽셀값을 1로 지정하고, 그렇지 않은 경우에는 픽셀값을 0으로 지정하는 처리를 의미한다. 일반적으로, 문자에 해당하는 부분은 해당 이미지 내에서 상대적으로 어둡게 표현되며, 이에 따라 상대적으로 낮은 픽셀값을 가지기 때문 에, 이진화 연산을 거치면 대개 이미지 내의 문자 부분이 두드러지게 강조될 수 있다. 물론, 이와 같은 전처리 기술로서 이진화 연산만 채용 가능한 것은 아니며, 이미지에 포함된 문자 부분을 명확하게 구별할 수 있도록 하는 기술이면, 본 발명에서 말하는 전처리 기술로서 채택될 수 있다.First, before processing the character, the
본 발명의 일 실시예에 따르면, 전처리 연산부(152)는 이미지에 대하여 전처리를 수행함에 있어서, 이미지의 특정 영역의 속성에 따라 전처리를 위한 기준값을 적응적으로 적용할 수 있다. 구체적으로는, 상기 전처리를 위한 기준값과 관련하여, 본 발명의 일 실시예에 따라 전처리 기술로서 이진화 연산을 채용하는 경우, 이진화의 문턱값을 적응적으로 변경하면서 이미지에 대하여 전처리를 수행할 수 있다.According to an embodiment of the present invention, in performing the preprocessing on the image, the
보다 구체적으로는, 이미지의 특정 영역의 속성과 관련하여, 본 발명의 일 실시예에 따르면, 이미지의 특정 영역에 해당하는 논리적 구조[후술하는 논리적 영역 분석부(154)에 의해 분석됨]에 따라 상기 이진화 연산을 위한 문턱값을 적응적으로 적용할 수 있다. 바람직하게는, 상대적으로 상위인 논리적 구조에 해당하는 영역에 대해서는 이진화 연산의 문턱값을 높게 조정하여 적용할 수 있으며, 상대적으로 하위인 논리적 구조에 해당하는 영역에 대해서는 이진화 연산의 문턱값을 낮게 조정하여 적용할 수 있다.More specifically, in relation to an attribute of a specific region of the image, according to an embodiment of the present invention, according to the logical structure corresponding to the specific region of the image (analyzed by the logical
본 발명에 따르면, 논리적 영역 분석부(154)는 이미지에 포함된 객체들이 이루고 있는 계층 구조, 즉 이미지에 포함되어 있는 논리적 구조를 분석하는 기능을 수행하게 된다. 본 발명의 일 실시예에 따른 논리적 영역 분석부(154)는 공지의 알고리즘에 의하여 이미지에 포함되어 있는 논리적 구조를 분석할 수 있는데, 이와 관련하여, 본 발명이 속하는 기술분야의 당업자는 공지된 기술 문헌인 "Computer Vision and Pattern Recognition, 1994"에 게재된 논문인, Robert M. Haralick의 "Document Image Understanding: Geometric and Logical Layout"에 개시된 문서 이미지의 논리적 구조 분석 기술 등을 참고할 수 있다. 물론, 본 발명을 실시하려고 하는 자는 이에 한정되지 않고, 다른 다양한 공지 기술을 채용하여 본 발명을 구현할 수 있을 것이다.According to the present invention, the
본 발명의 일 실시예에 따르면, 영역화부(156)는 논리적 구조 분석부(154)에 의해 분석된 이미지의 논리적 구조에 따라 이미지를 영역화하는 기능을 수행한다. 본 발명의 일 실시예에 따르면, 영역화부(156)는 이미지 중 동일한 계층의 논리적 구조에 해당하는 부분을 서로 병합하여 영역화할 수 있으며, 상기 이미지의 논리적 구조는 계층적이고 상기 이미지의 논리적 구조에 속하는 객체들은 서로 포함 관계를 이룰 수 있기 때문에 영역화부(156)에 의해 생성되는 영역들은 서로 중첩되는 부분을 가질 수도 있다. 이와 관련하여, 이미지의 특정 부분을 영역화하는 기술로서, 연결 요소 레이블링(Connected Component Labeling) 기술 등을 고려할 수 있다. 그러나, 물론, 본 발명을 구현하기 위하여 연결 요소 레이블링 기술만 이용 가능한 것은 아니며, 다양한 변형예를 적용하여 본 발명을 구현할 수 있을 것이다.According to an embodiment of the present invention, the
이하에서는, 이미지 전처리부(150)의 구체적인 동작 원리와 전처리 성능에 대하여, 첨부된 도면을 참조하여 상세히 설명하기로 한다.Hereinafter, a detailed operation principle and preprocessing performance of the
도 3a는 본 발명의 일 실시예에 따른 이미지 전처리부(150)의 동작을 순차적 으로 나타내는 도면이고, 도 3b는 이미지 전처리부(150)에 의해 이미지에 대한 전처리가 수행된 결과를 예시적으로 나타내는 도면이다.3A is a diagram sequentially illustrating an operation of the
도 3a를 참조하면, 이미지 전처리부(150)는 입력된 이미지에 대하여 1차적으로 전처리를 수행하고(S301), 1차적으로 전처리된 이미지의 상위 논리적 구조를 분석한다(S303). 통상적으로, 이러한 상위 논리적 구조에 해당하는 객체들은 이미지 내에서 상대적으로 넓은 영역에 해당하게 될 수 있는데, 예를 들면, 단락, 문장, 줄 등이 본 발명에서 말하는 상위 논리적 구조에 해당하는 객체들이 될 수 있다. 그리고 나서, 분석된 논리적 구조에 따라 이미지는 영역화된다(S305). 이에 따라, 이미지 내에서 특정한 논리적 구조에 해당하는 영역이 다른 영역과 구분될 수 있다.Referring to FIG. 3A, the
다음으로, 영역화된 이미지에 포함되어 있는 논리적 구조에 따라 전처리의 기준값을 적응적으로 결정하여 적용함으로써, 2차적으로 전처리가 수행된다(S307). 바람직하게는, 이와 같은 2차적인 전처리는, 상기 1차 전처리가 수행된 결과 출력되는 이미지에 대하여 수행되기보다는, 입력된 원본 이미지에 대하여 수행될 수 있다. 물론, 덜 바람직하게는, 2차 전처리가 1차 전처리가 수행된 결과 출력되는 이미지에 대하여 수행되어도 좋다. 또한, 상기와 같은 2차적인 전처리는 특정 논리적 구조에 속하는 이미지 영역에 대해서만 수행될 수 있으므로, 상기 1차 전처리의 경우와 비교하여 더 세밀하고 정확한 전처리 결과가 도출될 수도 있게 된다. 이어서, 2차적으로 전처리된 이미지에 포함되어 있는 하위 논리적 구조를 분석할 수 있다(S309). 통상적으로, 이러한 하위 논리적 구조는 이미지 내에서 상대적으로 좁 은 영역에 해당하게 되는데, 예를 들면, 단어, 글자, 자소 등이 본 발명에서 말하는 하위 논리적 구조에 속하는 객체들일 수 있다.Next, by preliminarily determining and applying the reference value of the preprocessing according to the logical structure included in the areaized image, the preprocessing is performed second (S307). Preferably, such secondary preprocessing may be performed on the input original image, rather than on the image that is output as a result of the primary preprocessing. Of course, less preferably, secondary preprocessing may be performed on the image that is output as a result of the primary preprocessing. In addition, since the secondary preprocessing may be performed only on the image region belonging to a specific logical structure, more detailed and accurate preprocessing results may be obtained as compared with the case of the first preprocessing. Subsequently, the lower logical structure included in the second preprocessed image may be analyzed (S309). In general, such a lower logical structure corresponds to a relatively narrow area in the image. For example, words, letters, phonemes, etc. may be objects belonging to the lower logical structure of the present invention.
이미지 전처리부(150)가 수행하는 위와 같은 예시적인 이미지 전처리 과정은, 반드시 도 3a에 도시된 것에만 한정되는 것은 아니다. 예를 들면, 이미지에 포함되는 논리적 구조 중 최상위 논리적 구조로부터 최하위 논리적 구조로의 순서로 반복적으로 전처리가 수행될 수도 있다. 여기에서, 최상위 논리적 구조에 해당하는 객체는 입력된 이미지 자체일 수도 있고, 최하위 논리적 구조에 해당하는 객체는 글자 혹은 자소일 수 있다.The exemplary image preprocessing process performed by the
도 3b를 참조하면, 이미지에 대한 상기 1차 전처리에 따른 결과와 상기 2차 전처리에 따른 결과를 비교할 수 있다. 예를 들어, 단어 "청하는"에 대한 전처리 수행 결과를 구체적으로 비교하여 보기로 한다. 도 3b에 따르면, 이미지의 논리적 구조를 고려하지 않고 전처리의 기준값을 고정적으로 적용한 상기 1차 전처리 수행 결과, 단어 "청하는"에서, 글자 "청"의 자음과 모음이 모두 연결되었고, 글자 "하"의 자음이 연결되었으며, 글자 "하"와 글자 "는"이 서로 연결되어 나타났다. 이와 같이, 단어의 구성요소인 글자나 자소가 서로 연결되어 추출되는 경우에는 이들을 분리하여 인식하기 어렵기 때문에, 결과적으로 문자 인식의 정확도가 낮아지게 된다. 반면에, 이미지에 포함되어 있는 논리적 구조에 따라 전처리의 기준값을 적응적으로 결정하여 적용한 상기 2차 전처리 수행의 경우, 단어 "청하는"의 모든 구성요소가 서로 연결되지 않고 분리되어 나타난 것을 알 수 있다. 이와 같이, 단어의 구성요소가 서로 분리되어 추출되는 경우에는, 단어의 구성요소를 분리하여 인식할 수 있으므로, 결과적으로 문자 인식의 정확도가 높아지게 된다.Referring to FIG. 3B, a result of the first preprocessing of the image and a result of the second preprocessing may be compared. For example, the results of performing the preprocessing on the word "soliciting" will be specifically compared. According to FIG. 3B, as a result of performing the first preprocessing fixedly applying the reference value of the preprocessing without considering the logical structure of the image, in the word "soliciting", all the consonants and vowels of the letter "blue" are connected, and the letter "bottom" The consonants of "are connected, and the letters" ha "and the letter" a "are connected to each other. As described above, when letters or phonemes which are constituents of words are connected to each other and extracted, it is difficult to separate and recognize them. As a result, the accuracy of character recognition is lowered. On the other hand, in the case of performing the second preprocessing by adaptively determining and applying the reference value of the preprocessing according to the logical structure included in the image, it can be seen that all the components of the word "listening" are separated from each other without being connected to each other. have. As described above, when the components of the words are separated from each other and extracted, the components of the words can be recognized separately, resulting in an increase in the accuracy of character recognition.
이상에서 설명한 바와 같이, 본 발명의 일 실시예에 따른 이미지 전처리부(150)는 이미지의 논리적 구조에 따라 전처리의 기준값을 적응적으로 결정하여 적용함으로써, 이미지를 성공적으로 전처리할 수 있게 된다.As described above, the
본 발명의 활용 예Application Examples of the Invention
이하에서는, 본 발명의 일 실시예에 따라, 디지타이징 장치(100)가 이미지를 입력 받아 전처리를 수행하고, 이미지에 포함된 문자를 인식하여, 상기 이미지에 대응되는 디지털 정보를 생성하는 실례에 대하여 살펴보기로 한다.Hereinafter, according to an embodiment of the present invention, the digitizing
도 4는 본 발명의 일 실시예에 따른 디지타이징 장치(100)의 순차적인 동작을 나타내는 흐름도이고, 도 5a는 본 발명의 일 실시예에 따라 이미지에 대하여 이진화 연산을 수행한 결과를 예시적으로 나타내는 도면이며, 도 5b는 본 발명의 일 실시예에 따라 이미지의 논리적 구조를 분석하여 영역화를 수행한 결과를 예시적으로 나타내는 도면이고, 도 5c는 본 발명의 일 실시예에 따라 디지타이징을 수행한 결과 생성된 디지털 정보를 예시적으로 나타내는 도면이다.4 is a flowchart illustrating a sequential operation of the digitizing
예를 들어, 디지타이징 장치(100)가 이미지 데이터베이스(200)로부터 이미지를 입력 받는다고 가정하자(S400). 이와 같은 경우, 이미지는 이미지 입력부(130)에 의해 입력될 수 있다. 이때에, 본 발명의 바람직한 일 실시예에 따르면, 이미지뿐만 아니라 이미지의 출처, 서지 사항, 생성일자 등의 정보도 함께 입력될 수 있다.For example, assume that the digitizing
다음으로, 본 발명의 일 실시예에 따르면, 이미지 전처리부(150)의 전처리 연산부(152)는, 기설정된 전처리의 기준값을 적용하여, 이미지를 전처리할 수 있다(S402). 본 발명의 바람직한 일 실시예에 따르면, 이미지를 전처리하는 기술로서, 이진화 연산이 채택될 수 있으며, 상기 전처리의 기준값으로서 이진화 연산의 문턱값이 채택될 수도 있다.Next, according to an embodiment of the present invention, the
다음으로, 본 발명의 일 실시예에 따르면, 이미지 전처리부(150)의 논리적 구조 분석부(154)가, 이전 단계의 전처리에 의해 추출된 객체들이 이루고 있는 이미지의 논리적 구조를 분석할 수 있다(S404). 본 발명의 바람직한 일 실시예에 따르면, 논리적 구조는 공백, 표, 그림, 그래프, 단락, 문장, 줄, 단어, 문자, 자소 등의 객체가 이루고 있는 계층 구조일 수 있다. 논리적 구조 분석부(154)는 상대적으로 상위인 논리적 구조만을 분석할 수도 있을 것이며, 필요에 따라서는 최상위 논리적 구조만을 분석할 수도 있을 것이다.Next, according to an embodiment of the present invention, the logical
다음으로, 본 발명의 일 실시예에 따르면, 이미지 전처리부(150)의 영역화부(156)는, 분석된 논리적 구조에 따라, 전처리된 이미지 중 동일한 계층의 논리적 구조에 해당하는 부분을 서로 병합하여 영역화할 수 있다(S406). 본 발명의 바람직한 일 실시예에 따르면, 영역화부(156)에 의해 생성되는 영역들은 서로 중첩되는 부분을 가질 수도 있다.Next, according to an embodiment of the present invention, the
다음으로, 본 발명의 일 실시예에 따르면, 이미지 전처리부(150)의 전처리 연산부(152)는, 상기 영역화된 부분에 해당되는 논리적 구조에 따라 전처리의 기준값을 적응적으로 결정하여 적용함으로써 반복적인 전처리를 수행할 수 있다. 즉, 상기 입력된 이미지 상에서 상기 영역화된 부분에 대하여 반복하여 전처리를 수행 할 수 있다(S408). 본 발명의 바람직한 일 실시예에 따르면, 상기와 같은 반복적인 전처리는, 이전 단계에서의 전처리가 수행된 결과 출력되는 이미지에 대하여 수행될 필요 없이, 아직 전처리가 수행되지 않은 상기 입력된 원본 이미지에 대하여 수행될 수 있다. 또한, 본 발명의 바람직한 일 실시예에 따르면, 상기와 같은 반복적인 전처리는 입력된 이미지 전체에 대하여 수행될 수 있으며, 상기 입력된 이미지 중 상기 영역화된 부분에 대하여서만 수행될 수도 있다. 또한, 본 발명의 바람직한 일 실시예에 따르면, 상기와 같은 반복적인 전처리는, 전처리가 이진화 연산인 경우, 이전 단계에서 수행된 이진화 연산의 문턱값보다 낮은 문턱값을 적용하여 수행될 수 있으며, 반대로 이전 단계에서 수행된 이진화 연산의 문턱값보다 높은 문턱값을 적용하여 수행될 수도 있다.Next, according to an embodiment of the present invention, the
다음으로, 본 발명의 일 실시예에 따르면, 이전 단계에서 수행된 전처리가, 최하위 논리적 구조에 해당하는 영역에 대해서 수행된 것인 경우에는 문자 인식 단계(S410)가 수행될 수 있으며, 최하위 논리적 구조에 해당하는 영역에 대해서 수행된 것이 아닌 경우에는 논리적 구조를 분석하는 단계(S404)가 더 수행될 수 있다.Next, according to an embodiment of the present invention, when the preprocessing performed in the previous step is performed for the area corresponding to the lowest logical structure, the character recognition step S410 may be performed, and the lowest logical structure If it is not performed for the area corresponding to the step of analyzing the logical structure (S404) may be further performed.
이와 같이, 이미지 전처리부(150)가 입력된 이미지에 대한 전처리를 수행하면, 문자 인식부(170)는 상기 전처리된 이미지에 포함된 문자를 인식할 수 있으며, 디지털 정보 생성부(190)는 입력된 이미지의 출처, 서지 사항, 생성일자 등의 정보와 문자 인식 정보를 이용하여 디지털 정보를 생성할 수 있다.As such, when the
이상 설명된 본 발명에 따른 실시예들은 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체 에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.Embodiments according to the present invention described above may be implemented in the form of program instructions that can be executed by various computer components and recorded in a computer-readable recording medium. The computer-readable recording medium may include program instructions, data files, data structures, etc. alone or in combination. Program instructions recorded on the computer-readable recording medium may be those specially designed and configured for the present invention, or may be known and available to those skilled in the computer software arts. Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks and magnetic tape, optical recording media such as CD-ROMs, DVDs, and magneto-optical media such as floptical disks. media), and hardware devices specifically configured to store and execute program instructions, such as ROM, RAM, flash memory, and the like. Examples of program instructions include not only machine code generated by a compiler, but also high-level language code that can be executed by a computer using an interpreter or the like. The hardware device may be configured to operate as one or more software modules to perform the process according to the invention, and vice versa.
이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명이 상기 실시예들에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형을 꾀할 수 있다.Although the present invention has been described by specific embodiments such as specific components and the like, but the embodiments and the drawings are provided to assist in a more general understanding of the present invention, the present invention is not limited to the above embodiments. For those skilled in the art, various modifications and variations can be made from these descriptions.
따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등하게 또는 등가적 으로 변형된 모든 것들은 본 발명의 사상의 범주에 속한다고 할 것이다.Accordingly, the spirit of the present invention should not be limited to the above-described embodiments, and all of the equivalents or equivalents of the claims, as well as the appended claims, fall within the scope of the spirit of the present invention. I will say.
도 1은 본 발명의 일 실시예에 따라, 이미지를 이에 포함되어 있는 논리적 구조에 따라 적응적으로 전처리하고, 전처리된 이미지로부터 문자를 추출하고 인식함으로써, 디지타이징을 수행하기 위한 전체 시스템의 개략적인 구성도이다.1 is a schematic configuration of an entire system for performing digitizing by adaptively preprocessing an image according to a logical structure included therein, extracting and recognizing characters from the preprocessed image, according to an embodiment of the present invention. It is also.
도 2는 본 발명의 일 실시예에 따른 이미지 전처리부의 내부 구성을 상세하게 도시한 도면이다.2 is a diagram illustrating in detail the internal configuration of the image preprocessor according to an embodiment of the present invention.
도 3a는 본 발명의 일 실시예에 따른 이미지 전처리부의 동작을 순차적으로 나타내는 도면이고, 도 3b는 이미지 전처리부에 의해 이미지에 대한 전처리가 수행된 결과를 예시적으로 나타내는 도면이다.3A is a diagram sequentially illustrating an operation of an image preprocessor according to an exemplary embodiment of the present invention, and FIG. 3B is a diagram illustrating a result of performing preprocessing on an image by the image preprocessor.
도 4는 본 발명의 일 실시예에 따른 디지타이징 장치의 순차적인 동작을 나타내는 흐름도이다.4 is a flowchart illustrating a sequential operation of the digitizing apparatus according to an embodiment of the present invention.
도 5a는 본 발명의 일 실시예에 따라 이미지에 대하여 이진화 연산을 수행한 결과를 예시적으로 나타내는 도면이며, 도 5b는 본 발명의 일 실시예에 따라 이미지의 논리적 구조를 분석하여 영역화를 수행한 결과를 예시적으로 나타내는 도면이고, 도 5c는 본 발명의 일 실시예에 따라 디지타이징을 수행한 결과 생성된 디지털 정보를 예시적으로 나타내는 도면이다.5A is a diagram exemplarily illustrating a result of performing a binarization operation on an image according to an embodiment of the present invention, and FIG. 5B is an area analysis by analyzing a logical structure of an image according to an embodiment of the present invention. FIG. 5C is a diagram illustrating one result, and FIG. 5C is a diagram illustrating digital information generated as a result of digitizing according to an embodiment of the present invention.
<주요 도면부호에 관한 간단한 설명><Brief description of the major reference numerals>
110: 제어부110: control unit
130: 이미지 입력부130: image input unit
150: 이미지 전처리부150: image preprocessor
152: 전처리 연산부152: preprocessing unit
154: 논리적 구조 분석부154: logical structure analysis unit
156: 영역화부156: zone
170: 문자 인식부170: character recognition unit
190: 디지털 정보 생성부190: digital information generating unit
Claims (11)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020080033926A KR100942257B1 (en) | 2008-04-11 | 2008-04-11 | Method, apparatus and computer readable recording medium for preprocessing image |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020080033926A KR100942257B1 (en) | 2008-04-11 | 2008-04-11 | Method, apparatus and computer readable recording medium for preprocessing image |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20090108487A true KR20090108487A (en) | 2009-10-15 |
KR100942257B1 KR100942257B1 (en) | 2010-02-16 |
Family
ID=41551867
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020080033926A KR100942257B1 (en) | 2008-04-11 | 2008-04-11 | Method, apparatus and computer readable recording medium for preprocessing image |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100942257B1 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20170026999A (en) | 2015-09-01 | 2017-03-09 | 주식회사 셀바스에이아이 | Method for pre-processing image data, computer readable medium including set of commands for performing the same and optical object recognition appratus using the same |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7499588B2 (en) | 2004-05-20 | 2009-03-03 | Microsoft Corporation | Low resolution OCR for camera acquired documents |
-
2008
- 2008-04-11 KR KR1020080033926A patent/KR100942257B1/en active IP Right Grant
Also Published As
Publication number | Publication date |
---|---|
KR100942257B1 (en) | 2010-02-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101087443B1 (en) | Digital ink annotation process and system for recognizing, anchring and reflowing digital ink annotations | |
Chen et al. | Automatic detection and recognition of signs from natural scenes | |
CA2077565C (en) | Methods and apparatus for automatic modification of semantically significant portions of a document without document image decoding | |
US10643094B2 (en) | Method for line and word segmentation for handwritten text images | |
CN106663189A (en) | System and method for superimposed handwriting recognition technology | |
US6904170B2 (en) | Method and system for document segmentation | |
Villegas et al. | On the modification of binarization algorithms to retain grayscale information for handwritten text recognition | |
Ziran et al. | Text alignment in early printed books combining deep learning and dynamic programming | |
Malik et al. | An efficient segmentation technique for Urdu optical character recognizer (OCR) | |
Bukhari et al. | Layout analysis of Arabic script documents | |
Vajda et al. | A method for camera-based interactive whiteboard reading | |
Lehal | A complete machine-printed Gurmukhi OCR system | |
KR100942257B1 (en) | Method, apparatus and computer readable recording medium for preprocessing image | |
US9684844B1 (en) | Method and apparatus for normalizing character included in an image | |
Peters et al. | Embedded reading device for blind people: a user-centered design | |
Al-Shatnawi | A skew detection and correction technique for Arabic script text-line based on subwords bounding | |
Nazemi et al. | Practical segmentation methods for logical and geometric layout analysis to improve scanned PDF accessibility to Vision Impaired | |
US10572751B2 (en) | Conversion of mechanical markings on a hardcopy document into machine-encoded annotations | |
Ferilli et al. | A distance-based technique for non-manhattan layout analysis | |
Nazemi et al. | Mathematical information retrieval (MIR) from scanned pdf documents and MathML conversion | |
Mohammad et al. | Printed Arabic optical character segmentation | |
Lin et al. | Table detection in online ink notes | |
Terrades et al. | Interactive-predictive detection of handwritten text blocks | |
Bagarukayo | Marvin Ssemambo Reg: 2016/HD05/344U Std No: 210025242 sallanmarvin@ gmail. com/mssemambo@ cis. mak. ac. ug | |
Iwane et al. | A functional classification approach to layout analysis of document images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20130111 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20131231 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20151223 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20170117 Year of fee payment: 8 |
|
FPAY | Annual fee payment |
Payment date: 20180102 Year of fee payment: 9 |
|
FPAY | Annual fee payment |
Payment date: 20190102 Year of fee payment: 10 |
|
FPAY | Annual fee payment |
Payment date: 20200102 Year of fee payment: 11 |