KR100470346B1 - The method for clustering an image of a character and the method for high-speed inputting and correcting a character by using the same - Google Patents

The method for clustering an image of a character and the method for high-speed inputting and correcting a character by using the same Download PDF

Info

Publication number
KR100470346B1
KR100470346B1 KR10-2002-0032086A KR20020032086A KR100470346B1 KR 100470346 B1 KR100470346 B1 KR 100470346B1 KR 20020032086 A KR20020032086 A KR 20020032086A KR 100470346 B1 KR100470346 B1 KR 100470346B1
Authority
KR
South Korea
Prior art keywords
image
images
bitmap
text
grouped
Prior art date
Application number
KR10-2002-0032086A
Other languages
Korean (ko)
Other versions
KR20030094797A (en
Inventor
윤용석
김동현
Original Assignee
주식회사 팔만시스템
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 팔만시스템 filed Critical 주식회사 팔만시스템
Priority to KR10-2002-0032086A priority Critical patent/KR100470346B1/en
Publication of KR20030094797A publication Critical patent/KR20030094797A/en
Application granted granted Critical
Publication of KR100470346B1 publication Critical patent/KR100470346B1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0233Character input methods

Abstract

본 발명은, 세그먼트화된 비트맵 이미지를 비교하는 단계; 상기 비교 단계를 통해서 유사한 문자로 인식된 비트맵 이미지들을 그룹핑하는 단계; 그룹핑된 비트맵 이미지들을 디스플레이하는 단계; 디스플레이된 이미지중에서 적절하게 그룹핑된 이미지에 대하여 사용자가 그에 대응되는 문자 텍스트를 입력함에 따라, 적절하게 그룹핑된 이미지 각각에 그에 대응되는 문자 텍스트를 입력시키는 단계 및 사용자에 의해 선택된, 부적절하게 그룹핑된 이미지들이 교정되도록 하는 단계를 포함하는, 이미지의 클러스터링 방법에 관한 것이다. 본 발명의 방법에 따르면, 출현빈도가 높은 소수개의 문자를, 출현시마다 반복적으로 입력하는 대신에, 동일한 문자를 표현한 이미지들을 동일한 문자로서 인식하여 그룹핑함으로써, 한번의 입력작업을 통해서 동일한 문자에 대한 반복적인 다수회의 텍스트 입력작업을 생략할 수 있게 됨으로써, 한적 자료의 전산화에 있어서 기본이 되는 텍스트 입력작업을 획기적으로 개선할 수 있다.The present invention includes the steps of comparing a segmented bitmap image; Grouping bitmap images recognized as similar characters through the comparing step; Displaying the grouped bitmap images; As the user enters corresponding text of text for an appropriately grouped image from among the displayed images, inputting corresponding text of text into each of the appropriately grouped images and an inappropriately grouped image selected by the user. To a method of clustering an image, comprising the step of causing them to be corrected. According to the method of the present invention, instead of repeatedly inputting a small number of characters with high occurrence frequency, the images representing the same characters are recognized as the same characters and grouped, thereby repeating the same characters through one input operation. By being able to omit a large number of text input operations, it is possible to drastically improve the text input operations that are the basis for the computerization of Korean material.

Description

이미지의 클러스터링 방법 및 이 방법을 이용하여 문자를 고속으로 입력 및 교정하는 방법{The method for clustering an image of a character and the method for high-speed inputting and correcting a character by using the same}The method for clustering an image of a character and the method for high-speed inputting and correcting a character by using the same}

본 발명은 이미지의 클러스터링 방법 및 이 방법을 이용하여 문자를 고속으로 입력 및 교정하는 방법에 관한 것이다. 보다 구체적으로, 본 발명은 동일한 문자로서 인식되는 이미지들을 효율적으로 클러스터링할 수 있는, 이미지의 클러스터링 방법 및 이 방법을 이용하여, 동일한 문자로서 인식되는 이미지들을 일회의 작업으로 손쉽게 고속으로 텍스트 문자로 변환, 입력하고, 한편으로, 동일하지 않은 문자임에도 불구하고 부적절하게 클러스터링된 이미지들을 선택하여 효과적으로 교정할 수 있도록 하는 방법에 관한 것이다.The present invention relates to a clustering method of an image and a method for fast input and correction of characters using the method. More specifically, the present invention uses the clustering method of the image that can efficiently cluster the images recognized as the same character, and converts the images recognized as the same character into text characters easily and quickly in one operation. , And, on the other hand, a method for effectively selecting and correcting inappropriately clustered images despite unequal characters.

과거로부터 기록되어 온 한적(漢籍) 자료는 인문학은 물론, 다양한 분야에서 학술적 가치를 인정받고 있다. 따라서, 학술적 연구를 위해서 또는 다양한 분야에서 이들 한적 자료 들에 대한 전산화는 매우 시급하고 중요한 과제이다. 즉, 고지도, 고도서, 고문서 등의 원본 기록내용을 컴퓨터가 이해할 수 있는 코드 체계로 변환시켜 파일이나 데이터베이스에 저장함으로써, 일반인들이 컴퓨터 또는 인터넷을 통해서 쉽게 이용할 수 있도록 할 필요성이 대두되고 있다. 일반적으로 한적 자료의 전산화에 있어 가장 중요하고 기초적인 작업은 한적 자료 원본을 텍스트로 변환하여 입력하는 것이다. 그런데, 한적 자료의 전산화를 위해서는 대용량의 원본 자료의 이미지들을, 그 이미지에 대응되는 텍스트 문자 형태로 변환하여 입력하는 작업이 필수적으로 요구된다.Korean historical data recorded from the past is recognized for its academic value not only in the humanities but also in various fields. Therefore, computerization of these isolated data for academic research or in various fields is a very urgent and important task. In other words, by converting the original records such as ancient maps, ancient books, and ancient documents into a code system that can be understood by a computer and storing them in a file or a database, there is a need for the public to easily use them through a computer or the Internet. In general, the most important and basic task of computerizing Korean data is to convert the original Korean data into text. However, in order to computerize Korean data, it is necessary to convert images of a large amount of original materials into text characters corresponding to the images and input them.

예를 들어, 조선시대의 대표적인 문헌인 조선왕조실록을 인터넷을 통해 일반인들이 쉽게 접할 수 있는 서비스를 제공하려고 한다면, 우선 사용자들에게 원본 기록내용을 볼 수 있도록 하여야 하고, 이를 위해서는 조선왕조실록의 각 장에 대한 원본 이미지를 스캐닝한 그림 파일이 제공되어야 할 것이다. 그러나, 원본 이미지를 스캐닝한 그림 파일을 웹 상에서 단순히 제공하는 정도로는 사용자의 다양한 요구를 충족시키지 못한다. 바람직하기로는, 조선왕조실록에서 쓰인 글자의 의미를 해독할 수 있도록 하여야 하고, 또한 조선왕조실록에서 특정한 문구 또는 단어가 몇 번 사용되었는지를 용이하게 알아볼 수 있도록 하여야 한다. 이렇게 수준 높은 서비스를 제공하기 위해서는, 조선왕조실록에 쓰인 문자 (일반적으로 고도서, 고문서에 사용된 문자의 대부분은 한자이다)와 각종 부가적인 정보내용을 컴퓨터가 이해할 수 있는 코드 체계 (KSC 5601, 유니코드 등)를 이용하여 텍스트로 입력하는 작업이 선행되어야 한다. 이러한 텍스트로의 입력작업이 수행되어야만 비로소 한적 자료로부터 원하는 검색 또는 색인 작업 그리고 이를 이용한 심도있는 연구가 가능해지기 때문이다.For example, if you want to provide a service that can be easily accessed by the general public through the Internet, the representative document of the Joseon Dynasty, the representative literature of the Joseon Dynasty, first, users should be able to see the contents of the original records. A picture file should be provided that scans the original image for the chapter. However, simply providing a picture file scanned from the original image on the web does not satisfy the various needs of the user. Preferably, it should be possible to decipher the meaning of the letters used in the Annals of Joseon Dynasty, and also to be able to easily recognize how many times a particular phrase or word is used in the Annals of Joseon Dynasty. In order to provide such a high level of service, the computer system can understand the characters used in the Annals of Joseon Dynasty (generally most of the letters used in ancient books and ancient documents) and various additional information contents (KSC 5601, Entering text using Unicode, etc. must be preceded. Only when such text input is performed can the desired search or indexing work from the limited data and the in-depth study using the text become possible.

상기한 바와 같이, 한적 자료의 기록내용을 텍스트로 입력하는 것은 매우 중요하고 기본적인 작업이지만, 이러한 작업은 한적 자료 원본의 방대함과 쓰인 글자 (일반적으로 한자, 혹은 옛 한글)의 난해함, 입력 작업도구의 비효율성 문제, 오입력된 글자에 대한 다수회의 교정 작업이 요구된다는 점 등과 같은 문제로 인해서 불필요하게 많은 인력과 시간 그리고 노력을 필요로 한다. 게다가, 수작업으로 입력한다는 작업의 특성상 입력된 텍스트 자료에 대한 완성도는 원하는 만큼의 수준을 담보하기 힘든 것이 사실이다.As mentioned above, it is very important and basic to input the contents of the records of Chinese characters as text, but these tasks are the vastness of the original materials, the difficulty of the written characters (usually Hanja or old Hangul), and the input tool. Problems such as inefficiency, the need for multiple corrections to incorrectly typed letters, require unnecessary labor, time, and effort. In addition, due to the nature of the task of manual input, the completeness of the input text data is difficult to guarantee as much as desired.

종래부터, 이미지 형태의 문자를 해독하여 텍스트로 변환시키기 위하여, 광학적 문자판독기 (OCR; Optical Character Reader)가 널리 이용되고 있다. 그러나, OCR은 한적 자료의 전산화에 있어서 그 유용성을 발휘하지 못한다. 그 이유는 다음과 같다.Background Art Conventionally, optical character readers (OCRs) have been widely used to decode characters in image form and convert them into text. However, OCR does not show its usefulness in the computerization of episodic data. The reason for this is as follows.

기본적으로 OCR은 표준코드체계의 정립을 전제로 한다. 컴퓨터에서 정보를 생산하고 저장하며 이를 교환하기 위해서는 코드 (CODE)와 폰트 (FONT)가 통일되어야 하고, 이에 따라, 세계 각국은 국가표준코드를 제정하여 공포하고, 소프트웨어 개발업체에서는 국가표준코드에 의한 폰트를 제작하여 응용소프트웨어에 사용하고있다. 그런데, 하드웨어 및 소프트웨어 자원의 효율적인 사용을 위해서, 국가표준코드는 일상적인 정보교환에 이용될 수 있도록 보편타당한 형태로 제정되는 것이 일반적이다. 대한민국의 경우, 현행 표준코드체계는 2바이트 코드체계로서, KSC 5601에 따르면 약 8,000자의 문자를 표준코드셋으로 지정하고 있다. 이중에서, 한글 완성형은 2350자이고, 한자는 4888자이다. 그러나, 이러한 제한적인 표준코드셋으로는 한적 자료와 같은 고전문헌에 대한 전산화 작업이 불가능하다. 즉, 고전문헌 등에 있어서, 옛한글 또는 한글고어의 경우에는 대략 150만자의 조합이, 그리고 한자의 경우에는 대략 12만자의 문자가 포함되어 있는데, OCR을 이용한 문자인식 및 판독이 가능하기 위해서는 표준코드셋이 상기 갯수만큼의 문자를 지정하고 있어야 하기 때문이다. 이러한 문제점은 유니코드체계를 취하는 경우에도 마찬가지로 나타나는 것이다. 또한, OCR은 패턴인식과 학습이라는 과정을 거쳐야 하는데, 표준코드셋을 초과한 문자, 현재까지 알려지지 않고 고전문헌에서만 나타나는 문자 들에 대해서는 패턴인식과 학습을 수행할 수가 없다. 결국, 한적자료 등에 대한 전산화는 OCR이 적용될 수 없는 특수한 분야에 속하기 때문에, 입력자에 의한 단순반복적인 입력작업을 불가피하게 요구하고 있는 것이다.OCR basically assumes the establishment of a standard code system. In order to produce, store, and exchange information on a computer, codes and fonts must be unified. Therefore, countries around the world enact and promulgate national standard codes. Font is produced and used in application software. However, for efficient use of hardware and software resources, national standard codes are generally established in a universally reasonable form so that they can be used for everyday information exchange. In Korea, the current standard code system is a two-byte code system. According to KSC 5601, approximately 8,000 characters are designated as standard code sets. Of these, the Hangul complete form is 2350 characters, and the Chinese characters are 4888 characters. However, such limited standard codesets are not possible to computerize classical texts such as Korean literature. That is, in the classical literature, about 1.5 million combinations are used in the case of old Hangul or Hangul, and about 120,000 characters in the case of Chinese characters. In order to be able to recognize and read characters using OCR, standard codes This is because three must specify the number of characters. This problem is similar to the case of the Unicode scheme. In addition, OCR must go through the process of pattern recognition and learning. Pattern recognition and learning cannot be performed on characters that exceed the standard codeset, and characters that are unknown and appear only in classical literature. As a result, computerization of the Korean-language data is inevitably requiring a simple repetitive input operation by the inputter because it belongs to a special field to which the OCR cannot be applied.

종래로부터 한적자료의 텍스트 입력작업은, 한적자료의 원본을 스캐닝한 이미지로부터, 입력자가 워드 프로그램을 이용하여 원본 이미지의 단위 문자에 대응되는 텍스트형 문자를 일대일로 입력하는 방식이었다. 그러나, 이러한 입력작업은 단순하고 반복적인 작업이어서 획기적인 효율을 기대할 수 없다. 또한, 한적자료 등에서는 그것에 사용된 글자중에 판독이 난해한 글자도 다수 포함되어 있어서 입력작업 자체도 용이하지 않을 뿐더러 입력 후에는 반드시 정밀한 교정과정이 다수회 수반되어야 한다는 문제점이 있었다. 즉, 문자 (한자)의 이해 수준이 입력자에 따라 상이하므로, 방대한 자료를 입력한 경우에 그 입력된 텍스트의 정확성을 보장할 수 없었다.Conventionally, the text input operation of the Korean traditional data has been a method of inputting textual characters corresponding to the unit characters of the original image in a one-to-one manner using a word program from an image of the original document. However, this input work is a simple and repetitive work and can not expect a breakthrough efficiency. In addition, the Korean-language data, etc. include a number of difficult-to-read characters in the letters used therein, which is not only easy to input, but also has to be accompanied by a number of precise calibration procedures after input. That is, since the level of understanding of the characters (kanji) differs depending on the inputter, the accuracy of the input text cannot be guaranteed when a large amount of data is input.

한편, 한적 자료의 전산화를 위해서, 한자의 일자대조에 의해 교정시스템이 본 발명자에 의해 이미 개발되어 특허출원된 바 있다 (대한민국 공개특허공보 제2001-15963호). 그에 의하면, 상이한 원본 이미지가 동일한 문자로서 인식되어 입력되었을 경우, 이를 효율적으로 교정할 수 있는 방법을 개시하고 있다. 그러나, 상기 대한민국 공개특허 제2001-15963호에는, 동일한 것으로서 인식되는 문자 이미지를 효율적으로 그룹핑하고, 그룹핑된 문자 이미지중에서 동일한 것으로서 확인된 문자 이미지를 그에 대응되는 텍스트 문자로 효율적으로 변환할 수 있는 방법에 대해서는 언급하고 있지 않다. 즉, 상기 공개특허공보 제2001-15963호에 의하더라도, 한적 자료의 전산화에 있어서 텍스트 입력 작업이 문자 별로 반복적으로 수행되어야 하는 것은 불가피하다.On the other hand, for the computerization of Korean data, a calibration system has already been developed and patented by the present inventors by the date control of Chinese characters (Korean Patent Publication No. 2001-15963). According to him, a method is disclosed in which different original images are recognized and input as the same character, and thus can be corrected efficiently. However, the Korean Patent Application Publication No. 2001-15963 discloses a method of efficiently grouping character images recognized as the same and efficiently converting the character images identified as the same among the grouped character images into text characters corresponding thereto. It does not mention. That is, even with the above-mentioned Patent Publication No. 2001-15963, it is inevitable that the text input operation must be repeatedly performed for each character in the computerization of the Korean language data.

한적자료 등에 출현하는 문자, 특히 한자를 살펴보면, 소수개의 한자의 출현 빈도가 90% 이상인 사실을 확인할 수 있다. 따라서, 출현빈도가 높은 한자를 출현시마다 반복적으로 입력한다는 것은 매우 비효율적일 뿐만 아니라, 전체 입력공정의 속도를 현저히 지연시키는 원인으로 지적되고 있다. 그리고, 한자는 표의문자의 일종이어서 입력하는 방법이 매우 까다롭고, 획수와 부수를 정확하게 알지 못하는 경우에는 입력이 불가능하다. 또한, 획수와 부수를 알고 있는 경우라 하더라도, 오입력의 확률이 높아서, 오입력된 한자를 수정하는 교정작업에 불필요하게 많은 시간과 노력이 소요되어야 한다.If you look at the characters, especially Chinese characters, that appear in the Chinese literature, you can see that there are more than 90% of Chinese characters. Therefore, it is pointed out that repeatedly inputting Chinese characters with a high frequency of occurrence is not only very inefficient, but also significantly delays the speed of the entire input process. In addition, Chinese characters are a kind of ideographs, so it is very difficult to input them, and it is impossible to input them unless the exact number and number of strokes are known. In addition, even if the number of strokes and the number of copies are known, the probability of incorrect input is high, and an unnecessarily large amount of time and effort must be taken to correct the incorrectly inputted Chinese characters.

따라서, 한적자료 등의 전산화에 있어서, 불필요하게 소모되는 단순반복적인 텍스트 입력작업을 최소화할 수 있는 획기적인 방법에 대한 개발이 매우 시급한 실정이다. 본 발명자는, 출현빈도가 높은 소수개의 문자를, 출현시마다 반복적으로 입력하는 작업의 후진성을 극복하기 위해서는, 동일한 문자를 표현한 이미지들을 동일한 문자로서 인식할 수 있는 프로그램 또는 방법을 이용한다면, 한번의 입력작업을 통해서 동일한 문자에 대한 반복적인 다수회의 텍스트 입력작업을 생략할 수 있다는 점에 착안하여, 본 발명에 이르게 되었다.Therefore, it is very urgent to develop a groundbreaking method for minimizing unnecessary repetitive text input operations in computerization of Korean history data. In order to overcome the backwardness of the task of repeatedly inputting a small number of characters with a high frequency of occurrence every occurrence of the present invention, the present inventors use a program or a method capable of recognizing images representing the same character as the same character. The present invention has been made in light of the fact that it is possible to omit repetitive multiple text input operations for the same character through the operation.

본 발명이 이루고자 하는 하나의 기술적 과제는, 한적 자료의 전산화를 효과적으로 수행할 수 있도록 지원하는 유용한 방법을 제공하는 것이다.One technical problem to be achieved by the present invention is to provide a useful method for supporting the computerization of Korean data effectively.

본 발명이 이루고자 하는 다른 기술적 과제는, 한적 자료의 텍스트화 작업에 있어서 불필요하게 반복되어야 하는 입력작업을 최소화하기 위한 효과적인 방법을 제공하는 것이다.Another technical problem to be solved by the present invention is to provide an effective method for minimizing the input work that must be repeated unnecessarily in the textual work of the Korean material.

도 1은 이미지파일 목록을 여는 단계를 나타내는 캡쳐화면이다.1 is a screenshot showing a step of opening a list of image files.

도 2는 세그먼트화의 대상이 되는 이미지파일을 선택하는 단계를 나타내는 캡쳐화면이다.2 is a capture screen showing a step of selecting an image file to be segmented.

도 3은 자동세그먼트화의 명령을 부여하는 단계를 나타내는 캡쳐화면이다.3 is a capture screen showing a step of giving an instruction of automatic segmentation.

도 4는 문서이미지에 따라 세그먼트화의 방향을 선택하는 단계를 나타내는 캡쳐화면이다.4 is a capture screen illustrating a step of selecting a segmentation direction according to a document image.

도 5는 잘못된 세그먼트를 수정하는 단계를 나타내는 캡쳐화면이다.5 is a screenshot showing a step of correcting a wrong segment.

도 6은 세그먼트화 작업을 종료하여 PSD 파일을 생성하는 단계를 나타내는 캡쳐화면이다.6 is a screenshot illustrating a step of generating a PSD file by terminating a segmentation operation.

도 7은 비트맵 이미지의 일례를 나타낸 도면이다.7 is a diagram illustrating an example of a bitmap image.

도 8은 세그먼트의 하단선을 기준으로 하여 비트맵 이미지를 집결시킨 상태를 나타내는 도면이다.FIG. 8 is a diagram illustrating a state in which bitmap images are collected based on a bottom line of a segment.

도 9는 LIK 파일을 생성하는 단계를 나타내는 캡쳐화면이다.9 is a screenshot showing a step of generating a LIK file.

도 10은 이미지 비교기준을 세팅하는 단계를 나타내는 도면이다.10 is a diagram illustrating a step of setting image comparison criteria.

도 11은 비트맵 생성프로그램을 통해서 생성된 ISB 파일을 읽어들이는 단계를 나타내는 도면이다.11 is a diagram illustrating a step of reading an ISB file generated through a bitmap generation program.

도 12는 그룹핑이 진행되는 경과를 나타내는 도면이다.12 is a diagram illustrating the progress of grouping.

도 13은 LIK 파일을 여는 단계를 나타내는 캡쳐화면이다.13 is a capture screen showing the step of opening a LIK file.

도 14는 텍스트 입력의 대상이 되는 문자 이미지와, 그에 대응되는 비트맵 이미지를 화면상에 동시에 디스플레이하는 단계를 나타내는 캡쳐화면이다.14 is a capture screen illustrating a step of simultaneously displaying a character image and a bitmap image corresponding to a text input object on a screen.

도 15는 상이한 문자를 선택하는 단계를 나타내는 캡쳐화면이다.15 is a screenshot showing the step of selecting different characters.

도 16은 텍스트 입력정보를 PSD 파일에 저장하는 단계를 나타내는 캡쳐화면이다.16 is a capture screen illustrating the step of storing text input information in a PSD file.

도 17은 본 발명에 따른 문자의 고속 입력 및 교정방법을 나타내는 순서도이다.17 is a flowchart illustrating a method for fast input and correction of characters according to the present invention.

상기 기술적 과제를 달성하기 위해서, 본 발명은, 세그먼트화된 비트맵 이미지를 비교하는 단계; 상기 비교 단계를 통해서 유사한 문자로 인식된 비트맵 이미지들을 그룹핑하는 단계; 그룹핑된 비트맵 이미지들을 디스플레이하는 단계; 디스플레이된 이미지중에서 적절하게 그룹핑된 이미지에 대하여 사용자가 그에 대응되는 문자 텍스트를 입력함에 따라, 적절하게 그룹핑된 이미지 각각에 그에 대응되는 문자 텍스트를 입력시키는 단계 및 사용자에 의해 선택된, 부적절하게 그룹핑된 이미지들이 교정되도록 하는 단계를 포함하는, 이미지의 클러스터링 방법을 제공한다.In order to achieve the above technical problem, the present invention, comparing the segmented bitmap image; Grouping bitmap images recognized as similar characters through the comparing step; Displaying the grouped bitmap images; As the user enters corresponding text of text for an appropriately grouped image from among the displayed images, inputting corresponding text of text into each of the appropriately grouped images and an inappropriately grouped image selected by the user. Providing a clustering method for the image, comprising the steps of correcting the correction.

상기 다른 기술적 과제를 달성하기 위해서, 본 발명은, 스캐닝된 원본 이미지를 생성하는 단계; 생성된 이미지를 세그먼트화하는 단계; 세그먼트화된 이미지를 비트맵 이미지로 변환하는 단계; 세그먼트화된 비트맵 이미지를 일정한 크기로 보정하는 단계; 상기 이미지의 클러스터링 방법을 이용하여, 적절하게 그룹핑된, 동일한 원본 이미지 각각에 그에 대응되는 문자 텍스트를 입력시키는 단계 및 부적절하게 그룹핑된, 동일하지 않은 이미지들이 교정되도록 하는 단계를 포함하는, 문자를 고속으로 입력 및 교정하는 방법을 제공한다.In order to achieve the above another technical problem, the present invention comprises the steps of generating a scanned original image; Segmenting the generated image; Converting the segmented image into a bitmap image; Correcting the segmented bitmap image to a constant size; Using the clustering method of the image, inputting text corresponding to each of the appropriately grouped, identical original images, and causing inappropriately grouped, unequal images to be corrected Provides a way to enter and calibrate.

본 발명에 따른, 이미지의 클러스터링 방법 및 문자를 고속으로 입력 및 교정하는 방법 (이하, 특별히 달리 정의하는 경우를 제외하고는, 양자 구별없이 "본 발명의 방법"이라 한다)에서는, 우선 원본 이미지를 세그먼트화하는 작업을 필요로 한다. 세그먼트화라 함은, 스캐닝을 통해서 그림 파일로 저장된 원본 이미지들을 각각의 단위 문자별로 구획시키는 것으로서, 본 발명의 방법에서 이러한 세그먼트화를 수행하는 것은, 전체 이미지를 다루는 것보다 각각의 단위 문자 이미지를 다루는 것이 훨씬 용이하다는 이유에서이다. 그러나, 본 발명의 방법에서는 원본 이미지를 단순히 세그먼트화하는 것에 그치지 않고, 세그먼트화된 단위 문자별로 인덱스와 위치정보 그리고 코드값을 입력할 장소를 포함하는 파일을 생성하도록 한다. 이러한 단계는 영인프로그램이라고 명명된 본 발명자에 의해 개발된 프로그램을 이용하여 수행할 수 있는데, 이하 영인프로그램의 구현 및 작동원리를 설명하기로 한다.In the clustering method of the image and the method of rapidly inputting and correcting characters according to the present invention (hereinafter referred to as the "method of the present invention" without distinction, except as specifically defined otherwise), the original image is first displayed. Requires segmentation work. Segmentation refers to segmenting the original images stored in the picture file by each unit character through scanning, and performing such segmentation in the method of the present invention deals with each unit character image rather than the entire image. This is because it is much easier. However, the method of the present invention does not merely segment the original image, but generates a file including an index, location information, and a place to input a code value for each segmented unit character. This step may be performed using a program developed by the inventor named Young-Nin Program, which will be described below.

영인프로그램은 스캐닝된 전체 이미지를 그 이미지에 포함된 단위 문자별로 구획하는 세그먼트화를 수행한다. 반드시 선형적인 행렬이 아니더라도, 문자의 행렬로 이루어진 전체 이미지는 영인프로그램을 통해 단위 문자별로 세그먼트화됨으로써, 한적 자료의 전산화에 있어서 기초가 되는 텍스트 입력작업을 간편화시킬 수 있다.The zero-in program performs segmentation for dividing the entire scanned image by unit characters included in the image. Although not necessarily a linear matrix, the entire image consisting of a matrix of characters is segmented by unit letters through a zero-in program, thereby simplifying the text input work that is the basis for computerization of the Korean traditional data.

세그먼트화는 영인프로그램이 자체적으로 보유하고 있는 문자인식모듈에 의해서, 문자의 모양, 공간의 여백 그리고 문자의 크기를 고려하여 수행된다. 영인프로그램이 수행되면, 전체 이미지의 세그먼트화와 동시에, 세그먼트화된 단위 글자 이미지에 대한 인덱스와 위치 정보 그리고 코드값 입력장소를 포함하는 일명 PSD 파일이 생성된다. PSD 파일에 있어서, 인덱스는 전체 이미지에서 문자의 순서를 나타내는 것으로서, 차후에 비트맵 생성 프로그램에 의해 생성되는 ISB 파일내의 인덱스와 일대일로 대응된다. 또한, PSD 파일에 포함되는 문자의 위치 정보는 차후에 비트맵 생성 프로그램에 의해 생성되는 ISB 파일에 저장할 비트맵 바이너리를 만들 때, 문자 이미지의 모양과 크기를 결정하는 요소로 작용한다. 게다가, PSD 파일은 이미지 문자의 텍스트, 즉 문자의 코드값을 저장할 장소를 포함하고 있다. 본 발명에서 세그먼트화된 단위 문자 이미지에 대응되는 문자 텍스트를 입력한다는 것은, 상기 PSD 파일내의 코드값 저장장소에 코드값을 저장한다는 것을 의미한다. 결국,PSD 파일이라 함은, 예를 들어 한적 자료의 한 페이지와 같은 전체 이미지를 문자 단위로 세그먼트화했을 때, 각 문자의 인덱스, 위치 정보 및 코드값 입력장소를 포함하는 파일이라고 정의할 수 있다.Segmentation is performed by the character recognition module owned by Youngin program taking into account the shape of the character, the margin of space, and the size of the character. When the zero-in program is executed, simultaneously with segmentation of the entire image, a so-called PSD file including an index, position information, and a code value input location for the segmented unit letter image is generated. In a PSD file, an index indicates the order of characters in the entire image, and corresponds one-to-one with an index in an ISB file generated by a bitmap generation program later. In addition, the position information of the characters included in the PSD file serves as an element for determining the shape and size of the character image when creating a bitmap binary to be stored in an ISB file generated by a bitmap generation program. In addition, the PSD file contains a place to store the text of the image character, that is, the code value of the character. In the present invention, inputting text of a text corresponding to a segmented unit text image means storing a code value in a code value storage location in the PSD file. After all, a PSD file may be defined as a file including an index, location information, and a code value input location of each character when segmenting an entire image, such as a page of a piece of material, by character units. .

도 1 내지 6은 영인프로그램에 의해 수행되는 세그먼트화를 설명하기 위한 캡쳐화면들로서, 도 1은 이미지파일목록을 여는 단계를 나타내고, 도 2는 세그먼트화의 대상이 되는 이미지파일을 선택하는 단계를 나타내고, 도 3은 자동세그먼트의 명령을 부여하는 단계를 나타내고, 도 4는 문서이미지에 따라 세그먼트의 방향을 선택하는 단계를 나타내고, 도 5는 잘못된 세그먼트를 수정하는 단계를 나타내며, 도 6은 세그먼트화 작업을 종료하여 PSD 파일을 생성하는 단계를 나타내고 있다.1 to 6 are screenshots for explaining segmentation performed by zero-in program, FIG. 1 shows a step of opening an image file list, and FIG. 2 shows a step of selecting an image file to be segmented. 3 shows a step of giving an instruction of an automatic segment, FIG. 4 shows a step of selecting a direction of a segment according to a document image, FIG. 5 shows a step of correcting a wrong segment, and FIG. 6 shows a segmentation operation. The steps to generate a PSD file are shown.

본 발명의 방법에서, 세그먼트화가 완료된 이미지는 비트맵 생성 프로그램이 작동됨에 따라 비트맵 이미지로 변환된다. 비트맵이라 함은, 사각형의 이미지에 대한 정보를 포함하는 데이터 구조를 말한다. 비트맵을 구성하는 이미지는 복수개의 선으로 구성되며, 각각의 선은 복수개의 픽셀로 이루어진다. 즉, 비트맵 이미지는 비트 단위로 표현된 이미지를 의미한다. 흑백 비트맵 (또는 모노 비트맵)에서는 하나의 픽셀을 나타내기 위하여 하나의 비트 (bit)를 사용한다. 통상, 비트맵 파일을 의미하는 확장자는 bmp이다.In the method of the present invention, the segmented image is converted into a bitmap image as the bitmap generation program is operated. The bitmap refers to a data structure that contains information about a rectangular image. The image constituting the bitmap consists of a plurality of lines, each of which consists of a plurality of pixels. That is, the bitmap image means an image expressed in bit units. A black and white bitmap (or mono bitmap) uses one bit to represent one pixel. Usually, the extension meaning bmp file is bmp.

비트맵 생성 프로그램은 세그먼트화된 이미지로부터, ISB라고 명명된 비트맵 이미지의 바이너리 파일을 생성시키는 프로그램이다. 상기 비트맵 이미지의 바이너리 파일은 그 자체로서 비트맵 이미지는 아니지만, 비트맵 이미지를 이루는 바이너리 배열을 포함하고 있기 때문에, 차후에 이미지의 클러스터링을 수행함에 있어서비트맵 이미지를 생성시켜 화면에 디스플레이하거나 또는 디스플레이된 이미지를 상호 비교할 수 있도록 한다.The bitmap generation program is a program for generating a binary file of a bitmap image named ISB from a segmented image. Since the binary file of the bitmap image itself is not a bitmap image, but includes a binary array constituting the bitmap image, the bitmap image is generated and displayed on the screen in a later clustering process. Allows comparison of captured images.

본 발명의 방법에서, 비트맵 생성 프로그램은 영인프로그램에 의해 생성된 PSD 파일내에 저장되어 있는 문자 이미지의 위치정보를 이용해서, 원래의 이미지, 즉 영인프로그램을 통해서 세그먼트화되어 PSD 파일을 생성하기 위해 사용된 원본 이미지로부터 해당 문자의 위치를 찾아내어 문자의 크기만큼의 이미지 비트맵을 생성하고, 그 비트맵의 픽셀을 이루는 데이터를 ISB 파일에 저장하는 역할을 수행한다. 본 발명의 방법에서, 비트맵 생성 프로그램을 통해서 단위 문자에 대한 비트맵 이미지를 생성하는 이유는, 앞서 영인프로그램에 대하여 설명한 바와 같이, 문자 단위로 작업을 진행시킬 경우 데이터의 가공이 용이해지기 때문이다. 단위 문자별로 비트맵 이미지를 생성하는 것은, 차후에, 이미지의 클러스터링중 비교단계를 수행함에 있어서 필수적으로 선행되어야 할 작업이다.In the method of the present invention, the bitmap generation program uses the positional information of the character image stored in the PSD file generated by the zeroin program to generate a PSD file segmented through the original image, that is, the zeroin program. It finds the position of the character from the original image used and creates an image bitmap as big as the size of the character, and stores the data forming the pixel of the bitmap in the ISB file. In the method of the present invention, the reason for generating the bitmap image for the unit character through the bitmap generation program is that, as described above with respect to the zero-in program, the processing of data becomes easier when the operation is performed in units of characters. to be. Generating a bitmap image for each unit character is an essential task to be performed later in performing a comparison step during clustering of images.

통상, 비트맵 생성 프로그램에 의해서 생성되는 ISB 파일은 앞서 영인프로그램에 의해 생성되는 PSD 파일과 비교할 때, 확장자만 다를 뿐 파일 이름은 동일하다. 따라서, 각각의 ISB 파일은, 그와 동일한 이름을 갖는 (확장자만 다르고) PSD 파일과 일대일 대응관계를 갖는 비트맵 파일이다.In general, the ISB file generated by the bitmap generation program is different from the PSD file generated by the zero-in program, except that the file name is the same. Thus, each ISB file is a bitmap file that has a one-to-one correspondence with a PSD file (only with extensions) having the same name.

본 발명에 따른 이미지의 클러스터링 방법에서, 상기 영인프로그램 및 비트맵 생성 프로그램에 의해 세그먼트화된 비트맵 이미지가 생성되면, 다음으로 세그먼트화된 비트맵 이미지를 일정한 크기로 보정한다. 이러한 보정은 차후에 이미지의 클러스터링을 용이하고 정확하게 수행하도록 하기 위한 것이다.In the clustering method of an image according to the present invention, when a segmented bitmap image is generated by the zeroin program and the bitmap generating program, the segmented bitmap image is then corrected to a constant size. This correction is intended to facilitate easy and accurate clustering of images later.

보정된 세그먼트화된 비트맵 이미지에 대하여, 본 발명에 따른 이미지의 클러스터링을 수행한다. 이하, 본 발명에 따른, 이미지의 클러스터링 방법에 대하여 설명한다.For the corrected segmented bitmap image, clustering of the image according to the present invention is performed. Hereinafter, a clustering method of an image according to the present invention will be described.

통상적으로, 클러스터링은 통상 군집화라고도 칭하며, 대량의 데이터들로부터 쉽게 드러나지 않는 유용한 정보를 추출하는 과정을 나타내는 통계학 용어인 데이터 마이닝 (Data Mining)의 세부 기법중 하나로서, 데이터의 물리적 또는 추상적 객체를 유사한 객체군으로 묶는 과정을 의미한다. 본 발명에서의 "클러스터링"이란 용어는, 소위 광의의 클러스터링을 의미하는 것으로 사용하기로 한다.Clustering, commonly referred to as clustering, is one of the detailed techniques of data mining, which is a statistical term that describes the process of extracting useful information that is not easily revealed from large amounts of data. The process of grouping objects. The term "clustering" in the present invention shall be used to mean so-called broad clustering.

즉, 본 발명에서의 클러스터링은, 비트맵 생성 프로그램에 의해 얻어진 비트맵 이미지를 비교하여 동일한 문자 이미지를 그룹핑하는 소위 협의의 클러스터링은 물론이고, 그에 더하여, 적절하게 그룹핑된 문자 이미지에 대하여 사용자가 그에 대응되는 문자 텍스트를 입력함에 따라, 적절하게 그룹핑된 이미지 각각에 그에 대응되는 문자 텍스트를 입력시키는 단계 및 사용자에 의해 선택된, 부적절하게 그룹핑된 이미지들이 교정되도록 하는 단계를 함께 포함하는 광의의 개념으로 사용된다.In other words, the clustering in the present invention, as well as the so-called clustering of grouping the same character image by comparing the bitmap image obtained by the bitmap generation program, in addition, the user to the appropriately grouped character image In accordance with the broad concept, as the corresponding text of text is entered, a corresponding text of text is entered into each of the appropriately grouped images, and the inappropriately grouped images selected by the user are corrected. do.

앞서, 원본 이미지로부터, 영인프로그램과 비트맵 생성 프로그램을 통해 생성된 비트맵을 일정한 크기로 보정하는 단계를 설명하였는 바, 보정된, 세그먼트화된 비트맵 이미지를 대상으로 하여 협의의 이미지 클러스터링이 수행된다.As described above, the step of correcting the bitmap generated by the zero-in program and the bitmap generation program to a constant size from the original image is described. As a result, the consensus image clustering is performed on the corrected segmented bitmap image. do.

협의의 클러스터링이라 함은, 앞서 언급한 바와 같이, 세그먼트화된 비트맵 이미지를 비교하여, 유사한 문자로 인식된 이미지들을 그룹핑하는 것을 의미한다.즉, 광의의 클러스터링 단계중에서, 텍스트 입력과정 이전까지의 단계를 지칭하는 것이다. 본 발명에 의하면, 협의의 클러스터링이 완료된 후, 그룹핑된 문자 이미지중에서 적절하게 그룹핑된, 동일한 문자 이미지 각각에 대해서는 그에 대응되는 문자 텍스트를 입력하는 한편, 부적절하게 그룹핑된 문자 이미지를 선택하여 교정하는 단계가 후속적으로 진행된다.By consensus clustering, as mentioned above, it means comparing the segmented bitmap images and grouping the images recognized with similar characters. That is, during the broad clustering phase, before the text input process. It refers to a step. According to the present invention, after the consensus clustering is completed, for each of the same character images that are appropriately grouped among the grouped character images, the corresponding character text is input, and an inappropriately grouped character image is selected and corrected. Proceeds subsequently.

협의의 클러스터링 단계는 그 이후의 텍스트 문자의 입력단계 및 선택과 교정단계를 수행함에 있어서 기본이 되는 기초데이터를 준비하는 과정이다. 본 발명의 일실시예에 따르면, 상기 기초 데이터는 색인 파일인데, 본 발명의 일실시예에 의하면 LIK 파일로서 명명되는 것으로서, 앞서 비트맵 생성 프로그램을 통해 생성된 ISB 파일로부터 생성된다. 즉, 협의의 클러스터링 단계는, ISB 파일로부터 각각의 문자들에 대한 비트맵 바이너리를 읽어들여 프로그램 내부의 배열에 저장하고, 이를 이용하여, 메모리에 생성되어 있는 흑백 비트맵 파일들을 서로 비교하는 것을 원리로 하여 구현된다. 이 과정을 좀더 상세히 설명하면 다음과 같다.The clustering step of consultation is a process of preparing basic data which is the basis for performing the subsequent inputting, selection and correction of text characters. According to an embodiment of the present invention, the basic data is an index file, which is named as a LIK file according to an embodiment of the present invention, and is generated from an ISB file generated through a bitmap generation program. That is, the negotiating clustering step reads bitmap binaries for each character from an ISB file and stores them in an array within a program, and uses them to compare monochrome bitmap files generated in memory with each other. Is implemented. This process is explained in more detail as follows.

우선, ISB 파일을 읽어들이고, ISB 파일에 포함된 여러개의 비트맵 바이너리 파일을 읽어서 차례로 구조체의 배열에 저장한다. 여기서, 구조체라 함은, 각각의 비트맵 바이너리를 각각 하나의 객체로 보고, 각각의 객체의 인덱스, 파일명 및 비트맵 바이너리를 저장하는 하나의 단위를 뜻한다. ISB 파일을 모두 읽어들여 배열에 저장이 완료되면, 배열의 첫번째 원소를 기준으로 두번째 배열의 원소부터 마지막 배열의 원소까지 비교한다. 이 과정에서, 첫번째 원소와 동일하다고 인식되는 배열의 원소가 발견되면, 첫번째 배열의 구조체에 그와 같다고 인식되는 배열의 원소에 대한 정보를 저장하고, 그 원소의 바이너리 배열의 평균을 구해서 저장함과 아울러, 첫번째 배열에 합쳐진 해당 배열의 원소를 삭제한다. 다음으로, 두번째 배열의 원소를 기준으로 하여, 앞서와 동일한 방법으로 세번째 원소부터 마지막 원소까지 서로 비교한다. 그 이후, 마찬가지로 세번째 이후의 원소를 기준으로 하여 동일 과정을 반복한다. 이러한 과정을 배열의 끝에 이를때까지 반복한다. 이러한 비교과정을 통해서 최종적으로 남는 배열이 바로 그룹핑된 결과물이고, 여기에는 차후에 LIK 파일에 저장될 최종 정보를 지니고 있다.First, it reads an ISB file, reads several bitmap binary files contained in the ISB file, and stores them in an array of structures in turn. Herein, the structure refers to one unit that stores each bitmap binary as one object and stores the index, file name, and bitmap binary of each object. After all the ISB files have been loaded and stored in the array, the first element in the array is compared to the last element in the second array. In this process, if an element of an array that is found to be the same as the first element is found, the information of the element of the array that is recognized as the same is stored in the structure of the first array, and the average of the binary array of the element is stored. , Deletes the elements of the array joined by the first array. Next, based on the elements of the second array, the third to last elements are compared with each other in the same manner as before. After that, the same process is repeated based on the third and subsequent elements. This process is repeated until the end of the array. The result of this comparison is that the final array is the grouped output, which contains the final information that will be stored in the LIK file later.

협의의 클러스터링에서 유사한 비트맵 이미지를 그룹핑하는 구체적인 원리는, 대상 이미지를 흑과 백으로 이진화시키고, 이진화된 이미지로부터 수학적으로 계산된 파형의 곡선값을 비교하는 것이다.The specific principle of grouping similar bitmap images in the consensus clustering is to binarize the target image into black and white and compare the curve values of the mathematically calculated waveform from the binarized image.

본 발명의 일실시예에 따른, 비트맵 이미지를 비교하여 유사한 이미지들을 그룹핑하는 원리는 다음과 같다.According to an embodiment of the present invention, the principle of grouping similar images by comparing bitmap images is as follows.

우선, 일정한 크기로 보정된 비트맵 이미지에 대한 연산을 실시한다. 비트맵은 컴퓨터상에서 흑점과 백색으로 표현되며, 흑점은 1로서, 백색은 0으로 이진화된다. 이 원리를 응용하여, 비트맵 이미지를 일측선을 기준으로 하여 한쪽 방향으로 집결시킨다. 도 7은 집결된 비트맵 이미지의 일례를 나타낸 것으로서, 단위 세그먼트의 좌측선을 기준으로 하여 비트맵 이미지를 집결시킨 것이다. 집결시킨 후, 흑색과 백색의 경계가 되는 파형의 곡선값을 수학적으로 계산한다. 즉, 개개의 세그먼트화된 이미지에 대한 수학적 연산을 통해서, 파형의 곡선값을 알고리즘을 이용하여 연산해낸 다음, 동일한 파형의 곡선값을 지닌 수학식을 검색함으로써 유사 이미지를 그룹핑하는 것이다. 본 발명에서는, 상기 과정을 다른 기준선을 이용하여 복수회 반복함으로써 보다 정확한 그룹핑이 가능하도록 할 수 있다. 도 8은 세그먼트의 하단선을 기준으로 하여 비트맵 이미지를 집결시킨 것으로서, 마찬가지로 흑백의 경계가 되는 파형의 곡선값을 알고리즘을 이용해서 수학적으로 연산한 다음, 동일한 파형의 곡선값을 갖는 유사 이미지를 찾아낼 수 있다.First, a calculation is performed on a bitmap image corrected to a constant size. Bitmaps are represented on the computer by black spots and whites, with black spots being 1 and whites being binarized to zero. By applying this principle, bitmap images are collected in one direction with respect to one side. FIG. 7 illustrates an example of aggregated bitmap images, in which bitmap images are collected based on a left line of a unit segment. After collecting, the curve value of the waveform that borders black and white is mathematically calculated. That is, through mathematical calculations on individual segmented images, the curve values of the waveforms are calculated using an algorithm, and then similar images are grouped by searching for an equation having the curve values of the same waveform. In the present invention, the above process may be repeated a plurality of times using different reference lines to enable more accurate grouping. 8 is a graph of a bitmap image based on a bottom line of a segment. Similarly, a curve value of a waveform bordering a black and white boundary is mathematically calculated using an algorithm, and then a similar image having a curve value of the same waveform is generated. Can be found.

본 발명자는 이러한 원리를 응용한 비트맵 이미지의 비교과정을 통해서, 유사한 비트맵 이미지를 매우 정확하게 그룹핑할 수 있다는 놀라운 사실을 발견할 수 있었다. 본 발명은, 흑백 분리를 통한 이진화 방법을 일례로서 제시하고 있지만, 컬러를 분리할 수 있는 알고리즘을 통해서, 다색으로 구성된 이미지의 유사성을 판정하는 방법 역시 본 발명의 범주에 속함은 물론이다.The inventors have found a surprising fact that the comparison of bitmap images applying this principle can group similar bitmap images very accurately. Although the present invention proposes a binarization method through black and white separation as an example, a method of determining similarity of an image composed of multiple colors through an algorithm capable of separating colors also belongs to the scope of the present invention.

이하에, 실제로 협의의 클러스터링이 진행되는 과정을 도 9 내지 12의 도면을 통해서 설명한다.In the following, the process of actually performing the clustering of negotiations will be described with reference to FIGS. 9 to 12.

도 9는 LIK 파일을 생성하는 단계를 나타내고 있고, 도 10은 이미지 비교 기준을 세팅하는 단계를 나타내고 있다. 이 단계는, 프로그램이 두 개의 이미지를 비교할 때 동일한 이미지인지의 여부를 판별하는 기준을 결정하는 단계로서, 이미지 클러스터링이 수행되는 대상의 특성에 따라 적절하게 그 기준을 달리 결정할 수 있다. 도 11은 비트맵 생성 프로그램을 통해서 생성된 ISB 파일을 읽어들이는 단계를 나타내고 있다. 도 12는 그룹핑이 진행되는 경과를 나타내고 있다. 이 때, 이 그룹핑을 취소하고 싶으면 취소 버튼을 클릭하고, 반면에 계속 진행하고자 하면 이 과정이 종료된 후에 확인 버튼을 클릭한다.9 illustrates a step of generating a LIK file, and FIG. 10 illustrates a step of setting image comparison criteria. This step is a step of determining a criterion for determining whether a program is the same image when comparing two images, and may differently determine the criterion appropriately according to the characteristics of the object on which image clustering is performed. 11 illustrates a step of reading an ISB file generated through a bitmap generation program. 12 shows the progress of grouping. At this time, if you want to cancel this grouping, click the Cancel button, while if you want to proceed, click the OK button after this process is finished.

본 발명의 방법에서는, 상기 비교단계를 통해서 그룹핑된 비트맵 이미지들을 디스플레이하고, 디스플레이된 이미지중에서 적절하게 그룹핑된 이미지에 대하여 그에 대응되는 문자 텍스트를 입력하는 단계 및 상기 입력단계를 통해서, 적절하게 그룹핑된 이미지 각각에 그에 대응되는 문자 텍스트가 입력되도록 하는 단계를 수행한다.In the method of the present invention, the bitmap images grouped through the comparing step are displayed, and the texts corresponding to the appropriately grouped images among the displayed images are input. The character text corresponding thereto is input to each of the displayed images.

본 발명에서 그룹핑된 비트맵 이미지를 디스플레이하는 방법은 공지의 방법중 본 발명의 목적을 벗어나지 않는 범주내에서 취사선택할 수 있으며, 사용자의 편의를 고려하여 다양한 인터페이스가 채용될 수 있다.In the present invention, a method for displaying a grouped bitmap image may be selected within a range without departing from the object of the present invention among known methods, and various interfaces may be adopted in consideration of the user's convenience.

본 발명의 방법에서는, 상기한 바와 같이 협의의 클러스터링이 완료된 후, 텍스트 입력 과정이 후속적으로 진행된다.In the method of the present invention, after the negotiation clustering is completed as described above, the text input process is subsequently performed.

텍스트 입력과정에서는 앞서 협의의 클러스터링 과정에서 생성되어 저장된 LIK 파일을 이용한다. 도 13 내지 16은, LIK 파일을 이용하여, 텍스트를 입력하는 과정을 나타내고 있는 캡쳐 화면들이다.The text input process uses the LIK file created and stored in the previous clustering process. 13 to 16 are capture screens illustrating a process of inputting text using a LIK file.

도 13은 LIK 파일을 여는 단계를 나타내고 있고, 도 14는 텍스트 입력의 대상이 되는 문자 이미지와, 그에 대응되는 비트맵 이미지를 화면상에 동시에 디스플레이하는 단계를 나타내고 있다. 도 14에서 나타낸 단계는, LIK 파일에 저장된 인덱스와 파일경로를 참조하여, 적절한 ISB 파일에서 비트맵 바이너리를 읽어와서 화면상에 비트맵 이미지를 디스플레이함으로써 구현된다. 본 발명의 일실시예에 따르면, 도 4-2에서 나타낸 단계에서, 텍스트 입력의 대상이 되는 원본 문자 이미지들을 화면의 일측에 별도의 기준창으로 나타내는 것이 바람직하다. 특히, 상기 기준창에 나타내는 문자 이미지들은 일정한 기준에 의거하여 나열되는 것이 바람직한데, 도 14에서는 본 발명의 방법을 적용할 대상인 한적 자료의 전체에 걸쳐 출현하는 문자를 빈도순으로 정리한 예를 나타내고 있다. 또한, 상기 기준창과는 별도로, 입력창을 화면의 적당한 위치에 구비시키는 것이 바람직하다. 본 발명의 일실시예에 따르면, 기준창에 나열된 문자 이미지중 하나를 선택하여 클릭할 경우, 앞서 협의의 클러스터링 단계를 통해서 클러스터링된 비트맵 이미지들이 화면상에 디스플레이된다.FIG. 13 illustrates a step of opening a LIK file, and FIG. 14 illustrates a step of simultaneously displaying a character image and a bitmap image corresponding to a text input on a screen. The steps shown in FIG. 14 are implemented by reading the bitmap binary from the appropriate ISB file and displaying the bitmap image on the screen with reference to the index and file path stored in the LIK file. According to an embodiment of the present invention, in the step shown in Fig. 4-2, it is preferable to represent the original character images to be a text input to a separate reference window on one side of the screen. In particular, it is preferable that the character images displayed in the reference window are arranged based on a predetermined criterion. FIG. 14 shows an example in which the characters appearing throughout the entire Korean material to which the method of the present invention is applied are arranged in frequency order. have. In addition, apart from the reference window, it is preferable to provide the input window at an appropriate position on the screen. According to an embodiment of the present invention, when selecting and clicking one of the text images listed in the reference window, the clustered bitmap images are displayed on the screen through the clustering step of the above discussion.

다음으로, 사용자는 디스플레이된 비트맵 이미지들중에서 상이한 문자가 있을 경우, 그 문자를 선택하여 체크한다. 도 15는 상이한 문자를 선택하는 단계를 나타내고 있다. 디스플레이된 전체 비트맵 이미지중에서 적절하게 그룹핑되지 않은, 상이한 문자가 있는지를 확인한 다음, 사용자는 입력창에 디스플레이된 문자 이미지에 대응되는 문자 텍스트를 입력한다. 이러한 텍스트 입력 작업은 마지막 페이지까지 반복하여 수행된다. 이러한 텍스트 입력작업이 완료되면, 다음으로 입력된 텍스트 정보를 PSD 파일에 저장한다. 도 16은 텍스트 입력정보를 PSD 파일에 저장하는 단계를 나타내고 있다. 이 과정에서는, LIK 파일의 인덱스와 파일명 정보를 이용해서 적절한 PSD 파일을 찾아서 파일내의 적당한 위치에 코드값이 저장된다. 결국, 문자의 코드값이 입력된 PSD 파일과 함께, 잘못 그룹핑되었던 이미지의 파일명과 인덱스가 저장된 WNG 파일이 생성된다. 마지막으로, 상기 WNG 파일은 별도의 일자교정방법을 통해서 적절하게 텍스트화된다. 일자교정방법의 구체적인 내용은, 본 발명자에 의해 기출원되어 공개된, 대한민국 공개특허공보 제2001-15963호에 자세히 개시되어 있는 바, 그 내용 역시 본 발명의 참조문헌으로서 채택되어 본 발명의 일부를 구성한다.Next, if there is a different character among the displayed bitmap images, the user selects and checks that character. 15 shows the step of selecting different characters. After confirming that there are different characters, which are not properly grouped among the displayed bitmap images, the user inputs the character text corresponding to the displayed character image in the input window. This text entry is performed repeatedly until the last page. When the text input operation is completed, the text information is then stored in the PSD file. 16 illustrates a step of storing text input information in a PSD file. In this process, the LIK file index and file name information is used to find an appropriate PSD file, and the code value is stored at an appropriate location in the file. As a result, together with the PSD file in which the code value of the character is input, a WNG file in which the file names and indexes of the images that are incorrectly grouped are stored is generated. Finally, the WNG file is properly textified through a separate date correction method. Details of the date correction method are disclosed in detail in Korean Patent Laid-Open Publication No. 2001-15963, previously filed and published by the present inventors, the content of which is also adopted as a reference of the present invention to provide a part of the present invention. Configure.

본 발명의 다른 일실시예에 의하면, 본 발명은 앞서 언급한 이미지의 클러스터링 방법을 이용하여, 문자를 고속으로 입력 및 교정하는 방법을 제공한다.According to another embodiment of the present invention, the present invention provides a method for inputting and correcting a text at high speed by using the aforementioned clustering method.

도 17은, 본 발명의 다른 일실시예에 따른 문자의 고속 입력 및 교정방법을 나타내고 있는 순서도이다. 도 17을 참조하여, 본 발명에 따른 문자의 고속 입력 및 교정 방법에 대하여 설명한다.17 is a flowchart illustrating a method for fast input and correction of characters according to another embodiment of the present invention. With reference to FIG. 17, the fast input and correction method of the character which concerns on this invention is demonstrated.

우선, 한적 자료 등의 원본 이미지를 스캐너 등을 이용하여 그림 파일의 형태로 입력하여 저장한다 (단계 1 및 2). 저장된 이미지에 대하여 영인프로그램을 작동시켜 이미지에 포함된 각각의 문자별로 구획하는 세그먼트화를 수행한다 (단계 3). 세그먼트화된 각 문자의 정보를 PSD 파일에 저장한다 (단계 4). 앞서도 설명하였듯이, PSD 파일은 세그먼트화된 각 문자의 인덱스와 위치정보 그리고 코드값을 저장한 장소를 갖고 있는 파일이다. 이어서, 비트맵 생성 프로그램을 이용하여 상기 세그먼트화된 이미지에 대한 흑백 비트맵을 생성한다 (단계 5). 생성된 흑백 비트맵을 ISB 파일로 생성시킨다 (단계 6). ISB 파일은 세그먼트화된 이미지들의 흑백 비트맵에 관한 정보를 포함하고 있는 파일이다. 다음으로, 상기 언급한 이미지의 클러스터링 단계를 수행한다. 즉, 이미지들의 비교기준을 세팅하고 (단계 7), 동일한 이미지끼리 그룹핑한 다음 (단계 8), 색인 파일 (일명 LIK 파일)을 생성한다 (단계 9). LIK 파일은 그룹핑된 이미지들의 위치정보와 색인정보를 갖고 있어서, 차후에 원본 이미지를 화면상에 디스플레이할 때, 그에 대응되는 ISB 파일과PSD 파일을 손쉽게 검색할 수 있도록 한다. 단계 10은 LIK 파일을 이용하여 화면상에 원본 이미지를 디스플레이하는 단계이다. 다음으로, 디스플레이된 이미지중에서 상이한 이미지가 존재하는지의 여부를 판단한다 (단계 11). 만약, 상이한 이미지가 존재할 경우에는 그 상이한 이미지를 선택하여 체크하고 (단계 12), 적절하게 그룹핑된 동일 이미지들에 대해서는 그에 대응되는 텍스트 문자를 입력, 저장한다 (단계 13). 상기 단계 12를 통해서 체크된 상이한 이미지에 대해서는, 그 이미지에 대한 인덱스 정보와 경로를 포함하는 WNG 파일을 생성한다 (단계 14). 상기 WNG 파일은 일자교정 프로그램을 이용하여 수정한다 (단계 15 내지 18).First, an original image such as Korean traditional data is input and stored in the form of a picture file using a scanner or the like (steps 1 and 2). A zero-in program is operated on the stored image to segment by each character included in the image (step 3). The information of each segmented character is stored in the PSD file (step 4). As described above, the PSD file is a file that stores the index, location information, and code value of each segmented character. A bitmap generator is then used to generate a black and white bitmap for the segmented image (step 5). Generate the generated black and white bitmap as an ISB file (step 6). An ISB file is a file that contains information about a black and white bitmap of segmented images. Next, the clustering step of the above-mentioned image is performed. That is, the comparison criteria of the images are set (step 7), the same images are grouped together (step 8), and an index file (aka LIK file) is generated (step 9). The LIK file contains the location information and the index information of the grouped images, so that when the original image is displayed on the screen later, the corresponding ISB file and PSD file can be easily searched. Step 10 is a step of displaying the original image on the screen using the LIK file. Next, it is determined whether there is a different image among the displayed images (step 11). If there is a different image, the different image is selected and checked (step 12), and text characters corresponding to the appropriately grouped same images are input and stored (step 13). For the different images checked in step 12 above, a WNG file containing index information and paths for the images is generated (step 14). The WNG file is modified using a date correction program (steps 15-18).

본 발명의 방법에 따르면, 출현빈도가 높은 소수개의 문자를, 출현시마다 반복적으로 입력하는 대신에, 동일한 문자를 표현한 이미지들을 동일한 문자로서 인식하여 그룹핑함으로써, 한번의 입력작업을 통해서 동일한 문자에 대한 반복적인 다수회의 텍스트 입력작업을 생략할 수 있게 된다. 본 발명의 방법에 의하면, 한적 자료의 전산화에 있어서 기본이 되는 텍스트 입력작업을 획기적으로 개선할 수 있다.According to the method of the present invention, instead of repeatedly inputting a small number of characters with high occurrence frequency, the images representing the same characters are recognized as the same characters and grouped, thereby repeating the same characters through one input operation. Multiple text input operations can be omitted. According to the method of the present invention, it is possible to drastically improve the text input work which is the basis for the computerization of Korean data.

Claims (6)

세그먼트화된 비트맵 이미지를 비교하는 단계;Comparing the segmented bitmap images; 상기 비교 단계를 통해서 유사한 문자로 인식된 비트맵 이미지들을 그룹핑하는 단계;Grouping bitmap images recognized as similar characters through the comparing step; 그룹핑된 비트맵 이미지들을 디스플레이하는 단계 및Displaying the grouped bitmap images and 디스플레이된 이미지중에서 적절하게 그룹핑된 이미지에 대하여 사용자가 그에 대응되는 문자 텍스트를 입력함에 따라, 적절하게 그룹핑된 이미지 각각에 그에 대응되는 문자 텍스트를 입력시키는 단계를 포함하는, 이미지의 클러스터링 방법.Inputting corresponding text of text into each of the suitably grouped images as the user inputs corresponding text of text to the appropriately grouped images in the displayed images. 세그먼트화된 비트맵 이미지를 비교하는 단계;Comparing the segmented bitmap images; 상기 비교 단계를 통해서 유사한 문자로 인식된 비트맵 이미지들을 그룹핑하는 단계;Grouping bitmap images recognized as similar characters through the comparing step; 그룹핑된 비트맵 이미지들을 디스플레이하는 단계;Displaying the grouped bitmap images; 디스플레이된 이미지중에서 적절하게 그룹핑된 이미지에 대하여 사용자가 그에 대응되는 문자 텍스트를 입력함에 따라, 적절하게 그룹핑된 이미지 각각에 그에 대응되는 문자 텍스트를 입력시키는 단계 및As the user inputs corresponding text of text corresponding to an appropriately grouped image among the displayed images, inputting corresponding text of text into each of the appropriately grouped images; and 사용자에 의해 선택된, 부적절하게 그룹핑된 이미지들이 교정되도록 하는 단계를 포함하는, 이미지의 클러스터링 방법.Causing the inappropriately grouped images selected by the user to be corrected. 제 1항 또는 제 2항에 있어서, 세그먼트화된 비트맵 이미지를 비교하는 단계 및 상기 비교단계를 통해서 유사한 문자로 인식된 비트맵 이미지들을 그룹핑하는 단계는, 흑백 분리를 통한 이진화 방법을 이용하여 수행됨을 특징으로 하는 방법.The method of claim 1 or 2, wherein comparing the segmented bitmap images and grouping bitmap images recognized as similar characters through the comparing step are performed using a binarization method using black and white separation. Characterized by the above. 제 3항에 있어서, 흑백 분리를 통한 이진화 방법은, 대상 이미지를 흑과 백으로 이진화시킨 후, 이진화된 이미지로부터 수학적으로 계산된 파형의 곡선값을 비교함을 특징으로 하는, 이미지의 클러스터링 방법.4. The clustering method of claim 3, wherein the binarization method using black-and-white separation is characterized by comparing the curve values of a mathematically calculated waveform from the binarized image after binarizing the target image into black and white. 스캐닝된 원본 이미지를 생성하는 단계;Generating a scanned original image; 생성된 이미지를 세그먼트화하는 단계;Segmenting the generated image; 세그먼트화된 이미지를 비트맵 이미지로 변환하는 단계;Converting the segmented image into a bitmap image; 세그먼트화된 비트맵 이미지를 일정한 크기로 보정하는 단계 및Correcting the segmented bitmap image to a constant size, and 제1항에 따른 이미지의 클러스터링 방법을 이용하여, 적절하게 그룹핑된, 동일한 원본 이미지 각각에 그에 대응되는 문자 텍스트를 입력시키는 단계를 포함하는, 문자를 고속으로 입력 및 교정하는 방법.A method of rapidly entering and correcting characters, comprising the step of inputting corresponding character text to each of the same original images, suitably grouped, using the clustering method of the image according to claim 1. 스캐닝된 원본 이미지를 생성하는 단계;Generating a scanned original image; 생성된 이미지를 세그먼트화하는 단계;Segmenting the generated image; 세그먼트화된 이미지를 비트맵 이미지로 변환하는 단계;Converting the segmented image into a bitmap image; 세그먼트화된 비트맵 이미지를 일정한 크기로 보정하는 단계;Correcting the segmented bitmap image to a constant size; 제 2항에 따른 이미지의 클러스터링 방법을 이용하여, 디스플레이된 이미지중에서 적절하게 그룹핑된 이미지에 대하여 사용자가 그에 대응되는 문자 텍스트를 입력함에 따라, 적절하게 그룹핑된 이미지 각각에 그에 대응되는 문자 텍스트를 입력시키고, 한편 사용자에 의해 선택된, 부적절하게 그룹핑된 이미지들이 교정되도록 하는 단계를 포함하는, 문자를 고속으로 입력 및 교정하는 방법.Using the clustering method of the image according to claim 2, as the user inputs the text corresponding to the appropriately grouped images among the displayed images, the text corresponding to each of the appropriately grouped images is input. And causing the inappropriately grouped images selected by the user to be corrected, on the other hand.
KR10-2002-0032086A 2002-06-07 2002-06-07 The method for clustering an image of a character and the method for high-speed inputting and correcting a character by using the same KR100470346B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR10-2002-0032086A KR100470346B1 (en) 2002-06-07 2002-06-07 The method for clustering an image of a character and the method for high-speed inputting and correcting a character by using the same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2002-0032086A KR100470346B1 (en) 2002-06-07 2002-06-07 The method for clustering an image of a character and the method for high-speed inputting and correcting a character by using the same

Publications (2)

Publication Number Publication Date
KR20030094797A KR20030094797A (en) 2003-12-18
KR100470346B1 true KR100470346B1 (en) 2005-02-07

Family

ID=32386313

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2002-0032086A KR100470346B1 (en) 2002-06-07 2002-06-07 The method for clustering an image of a character and the method for high-speed inputting and correcting a character by using the same

Country Status (1)

Country Link
KR (1) KR100470346B1 (en)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6330990A (en) * 1986-07-25 1988-02-09 Matsushita Electric Ind Co Ltd Character recognizing device
JPS63221495A (en) * 1987-03-11 1988-09-14 Matsushita Electric Ind Co Ltd Character recognizing device
JPH0696263A (en) * 1992-09-09 1994-04-08 Nippon Telegr & Teleph Corp <Ntt> Pattern recognizing device
JPH06223233A (en) * 1993-01-25 1994-08-12 Hitachi Eng Co Ltd Character recognizing device and method thereof
KR19990052967A (en) * 1997-12-23 1999-07-15 구자홍 Korean Recognition Method Using Window and Projection Information

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6330990A (en) * 1986-07-25 1988-02-09 Matsushita Electric Ind Co Ltd Character recognizing device
JPS63221495A (en) * 1987-03-11 1988-09-14 Matsushita Electric Ind Co Ltd Character recognizing device
JPH0696263A (en) * 1992-09-09 1994-04-08 Nippon Telegr & Teleph Corp <Ntt> Pattern recognizing device
JPH06223233A (en) * 1993-01-25 1994-08-12 Hitachi Eng Co Ltd Character recognizing device and method thereof
KR19990052967A (en) * 1997-12-23 1999-07-15 구자홍 Korean Recognition Method Using Window and Projection Information

Also Published As

Publication number Publication date
KR20030094797A (en) 2003-12-18

Similar Documents

Publication Publication Date Title
RU2631168C2 (en) Methods and devices that convert images of documents to electronic documents using trie-data structures containing unparameterized symbols for definition of word and morphemes on document image
RU2643465C2 (en) Devices and methods using a hierarchially ordered data structure containing unparametric symbols for converting document images to electronic documents
JP5647919B2 (en) Character recognition device, character recognition method, character recognition system, and character recognition program
JP5402099B2 (en) Information processing system, information processing apparatus, information processing method, and program
JP2713622B2 (en) Tabular document reader
RU2596600C2 (en) Methods and systems for processing images of mathematical expressions
RU2640322C2 (en) Methods and systems of effective automatic recognition of symbols
JPH11120293A (en) Character recognition/correction system
RU2625533C1 (en) Devices and methods, which build the hierarchially ordinary data structure, containing nonparameterized symbols for documents images conversion to electronic documents
KR100470346B1 (en) The method for clustering an image of a character and the method for high-speed inputting and correcting a character by using the same
JPH08320914A (en) Table recognition method and device
JP3319203B2 (en) Document filing method and apparatus
JP7365835B2 (en) Structure recognition system, structure recognition device, structure recognition method, and program
RU2582064C1 (en) Methods and systems for effective automatic recognition of symbols using forest solutions
KR20230029206A (en) Apparatus for constructing training data for artificial intelligence based text recognition
JP5375577B2 (en) Character element determination apparatus and character element determination method
US20160098597A1 (en) Methods and systems that generate feature symbols with associated parameters in order to convert images to electronic documents
Kaur et al. Adverse conditions and techniques for cross-lingual text recognition
Tataw et al. Clustering of symbols using minimal description length
Bhattacharjee et al. A Novel Approach for Character Recognition
JP2874815B2 (en) Japanese character reader
KR20070099138A (en) The examination system for the documents created with optical character recognition and the method thereof
Snowberger et al. Manchu Script Letters Dataset Creation and Labeling
Shah et al. Word-Level Devanagari Text Recognition
JP3077580B2 (en) Character reader

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
J206 Request for trial to confirm the scope of a patent right
J301 Trial decision

Free format text: TRIAL DECISION FOR CONFIRMATION OF THE SCOPE OF RIGHT_DEFENSIVE REQUESTED 20051216

Effective date: 20060831

FPAY Annual fee payment

Payment date: 20091204

Year of fee payment: 6

LAPS Lapse due to unpaid annual fee