KR100207657B1 - Hierarchical character recognition method and apparatus, and its word post-processing method - Google Patents

Hierarchical character recognition method and apparatus, and its word post-processing method Download PDF

Info

Publication number
KR100207657B1
KR100207657B1 KR1019960004902A KR19960004902A KR100207657B1 KR 100207657 B1 KR100207657 B1 KR 100207657B1 KR 1019960004902 A KR1019960004902 A KR 1019960004902A KR 19960004902 A KR19960004902 A KR 19960004902A KR 100207657 B1 KR100207657 B1 KR 100207657B1
Authority
KR
South Korea
Prior art keywords
hierarchical
dictionary
post
word
processing
Prior art date
Application number
KR1019960004902A
Other languages
Korean (ko)
Other versions
KR970062902A (en
Inventor
김준호
김수형
이상규
Original Assignee
윤종용
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 윤종용, 삼성전자주식회사 filed Critical 윤종용
Priority to KR1019960004902A priority Critical patent/KR100207657B1/en
Publication of KR970062902A publication Critical patent/KR970062902A/en
Application granted granted Critical
Publication of KR100207657B1 publication Critical patent/KR100207657B1/en

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

계층 구조의 문맥 구조를 이용하여 높은 인식률을 얻게 하는 문자 인식 방법 및 이에 적합한 장치가 개시된다.Disclosed are a character recognition method and apparatus suitable for obtaining a high recognition rate using a hierarchical context structure.

본 발명에 따른 문자 인식 방법은 선행 계층에 사용된 단어에 따라 다음 계층에 사용되는 단어가 제한되는 n개의 계층 구조를 가지는 계층 구조의 문자를 인식하는 문자 인식 방법에 있어서, 상기 n개의 계층별 단어를 계층별로 수록한 계층 구조 사전으로부터 인식할 단어에 해당하는 계층에 필요한 단어 사전을 생성하는 과정; 상기 단어 사전으로부터 계층별 입력 단어 영상의 각 문자를 인식하는 데 사용할 유니그램을 생성하는 과정; 상기 유니그램을 사용하여 계층별 입력 단어 영상의 각 문자에 대한 문자 인식을 수행하여 하나 이상의 후보 문자를 생성하는 문자 인식 과정; 상기 후보 문자를 상기 단어 사전을 사용하여 단어 후처리하는 후처리 과정; 및 상기 계층 구조 사전 및 상기 후처리 과정의 결과를 이용하여 차하위 계층의 인식에 필요한 단어 사전을 생성하는 과정을 포함하는 것을 특징으로 한다.The character recognition method according to the present invention is a character recognition method for recognizing a character of a hierarchical structure having n hierarchical structures in which a word used in a next hierarchical layer is limited according to a word used in a preceding hierarchical layer, wherein the n hierarchical words Generating a word dictionary required for a hierarchy corresponding to a word to be recognized from the hierarchy dictionary including the hierarchy for each hierarchy; Generating a unigram to be used to recognize each character of the input word image for each layer from the word dictionary; A character recognition process of generating one or more candidate characters by performing character recognition on each character of the input word image for each layer using the unigram; A post-processing step of post-processing the candidate letters using the word dictionary; And generating a word dictionary necessary for recognition of a lower hierarchy by using a result of the hierarchical dictionary and the post-processing process.

본 발명에 따른 문자 인식 방법은 계층 구조 정보를 갖는 사전을 사용함으로써 후처리의 성능이 개선되는 효과가 있다.The character recognition method according to the present invention has an effect of improving post-processing performance by using a dictionary having hierarchical structure information.

Description

계층 구조의 문자 인식 방법 및 장치, 그리고 이에 적합한 단어 후처리 방법Method and apparatus for character recognition of hierarchical structure, and word post-processing method suitable for this

제1도는 종래의 문자 인식 방법을 보이는 흐름도이다.1 is a flowchart showing a conventional character recognition method.

제2도는 본 발명에 따른 문자 인식 방법의 일 실시예를 보이는 흐름도이다.2 is a flowchart showing an embodiment of a character recognition method according to the present invention.

제3도는 본 발명에 다른 문자 인식 추처리 장치의 구성을 보이는 블록도이다.3 is a block diagram showing the structure of a character recognition weight processing apparatus according to the present invention.

제4도는 계층 구조의 일 예를 보이는 도면이다.4 is a diagram illustrating an example of a hierarchical structure.

본 발명은 문자 인식 방법에 관한 것으로서 더욱 상세하게는 계층 구조의 문맥 구조를 이용하여 높은 인식률을 얻게 하는 방법 및 이에 적합한 장치에 관한 것이다.The present invention relates to a character recognition method, and more particularly, to a method for obtaining a high recognition rate using a hierarchical context structure, and an apparatus suitable for the same.

정보화 사회의 도래와 함께 문서 형태의 정보들을 데이터베이스화하려는 요구가 날로 증대되고 있다. 그러나, 처리할 문서의 양이 급격히 증가하면서 키보드를 통하여 입력하는 방법은 한계를 보이고 있다. 따라서, 문자 인식 기술을 이용하여 데이터베이스를 구축하는 방법이 개발되고 있다.With the advent of the information society, the demand for databaseing information in the form of documents is increasing day by day. However, as the amount of documents to be processed increases rapidly, the method of inputting through the keyboard shows a limitation. Therefore, a method of building a database using character recognition technology has been developed.

패턴 인식의 한 분야인 문자 인식은 영상 입력 장치를 통해 입력된 영상으로부터 문자 영상의 추출, 정규화, 골격화 등의 전처리를 행하는 전처리(pre-processing) 단계와 문맥적 지식을 이용하여 오인식된 문자를 수정하는 후처리(post-processing) 단계로 구성된다.Character recognition, a field of pattern recognition, uses a pre-processing step that performs preprocessing such as extraction, normalization, and skeletalization of a character image from an image input through an image input device, and uses a contextual knowledge to recognize a character that has been misrecognized. It consists of a post-processing phase of modification.

문맥적 지식을 이용하여 오인식된 문자를 수정하는 후처리 방법은 그 방법론에 따라 분류해 보면, 확률에 기초한 비터비(viterbi) 알고리즘, N-gram 알고리즘 등의 방법과 사전을 이용한 방법으로 나눌 수 있으며 이들 중에서 후자의 방법이 보편적으로 사용되고 있다.The post-processing methods for correcting misrecognized characters using contextual knowledge can be classified into methods such as probability-based Viterbi algorithm, N-gram algorithm, and dictionary methods. Of these, the latter method is commonly used.

또한, 후처리 대상의 단위에 따라 분류해 보면, 어절 후처리, 문장 후처리, 단어 후처리로 나눌 수 있다.In addition, when classified according to the unit of post-processing target, it can be divided into word post-processing, sentence post-processing, and word post-processing.

어절 후처리는 단어와 그 활용 형태를 분석하는 형태소 분석 과정이 이루어져야 하고, 문장 후처리는 각 어절의 결합 법칙(context-free grammer 또는 regular expression)에 대한 분석이 이루어져야 하며, 그리고 단어 후처리는 문장의 기본 구성 요소인 단어에 대한 후처리로서 세 가지 방법 중에서 가장 구현하기가 쉽다. 그리고, 현재 문장 후처리와 어절 후처리에는 각 구성 요소간의 상관 관계 또는 문맥을 고려하지 않는 방법(contest-free)이 사용되고 있다.Word post-processing should be done with morphological analysis to analyze words and their usage forms, sentence post-processing should be done with context-free grammers or regular expressions, and word post-processing should be done with sentences. It is the easiest to implement of the three methods as a post-processing of the basic building blocks of words. In the present sentence post-processing and word post-processing, a method (contest-free) that does not consider the correlation or context between each component is used.

문자 인식에서 사용하고 있는 후처리의 분야는 문서 인식과 전표 인식의 두 분야로 크게 나눌 수 있다.The field of post-processing used in character recognition can be divided into two fields, document recognition and journal recognition.

문서 인식에서는 정형화되지 않은 형태를 갖는 책, 잡지, 신문 등의 일반 문서에 대한 인식을 행하며, 어절 후처리 또는 문장 후처리 기술을 사용하는 것이 보통이다. 전표 인식에서는 정형화된 형태의 대량의 문서에 대한 인식을 행하며, 단어 후처리를 사용한다. 두 분야 모두 사전을 사용한 후처리 방법을 가장 많이 사용하고 있다.In document recognition, general documents such as books, magazines, and newspapers having an unstructured form are recognized, and it is common to use word postprocessing or sentence postprocessing techniques. Journal recognition recognizes a large amount of documents in a standardized form and uses word postprocessing. In both fields, the post-processing method using dictionaries is the most common.

전표 인식 등의 분야에서는 정보화하고자 하는 단위가 계층 구조를 갖는 n(여기서, n은 1보다 큰 자연수)개의 단어로 구성되어져 있는 경우가 많다. 여기서 계층 구조라 함은 선행된 단어의 의미에 따라 다음에 오는 단어가 제한되는 구조를 말하며, 그 예로서는 행정 구역 조직과 우편 번호, 기업의 부서명 등을 들 수 있다.In the field of document recognition and the like, the unit to be informed is often composed of n words (where n is a natural number larger than 1). Here, the hierarchical structure refers to a structure in which the following words are limited according to the meanings of the preceding words, and examples thereof include an administrative district organization, a postal code, and a corporate department name.

제4도는 행정 구역 조직과 우편 번호에 대한 계층 구조의 예를 보이는 것이다.Figure 4 shows an example hierarchical structure for administrative organization and postal code.

제4도에 도시된 계층 구조는 각각 광역 자치 단체, 시/군, 구, 동, 우편번호 앞자리, 그리고 우편 번호 뒷자리로 구성되는 6개의 계층을 가지고 있다. 제4도의 좌측에서부터 우측으로의 순서로 계층의 우선 순위가 결정되며 상위 계층에 나오는 단어에 따라 하위 계층에 나오는 단어가 제한된다.The hierarchical structure shown in FIG. 4 has six hierarchies each composed of a local government, a city / county, a ward, a town, a postal code prefix, and a postal code prefix. The priority of the hierarchy is determined in the order from the left to the right in FIG.

예를 들면, 광역시의 이름 뒤에는 구 이름 이외에는 나올 수 없고, 대전 광역시의 다음에는 인천 광역시의 구 이름이 나올 수 없다.For example, the name of the metropolitan city may not be followed by the name of the city, and the name of the city of Incheon Metropolitan City may not appear after the Daejeon Metropolitan City.

계층 구조를 갖는 n개의 단어 집합에 대한 종래의 후처리 방법에서는 Efficient Postprocessing Algorithms for Error Correction in Handwritten Hangul Address and Human Name Recognition (Porc. of the second international conference on document analysis and recognition, Tsukuba Science City, Japan, 1993, pp232-235)에 개시된 바와 같이 각 계층마다 독립된 사전을 구성하여 각각의 사전에 의한 후처리 방법을 독립적으로 적용하는 것이다.In a conventional postprocessing method for a set of n words having a hierarchical structure, Efficient Postprocessing Algorithms for Error Correction in Handwritten Hangul Address and Human Name Recognition (Porc. Of the second international conference on document analysis and recognition, Tsukuba Science City, Japan, As disclosed in 1993, pp232-235), an independent dictionary is constructed for each layer to independently apply the post-processing method by each dictionary.

각 계층의 단어 사전은 해당 계층의 단어들이 수록된다. 예를 들면 제4도에 도시된 계층구조에서 최상위 계층에 해당하는 단어 사전은 서울특별시, 부산광역시, 강원도, 충청북도,,, 등의 광역시, 도의 이름이 수록된다.The word dictionary of each hierarchy contains the words of that hierarchy. For example, the word dictionary corresponding to the highest hierarchy in the hierarchical structure shown in FIG. 4 includes the names of metropolitan cities such as Seoul, Busan, Gangwon-do, Chungcheongbuk-do ,, and the like.

이러한 종래의 문자 후처리 방법은 계층마다 구성된 개별 사전들이 계층 구조 정보를 포함하지 못하므로 상위 계층으로부터 하위 계층으로 갈수록 사전의 크기가 방대해지며 이에 따라 후처리 속도가 저하되는 문제점이 있다.In the conventional character post-processing method, since the individual dictionaries configured for each layer do not include hierarchical structure information, the size of the dictionary increases from the upper layer to the lower layer, and thus there is a problem that the post-processing speed decreases.

또한, 계층 정보의 일부가 변경되었을 경우에 이 변경 사항을 개별 사전들에 반영시키기가 어렵다는 문제점도 있다.In addition, when some of the hierarchical information is changed, it is difficult to reflect this change in individual dictionaries.

본 발명은 상기의 문제점들을 해결하기 위하여 창출된 것으로서 계층 구조의 n개 단어 집합의 후처리에 있어서 단어 상호간의 계층 구조 정보를 사용하여 높은 인식 성능을 얻게 하는 문자 인식 방법을 제공하는 것을 그 목적으로 한다.SUMMARY OF THE INVENTION An object of the present invention is to provide a character recognition method, which has been created to solve the above problems and that achieves a high recognition performance by using hierarchical structure information between words in post-processing of a set of n words in a hierarchy. do.

본 발명의 다른 목적은 상기의 방법에 적합한 문자 인식 장치를 제공하는 것에 있다.Another object of the present invention is to provide a character recognition apparatus suitable for the above method.

본 발명의 또 다른 목적은 상기의 방법에 적합한 문자 인식 후처리 방법을 제공하는 것에 있다.It is still another object of the present invention to provide a character recognition post-processing method suitable for the above method.

상기의 목적을 달성하는 본 발명에 따른 문자 인식 방법은 선행 계층에 사용된 단어에 따라 다음 계층에 사용되는 단어가 제한되는 n개의 계층 구조를 가지는 계층 구조의 문자를 인식하는 문자 인식 방법에 있어서, 상기 n개의 계층별 단어를 계층별로 수록한 계층 구조 사전으로부터 인식할 단어에 해당하는 계층에 필요한 단어 사전을 생성하는 과정; 상기 단어 사전으로부터 계층별 입력 단어 영상의 각 문자를 인식하는 데 사용할 유니그램을 생성하는 과정; 상기 유니그램을 사용하여 계층별 입력 단어 영상의 각 문자에 대한 문자 인식을 수행하여 하나 이상의 후보 문자를 생성하는 문자 인식 과정; 상기 후보 문자를 상기 단어 사전을 사용하여 단어 후처리하는 후처리 과정; 및 상기 계층 구조 사전 및 상기 후처리 과정의 결과를 이용하여 차하위 계층의 인식에 필요한 단어 사전을 생성하는 과정을 포함하는 것을 특징으로 한다.In the character recognition method according to the present invention to achieve the above object in the character recognition method for recognizing a character of the hierarchical structure having n hierarchical structure in which the words used in the next layer is limited according to the words used in the preceding layer, Generating a word dictionary required for a hierarchy corresponding to a word to be recognized from the hierarchy dictionary that includes the n-level words for each hierarchy; Generating a unigram to be used to recognize each character of the input word image for each layer from the word dictionary; A character recognition process of generating one or more candidate characters by performing character recognition on each character of the input word image for each layer using the unigram; A post-processing step of post-processing the candidate letters using the word dictionary; And generating a word dictionary necessary for recognition of a lower hierarchy by using a result of the hierarchical dictionary and the post-processing process.

본 발명에 다른 목적을 달성하는 본 발명에 따른 문자 인식 장치는 선행 계층에 사용된 단어에 따라 다음 계층에 사용되는 단어가 제한되는 n개의 계층 구조를 가지는 계층 구조의 문자를 인식하는 문자 인식 장치에 있어서, n개의 계층 구조를 갖는 계층 구조 사전으로부터 생성된 단어 사전 및 유니그램을 사용하여 문자 인식을 수행하는 장치에 있어서, 계층 구조의 단어 집합에 대한 영상을 입력하는 입력부; 상기 입력부를 통하여 제공되는 계층 구조의 단어 집합에 대한 영상에 대하여 문자 인식을 행하는 문자 인식 엔진; 상기 문자 인식 엔진의 결과를 후처리하는 후처리 엔진; 상기 후처리 엔진의 처리에 사용되는 계층 사전을 저장하는 계층 사전 저장부; 후처리 엔진의 결과를 사용하여 다음 계층 단어의 후처리에 사용된 계층 사전을 동적으로 생성하여 상기 계층 사전 저장부에 제공하는 계층 사전 생성기; 상기 계층 사전 생성기에서 참조하며, n개 계층의 단어들을 계층별로 수록한 계층 구조 사전을 저장하는 계층 구조 사전 저장부; 계층 사전 저장부에 저장된 계층 사전으로부터 유니그램을 생성하는 유니그램 생성기; 상기 유니그램 생성기에서 생성된 유니그램을 저장하는 유니그램 저장부를 포함함을 특징으로 한다.According to another aspect of the present invention, there is provided a character recognition apparatus for recognizing a character having a hierarchical structure in which the words used in the next layer are limited according to the words used in the preceding layer. An apparatus for performing character recognition using a word dictionary and a unigram generated from a hierarchical dictionary having n hierarchical structures, the apparatus comprising: an input unit for inputting an image of a hierarchical word set; A character recognition engine that performs character recognition on an image of a hierarchical word set provided through the input unit; A post-processing engine for post-processing the result of the character recognition engine; A hierarchical dictionary storage unit storing a hierarchical dictionary used for processing the post-processing engine; A hierarchical dictionary generator for dynamically generating a hierarchical dictionary used for post-processing the next hierarchical word using the result of a post-processing engine and providing the hierarchical dictionary to the hierarchical dictionary storage unit; A hierarchical dictionary storage unit, referred to by the hierarchical dictionary generator, for storing a hierarchical dictionary containing n hierarchical words for each hierarchical layer; A unigram generator for generating unigrams from a hierarchy dictionary stored in a hierarchy dictionary storage; It characterized in that it comprises a unigram storage unit for storing the unigram generated by the unigram generator.

상기의 또 다른 목적을 달성하는 본 발명에 따른 문자 후처리 방법은 n개 계층의 단어들을 계층별로 수록한 계층 구조 사전으로부터 생성된 단어 사전 및 유니그램을 사용하여 문자 인식을 수행한 결과로 얻어진 계층 구조의 단어 집합에 대한 후처리 방법에 있어서, 상기 문자 인식의 결과로 생성된 하나 이상의 후보 문자를 상기 단어 사전 및 유니그램을 사용하여 단어 후처리하는 후처리 과정; 및 상기 후처리 과정의 결과를 이용하여 차하위 계층의 단어 사전을 갱신하는 갱신 과정을 포함함을 특징으로 한다.Character post-processing method according to the present invention to achieve the above another object is a layer obtained as a result of performing the character recognition using a word dictionary and a unigram generated from a hierarchical dictionary containing n layers of words by layer A post-processing method for a word set of a structure, comprising: a post-processing process of word post-processing one or more candidate characters generated as a result of the character recognition using the word dictionary and a unigram; And an update process of updating the word dictionary of the next lower layer by using the result of the post-processing process.

본 발명에 따른 문자 인식 방법에서는 상위 계층의 후처리 결과에 따라 이와 연관된 정보만으로 구성된 사전을 동적으로 생성하여, 다음 계층의 후처리에서 사용한다. 다음 계층의 후처리 결과는 다시 다음 계층으로 전파되며, 모든 계층에 대해서 이를 반복한다.In the character recognition method according to the present invention, a dictionary composed only of information related thereto is dynamically generated according to the post-processing result of the upper layer, and used in the post-processing of the next layer. The post-processing result of the next layer is propagated back to the next layer and iterates for all layers.

계층 구조 사전은 계층 구조의 모든 정보를 포함하도록 구성한다. 따라서, 후처리 방법에서 이 정보를 이용할 수 있으며 사전의 관리 또한 용이해 진다. 이하 첨부된 도면을 참조하여 본 발명의 특징 및 효과를 상세히 설명한다.The hierarchical dictionary is configured to include all the information of the hierarchical structure. Therefore, this information can be used in the post-processing method, and advance management is also easy. Hereinafter, with reference to the accompanying drawings will be described in detail the features and effects of the present invention.

제1도는 종래의 문서 인식 방법을 보이는 흐름도이다. 제1도에 도시된 방법은 계층 단어 영상 입력 과정(100단계), 문자 인식 과정(110단계), 단어 후처리 과정(120단계), 그리고 출력 과정(130단계)을 구비한다.1 is a flowchart showing a conventional document recognition method. The method shown in FIG. 1 includes a hierarchical word image input process (step 100), a character recognition process (step 110), a word post-processing process (step 120), and an output process (step 130).

계층 단어 영상 입력 과정(100단계)에서는 각 계층의 단어 영상을 입력한다.In the hierarchical word image input process (step 100), a word image of each layer is input.

문자 인식 과정(110단계)에서는 각 계층의 단어 영상에 대해 문자 분리를 수행하고, 생성된 문자 영상에 대해 문자 인식을 수행하여 문자 인식 결과를 얻는다.In the character recognition process (step 110), character separation is performed on word images of each layer, and character recognition is performed on the generated character image to obtain a character recognition result.

단어 후처리 과정(120단계)에서는 문자 인식 과정(110)에서 얻어진 결과에 대하여 계층 구조를 갖는 n개의 단어 집합의 각 계층마다 구비된 개별 사전들을 사용하여 단어 후처리를 수행한다.In the word post-processing process (step 120), the word post-processing is performed using individual dictionaries provided for each layer of the n word sets having a hierarchical structure with respect to the result obtained in the character recognition process 110.

출력 과정(130단계)에서는 각 계층의 단어 후처리 결과를 출력한다.In operation 130, the word post-processing result of each layer is output.

제1도에 도시된 바와 같은 종래의 문서 인식 방법의 후처리 과정에서 사용되는 계층 구조를 갖는 n개의 단어 집합의 각 계층마다 구비된 개별 사전들은 계층 구조 정보를 포함하지 못하기 때문에 다음과 같은 문제점들이 있다.Since the individual dictionaries provided for each layer of the n word sets having a hierarchical structure used in the post-processing process of the conventional document recognition method as shown in FIG. 1 do not include hierarchical information, the following problems There is.

1. 상위 계층에서 하위 계층으로 내려 갈수록 사전의 크기가 방대해진다. 따라서, 오인식된 문자의 후처리 성능이 저하되어 계층 구조 정보와는 무관한 후처리 결과를 야기시키며 후처리 속도는 사전의 크기에 비례하여 저하되게 된다.1. As you go down from the upper tier to the lower tier, the size of the dictionary increases. Therefore, the post-processing performance of the misrecognized character is degraded, resulting in a post-processing result irrelevant to the hierarchical structure information, and the post-processing speed is reduced in proportion to the size of the dictionary.

2. 계층 구조의 정보가 일부 변경되었을 경우 변경 사항을 개별 사전에 반영하기가 어렵다. 예를 들어 서울의 신사동은 은평구와 강남구 두 곳에 있는 데, 강남구 신사동의 이름이 삭제될 경우 어도 '동'사전에는 이를 삭제해서는 안되고, 서울의 청담동은 강남구에만 있으므로 삭제해야 하는 모순이 발생한다.2. If some of the information in the hierarchy is changed, it is difficult to reflect the changes in individual dictionaries. For example, Sinsa-dong in Seoul is located in two places, Eunpyeong-gu and Gangnam-gu. If the name of Sinsa-dong in Gangnam-gu is deleted, it should not be deleted before the 'Dong' dictionary.

3. 특정 계층의 정보만을 후처리 할 때 후처리 성능을 높이기 위해서는 사전을 새로 생성하여야 한다. 예를 들어 서울시 성동구 내의 동에 대한 후처리를 할 때에는 전체 동 사전에서 서울시 성동구에 속한 동만을 추출하여 사전을 새로 구성한 뒤 후처리를 해야 한다. 그러나 이 방법은 후처리 대상이 바뀔 때마다 사전을 새로 생성해야 하는 문제를 안고 있고, 계층 구조의 정보가 일부 변경되었을 경우에는 이렇게 생성된 모든 사전에 이를 반영해야 하므로 사전의 일관성있는 관리가 더욱 어렵게 된다.3. When postprocessing only specific layer information, a new dictionary must be created to improve postprocessing performance. For example, when post-processing a dong in Seongdong-gu, Seoul, only the dong belonging to Seongdong-gu, Seoul should be extracted from the entire dong dictionary, and the post-processing should be done. However, this method has a problem of having to create a new dictionary every time the post-processing target is changed, and if the information in the hierarchy is partially changed, all the generated dictionaries must be reflected in this dictionary, making it more difficult to manage the dictionary consistently. do.

제2도는 본 발명에 따른 문서 인식 방법을 보이는 흐름도이다. 제2도에 도시된 흐름도는 계층 단어 영상 입력 과정(210단계), 문자 분리 과정(220단계), 문자 인식 과정(230단계), 계층 단어 후처리 과정(240단계), 동적 단어 사전 생성 과정(260단계), 그리고 계층 유니그램 생성 과정(270단계)을 구비한다.2 is a flowchart showing a document recognition method according to the present invention. The flowchart shown in FIG. 2 is a hierarchical word image input process (step 210), a character separation process (step 220), a character recognition process (step 230), a hierarchical word post-process (step 240), a dynamic word dictionary generation process ( Step 260), and a hierarchical unigram generation process (step 270).

여기서, 계층 구조 사전은 모든 계층의 단어들이 계층별로 수록된 것이며, 단어 사전은 계층 구조 사전으로부터 인식 대상이 되는 계층의 단어들을 추출하여 수록한 것이다.Here, the hierarchical dictionary includes words of all hierarchical layers, and the word dictionary extracts and records words of hierarchies to be recognized from the hierarchical dictionary.

먼저, 200단계에서는 계층 변수 i의 초기화가 수행된다. 여기서, i=1,,,,N(N은 계층의 개수)이다.First, in step 200, initialization of the hierarchical variable i is performed. Where i = 1 ,,, N (where N is the number of layers).

210단계에서는 i계층의 단어 영상을 입력한다.In operation 210, a word image of an i layer is input.

220단계에서는 i계층의 단어 영상에 대해 문자 분리를 수행하여 각 문자에 대한 영상을 얻는다.In operation 220, image separation is performed on the word image of the i-layer to obtain an image of each character.

230단계에서는 220단계에서 생성된 문자 영상에 대하여 문자 인식을 수행하여 문자 인식 결과를 얻는다. 문자 인식의 성능을 높이기 위하여 i계층의 유니그램을 사용한다. 유니그램은 각 문자별 인식 대상 문자의 집합을 말한다.In operation 230, character recognition may be performed on the character image generated in operation 220 to obtain a character recognition result. To increase the performance of character recognition, i-layer unigram is used. Unigram is a set of characters to be recognized for each character.

240단계에서는 230단계에서 결과된 문자 인식 결과와 i계층의 단어 사전을 사용하여 단어 후처리를 행한다.In step 240, word post-processing is performed using the character recognition result obtained in step 230 and the word dictionary of the i-layer.

250단계에서는 모든 계층의 단어에 대한 후처리가 종료되었는 가를 조사하여 마쳤으면 종료하고, 그렇지 않으면 260단계로 진행한다.In step 250, it is checked whether the post-processing for all hierarchies is finished. If it is finished, the process ends. Otherwise, the process proceeds to step 260.

260단계에서는 240단계의 결과를 사용하여 i+1 계층의 발생 가능한 단어만을 추출하여 새로운 단어 사전을 동적으로 생성한다.In step 260, a new word dictionary is dynamically generated by extracting only words that can occur in the i + 1 layer using the result of step 240.

단, 계층 1에서는 240단계의 후처리 결과를 사용하지 않고 계층 1에서 가능한 모든 단어의 새로운 단어 사전을 생성한다. 그리고, 외부의 입력은 문자 인식 및 사전 후처리의 이용 없이 i계층의 정보를 외부에서 직접 지정할 때 사용된다. 예를 들면 서울시 성동구 관할의 동 이름에 대한 후처리를 하고자 할 때는 1,2 계층의 정보를 '서울시'와 '성동구'로 직접 지정하고 동에 대한 영상을 후처리할 때 사용한다.However, in layer 1, a new word dictionary of all possible words in layer 1 is generated without using the 240 post-processing result. The external input is used to directly specify the i-layer information from the outside without using character recognition and pre-processing. For example, if you want to post-process the name of Dong in the jurisdiction of Seongdong-gu, Seoul, the first and second layers of information are directly designated as 'Seoul-si' and 'Seongdong-gu', and the post-processing of the video is used.

260단계에서 생성된 단어 사전은 240단계에 제공되어 다음 계층의 단어 후처리에 사용된다.The word dictionary generated in step 260 is provided in step 240 and used for word post-processing of the next layer.

270단계에서는 260단계에서 생성된 단어 사전을 사용하여 i+1계층에서 사용될 유니그램을 생성한다. 생성된 유니그램은 230단계에 제공되어 다음 계층의 단어 인식에 사용된다.In step 270, a unigram to be used in the i + 1 layer is generated using the word dictionary generated in step 260. The generated unigram is provided in step 230 to be used for word recognition of the next layer.

280단계에서는 계층 변수 i를 1만큼 증가시키고, 210단계로 진행한다.In step 280, the hierarchical variable i is increased by 1 and the flow proceeds to step 210.

제3도는 본 발명에 따른 문자 인식 방법에 적합한 문자 인식 장치의 구성을 보이는 블록도이다. 제3도에 도시된 장치는 입력부(30), 문자 인식 엔진(32), 후처리 엔진(34), 계층 사전 저장부(36), 계층 사전 생성기(38), 계층 구조 사전 저장부(40), 유니그램 생성기(42), 유니그램 저장부(44), 그리고 외부 정보 입력기(46)를 구비한다.3 is a block diagram showing the configuration of a character recognition apparatus suitable for the character recognition method according to the present invention. The apparatus shown in FIG. 3 includes an input unit 30, a character recognition engine 32, a post-processing engine 34, a hierarchical dictionary storage unit 36, a hierarchical dictionary generator 38, and a hierarchical dictionary storage unit 40. And a unigram generator 42, a unigram storage unit 44, and an external information input unit 46.

입력부(30)는 계층 구조의 단어 집합에 대한 영상을 입력한다.The input unit 30 inputs an image of a word set of a hierarchical structure.

문자 인식 엔진(32)은 입력부(30)를 통하여 제공되는 계층 구조의 단어 집합에 대한 영상에 대하여 문자 인식을 행한다.The character recognition engine 32 performs character recognition on an image of a hierarchical word set provided through the input unit 30.

후처리 엔진(34)은 문자 인식 엔진(32)의 결과를 후처리한다.The post-processing engine 34 post-processes the results of the character recognition engine 32.

계층 사전 저장부(36)는 후처리 엔진(34)의 처리에 사용되는 계층 사전을 저장한다.The hierarchy dictionary storage 36 stores the hierarchy dictionary used for the processing of the post-processing engine 34.

계층 사전 생성기(38)는 후처리 엔진(34)의 결과를 사용하여 다음 계층 단어의 후처리에 사용된 계층 사전을 동적으로 생성한다.The hierarchical dictionary generator 38 uses the results of the post processing engine 34 to dynamically generate the hierarchical dictionary used for post processing of the next hierarchical word.

계층 구조 사전 저장부(40)는 계층 사전 생성기(38)에서 참조하는 계층 구조 사전을 저장한다.The hierarchy dictionary storage 40 stores the hierarchy dictionary referenced by the hierarchy dictionary generator 38.

유니그램 생성기(42)는 계층 사전 저장부(36)에 저장된 계층 사전으로부터 유니그램(unigram)을 생성한다.The unigram generator 42 generates a unigram from the hierarchy dictionary stored in the hierarchy dictionary storage 36.

유니그램 저장부(44)는 유니그램 생성기(42)에서 생성된 유니그램을 저장한다.The unigram storage unit 44 stores the unigram generated by the unigram generator 42.

외부 정보 입력기(46)는 계층 사전 생성기(38)에서 후처리 엔진(34)의 결과 이외에 외부의 정보를 사용하여 계층 사전을 생성하기 위해 설치된다.The external information input 46 is installed in the hierarchy dictionary generator 38 to generate a hierarchy dictionary using external information in addition to the results of the post-processing engine 34.

상술한 바와 같이 본 발명에 따른 문자 인식 후처리 방법은 계층 구조 정보를 갖는 사전을 사용함으로써 후처리의 성능이 개선되는 효과가 있다.As described above, the character recognition post-processing method according to the present invention has an effect of improving post-processing performance by using a dictionary having hierarchical structure information.

또한, 본 발명에 따른 문자 인식 후처리 방법은 후처리 속도가 개선되고, 사전에 저장된 정보를 보다 정확하게 유지, 관리할 수 있게 하는 이점이 있다.In addition, the character recognition post-processing method according to the present invention has the advantage that the post-processing speed is improved and the information stored in advance can be more accurately maintained and managed.

또한, 대량의 정보를 데이터베이스화하는 전표 인식 시스템과 같은 분야에서 기존의 후처리 방법을 대치할 수 있으므로 높은 신뢰도의 정보 입력 자동화를 이룰 수 있게 하는 이점이 있다.In addition, it is possible to replace the existing post-processing method in the field, such as a document recognition system for databaseing a large amount of information, there is an advantage that can achieve a high reliability of information input automation.

Claims (6)

선행 계층에 사용된 단어에 따라 다음 계층에 사용되는 단어가 제한되는 n개의 계층 구조를 가지는 계층 구조의 문자를 인식하는 문자 인식 방법에 있어서, 상기 n개의 계층별 단어를 계층별로 수록한 계층 구조 사전으로부터 인식할 단어에 해당하는 계층에 필요한 단어 사전을 생성하는 과정; 상기 단어 사전으로부터 계층별 입력 단어 영상의 각 문자를 인식하는 데 사용할 유니그램을 생성하는 과정; 상기 유니그램을 사용하여 계층별 입력 단어 영상의 각 문자에 대한 문자 인식을 수행하여 하나 이상의 후보 문자를 생성하는 문자 인식 과정; 상기 후보 문자를 상기 단어 사전을 사용하여 단어 후처리하는 후처리 과정; 및 상기 계층 구조 사전 및 상기 후처리 과정의 결과를 이용하여 차하위 계층의 인식에 필요한 단어 사전을 생성하는 과정을 포함하여 계층 구조의 문자를 인식하는 문자 인식 방법.In a character recognition method for recognizing a hierarchical letter having n hierarchical structures in which words used in a next layer are limited according to words used in a preceding layer, a hierarchical dictionary including the n hierarchical words in a hierarchical manner Generating a word dictionary required for a layer corresponding to a word to be recognized from the word dictionary; Generating a unigram to be used to recognize each character of the input word image for each layer from the word dictionary; A character recognition process of generating one or more candidate characters by performing character recognition on each character of the input word image for each layer using the unigram; A post-processing step of post-processing the candidate letters using the word dictionary; And generating a word dictionary necessary for recognition of a lower hierarchy by using the result of the hierarchical dictionary and the post-processing process. 제1항에 있어서, 상기 갱신 과정은 후처리된 결과 이외에도 외부에서 입력된 정보를 사용하여 단어 사전을 생성하는 것을 특징으로 하는 문자 인식 방법.The character recognition method of claim 1, wherein the updating process generates a word dictionary by using externally input information in addition to the post-processed result. 선행 계층에 사용된 단어에 따라 다음 계층에 사용되는 단어가 제한되는 n개의 계층 구조를 가지는 계층 구조의 문자를 인식하는 문자 인식 장치에 있어서, n개의 계층 구조를 갖는 계층 구조 사전으로부터 생성된 단어 사전 및 유니그램을 사용하여 문자 인식을 수행하는 장치에 있어서, 계층 구조의 단어 집합에 대한 영상을 입력하는 입력부; 상기 입력부를 통하여 제공되는 계층 구조의 단어 집합에 대한 영상에 대하여 문자 인식을 행하는 문자 인식 엔진; 상기 문자 인식 엔진의 결과를 후처리하는 후처리 엔진; 상기 후처리 엔진의 처리에 사용되는 계층 사전을 저장하는 계층 사전 저장부; 후처리 엔진의 결과를 사용하여 다음 계층 단어의 후처리에 사용된 계층 사전을 동적으로 생성하여 상기 계층 사전 저장부에 제공하는 계층 사전 생성기; 상기 계층 사전 생성기에서 참조하며, n개 계층의 단어들을 계층별로 수록한 계층 구조 사전을 저장하는 계층 구조 사전 저장부; 계층 사전 저장부에 저장된 계층 사전으로부터 유니그램을 생성하는 유니그램 생성기; 상기 유니그램 생성기에서 생성된 유니그램을 저장하는 유니그램 저장부를 포함하는 문자 인식 장치.In a character recognition apparatus that recognizes a hierarchical character having n hierarchical structures in which words used in the next hierarchical system are limited according to words used in the preceding hierarchies, a word dictionary generated from a hierarchical dictionary having n hierarchical structures And an apparatus for performing character recognition using a unigram, the apparatus comprising: an input unit configured to input an image of a set of words in a hierarchical structure; A character recognition engine that performs character recognition on an image of a hierarchical word set provided through the input unit; A post-processing engine for post-processing the result of the character recognition engine; A hierarchical dictionary storage unit storing a hierarchical dictionary used for processing the post-processing engine; A hierarchical dictionary generator for dynamically generating a hierarchical dictionary used for post-processing a next hierarchical word using the result of a post-processing engine and providing the hierarchical dictionary to the hierarchical dictionary storage; A hierarchical dictionary storage unit, referred to by the hierarchical dictionary generator, for storing a hierarchical dictionary containing n hierarchical words for each hierarchical layer; A unigram generator for generating unigrams from a hierarchy dictionary stored in a hierarchy dictionary storage; Character recognition apparatus comprising a unigram storage unit for storing the unigram generated by the unigram generator. 제3항에 있어서, 상기 계층 사전 생성기에서 후처리 엔진의 결과 이외에 계층 사전을 생성하기 위해 사용되는 외부의 정보를 입력하는 외부 정보 입력기를 더 구비함을 특징으로 하는 문자 인식 장치.4. The character recognition apparatus of claim 3, further comprising an external information input unit for inputting external information used to generate a hierarchy dictionary in addition to the result of the post-processing engine in the hierarchy dictionary generator. n개 계층의 단어들을 계층별로 수록한 계층 구조 사전으로부터 생성된 단어 사전 및 유니그램을 사용하여 문자 인식을 수행한 결과로 얻어진 계층 구조의 단어 집합에 대한 후처리 방법에 있어서, 상기 문자 인식의 결과로 생성된 하나 이상의 후보 문자를 상기 단어 사전 및 유니그램을 사용하여 단어 후처리하는 후처리 과정; 및 상기 후처리 과정의 결과를 이용하여 차하위 계층의 단어 사전을 갱신하는 갱신 과정을 포함하는 단어 후처리 방법.A post-processing method for a word set in a hierarchical structure obtained by performing character recognition using a word dictionary and a unigram generated from a hierarchical dictionary containing n hierarchical words. A post-processing process of word post-processing the one or more candidate letters generated using the word dictionary and unigram; And an update process of updating a word dictionary of a lower hierarchy by using a result of the post-processing process. 제1항에 있어서, 상기 갱신 과정은 후처리된 결과 이외에도 외부에서 입력된 정보를 사용하여 단어 사전을 생성하는 것을 특징으로 하는 단어 후처리 방법.The word post-processing method of claim 1, wherein the updating process generates a word dictionary by using externally input information in addition to the post-processed result.
KR1019960004902A 1996-02-27 1996-02-27 Hierarchical character recognition method and apparatus, and its word post-processing method KR100207657B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019960004902A KR100207657B1 (en) 1996-02-27 1996-02-27 Hierarchical character recognition method and apparatus, and its word post-processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019960004902A KR100207657B1 (en) 1996-02-27 1996-02-27 Hierarchical character recognition method and apparatus, and its word post-processing method

Publications (2)

Publication Number Publication Date
KR970062902A KR970062902A (en) 1997-09-12
KR100207657B1 true KR100207657B1 (en) 1999-07-15

Family

ID=19451930

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019960004902A KR100207657B1 (en) 1996-02-27 1996-02-27 Hierarchical character recognition method and apparatus, and its word post-processing method

Country Status (1)

Country Link
KR (1) KR100207657B1 (en)

Also Published As

Publication number Publication date
KR970062902A (en) 1997-09-12

Similar Documents

Publication Publication Date Title
CN106847288B (en) Error correction method and device for voice recognition text
Slimane et al. A new arabic printed text image database and evaluation protocols
US5835893A (en) Class-based word clustering for speech recognition using a three-level balanced hierarchical similarity
US20090070097A1 (en) User input classification
CN109815476B (en) Word vector representation method based on Chinese morpheme and pinyin combined statistics
JP2008243227A (en) Method and apparatus for generating template used in handwritten character recognition
Xafopoulos et al. Language identification in web documents using discrete HMMs
Chang A new approach for automatic Chinese spelling correction
Wick et al. Rescoring sequence-to-sequence models for text line recognition with CTC-prefixes
Tüselmann et al. Are end-to-end systems really necessary for NER on handwritten document images?
CN113807105B (en) French place name machine translation method
Srihari et al. Incorporating syntactic constraints in recognizing handwritten sentences
CN113746946B (en) Global address resolver
KR101735438B1 (en) Apparatus and method for automatic detection/verification of real time translation knowledge
Sunitha et al. A phoneme based model for english to malayalam transliteration
Wei et al. Recognition of handwritten Chinese address with writing variations
KR100207657B1 (en) Hierarchical character recognition method and apparatus, and its word post-processing method
US20220284188A1 (en) Machine based expansion of contractions in text in digital media
Mijlad et al. Arabic text diacritization: Overview and solution
Zayyan et al. Automatic diacritics restoration for modern standard Arabic text
CN113836941A (en) Contract navigation method and device
Melinamath Rule based methodology for recognition of Kannada named entities
CN112417851A (en) Text error correction word segmentation method and system and electronic equipment
Sagar et al. Complete Kannada Optical Character Recognition with syntactical analysis of the script
Bircher Toulouse and Cahors are French Cities, but Ti* louse and Caa. Qrs as well

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20080328

Year of fee payment: 10

LAPS Lapse due to unpaid annual fee