KR19990052967A - Korean Recognition Method Using Window and Projection Information - Google Patents

Korean Recognition Method Using Window and Projection Information Download PDF

Info

Publication number
KR19990052967A
KR19990052967A KR1019970072527A KR19970072527A KR19990052967A KR 19990052967 A KR19990052967 A KR 19990052967A KR 1019970072527 A KR1019970072527 A KR 1019970072527A KR 19970072527 A KR19970072527 A KR 19970072527A KR 19990052967 A KR19990052967 A KR 19990052967A
Authority
KR
South Korea
Prior art keywords
recognition
phoneme
information
characters
window
Prior art date
Application number
KR1019970072527A
Other languages
Korean (ko)
Inventor
이상일
Original Assignee
구자홍
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 구자홍, 엘지전자 주식회사 filed Critical 구자홍
Priority to KR1019970072527A priority Critical patent/KR19990052967A/en
Publication of KR19990052967A publication Critical patent/KR19990052967A/en

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

본 발명은 윈도우 및 프로젝션 정보를 이용한 한글 인식 방법에 관한 것으로, 종래에는 윤곽선 정보를 이용하여 문자를 인식한 경우 도 2에서와 같이 "와"를 잘못 인식하여 홀 정보의 상실, 불필요한 컨케이브의 과다 발생등 잘못된 정보가 추출되는 경우가 빈번하게 발생하고, 이 경우 자소 분리 결과에 덜 민감한 프로젝션 정보를 이용하여 다시 추출하여 인식에 사용함으로써 인식시간이 많이 소비되어 인식성능과 효율이 저하되는 문제점이 있다. 따라서 본 발명은 스캐너로 부터 입력되는 이진영상에 대하여 문서의 수평 방향의 누적 흑화소를 구한 값과 임계값을 비교하여 문자열을 분리해내는 제1단계와, 상기 제1단계에서 분리된 문자열 각각에 대하여 개별 문자를 분리해내는 제2단계와, 상기 제2단계에서 분리된 문자로 부터 한글 자소 분리와 모음 인식을 행하는 제3단계와, 상기 제3단계에서 분리된 자소 이미지를 윈도우로 구분하는 제4단계와, 상기 제4단계에서 나눈 윈도우별로 수직, 수평성분을 추출하는 제5단계와, 상기 제5단계에서 추출한 성분을 이용하여 자소인식이 가능한지를 체크하여 자소인식이 가능한 것은 자소를 인식하고 그외의 자소는 그룹핑하여 후보문자의 수를 줄이는 제6단계와, 상기 제6단계에서 그룹핑한 후보문자를 프로젝션 정보를 이용하여 자소를 인식하는 제7단계와, 상기 제6단계와 제7단계에서 인식한 결과를 버퍼에 저장하도록 하는 제8단계로 동작시켜, 한글 자소의 특성을 이용해 프로젝션 정보 추출 과정에서 얻어진 정보의 일부만 미리 추출, 판단하여 특정 조건을 만족시키는 일부 자소는 그 상태에서 인식 결과를 바로 내보내고, 나머지 자소는 이미 추출된 일부 정보로 그룹핑하여 비교 대상이 되는 후보 문자의 수를 줄인 후 나머지 프로젝션 정보를 추출, 인식하여 인속속도와 인식률을 높이도록 한 것이다.The present invention relates to a Korean character recognition method using window and projection information. Conventionally, when characters are recognized using contour information, as shown in FIG. Often, false information is extracted, such as occurrence, and in this case, the recognition information and efficiency are deteriorated because the recognition time is consumed by using the projection information which is less sensitive to the result of separation of the phoneme and using it for recognition. . Therefore, the present invention compares a value obtained by calculating a cumulative black pixel in a horizontal direction of a document with a threshold value and a character string to separate a character string from a binary image input from a scanner. A second step of separating individual characters with respect to the second character; a third step of separating Hangul characters and vowel recognition from the characters separated in the second step; and a second step of separating the phoneme images separated in the third step into windows. Step 4, the fifth step of extracting the vertical and horizontal components for each window divided in the fourth step, and by using the components extracted in the fifth step is checked whether the phoneme recognition is possible to recognize the phoneme A sixth step of reducing the number of candidate letters by grouping other phonemes; and a seventh step of recognizing phonemes using projection information on the candidate letters grouped in the sixth step. And the eighth step of storing the result recognized in the sixth and seventh steps in the buffer, and extracting and determining only a part of the information obtained in the projection information extraction process in advance using the characteristics of the Hangul alphabet. Some phonemes that satisfy them export the recognition result immediately, while other phonemes are grouped into some extracted information to reduce the number of candidate characters to be compared, and then extract and recognize the remaining projection information to increase the speed and recognition rate. It is to be.

Description

윈도우 및 프로젝션 정보를 이용한 한글 인식 방법Korean Recognition Method Using Window and Projection Information

본 발명은 윈도우 및 프로젝션 정보를 이용한 한글 인식 방법에 관한 것으로, 특히 프로젝션 정보 추출과정의 일부 정보만을 이용하여 특정 조건을 만족하면 인식결과를 바로 출력하고 그 이외의 나머지 자소는 그룹핑하여 비교되는 후보문자의 수를 줄인 후 나머지 프로젝션 정보를 추출하여 인식하게 함으로써 인식속도와 인식률을 향상시키도록 한 윈도우 및 프로젝션 정보를 이용한 한글 인식 방법에 관한 것이다.The present invention relates to a Korean character recognition method using window and projection information. Particularly, if a specific condition is satisfied using only some information of the projection information extraction process, the recognition result is immediately output and the other characters are compared by grouping candidate characters. The present invention relates to a method of recognizing Hangul using window and projection information to improve the recognition speed and recognition rate by reducing and recognizing the remaining projection information.

앞으로의 고도 정보화 사회에서는 이전보다 가하 급수적으로 정보량이 발생되고 전달, 처리되어야만 한다.In the high information society of the future, the amount of information must be generated, transmitted, and processed in an incremental manner.

이를 위해서는 컴퓨터와 인간 사이의 인터페이스(interface)가 필수적이며, 본 발명은 이러한 인터페이스중 컴퓨터의 입력 장치에 국한시켜, 사람이 직접 자판을 이용한 입력을 대신 할 수 있는 문자/문서 인식 시스템에 사용되는 한글 인식 방법을 구현하고자 한 것으로, 본 발명에 대하여 뒤에 설명하기로 한다.For this purpose, an interface between a computer and a human is essential, and the present invention is limited to an input device of a computer among the interfaces, and the Korean language is used for a character / document recognition system in which a human can substitute an input using a keyboard directly. In order to implement the recognition method, the present invention will be described later.

도 1은 종래 한글 인식 방법에 대한 동작 흐름도로서, 이에 도시한 바와같이, 스캐너로 부터 입력되는 이진영상에 대하여 문서의 수평 방향의 누적 흑화소를 구한 값과 임계값을 비교하여 문자열을 분리해내는 제1단계와, 상기 제1단계에서 분리된 문자열 각각에 대하여 개별 문자를 분리해내는 제2단계와, 상기 제2단계에서 분리된 문자로 부터 한글 자소 분리와 모음 인식을 행하는 제3단계와, 상기 제3단계에서 분리한 자소를 인식하는 제4단계와, 상기에서 인식한 결과를 버퍼에 저장하도록 하는 제5단계로 이루어진다.1 is a flowchart illustrating a conventional Hangul recognition method. As shown in FIG. 1, a character string is separated by comparing a threshold value and a value obtained by accumulating black pixels in a horizontal direction of a document with respect to a binary image input from a scanner. A first step, a second step of separating individual characters for each of the character strings separated in the first step, a third step of separating Hangul characters and vowel recognition from the characters separated in the second step; A fourth step of recognizing the phoneme separated in the third step, and a fifth step of storing the result recognized in the buffer.

이와같이 각 단계로 이루어진 종래 기술에 대하여 살펴보면 다음과 같다.Looking at the prior art made of each step as follows.

미도시된 문자인식 시스템에서 스캐너를 통해 문서에 대한 이진영상이 입력되면, 그 입력된 이진영상에 대하여 문서의 수평 방향의 누적 흑화소를 구한다.When a binary image of a document is input through a scanner in a character recognition system, a cumulative black pixel in the horizontal direction of the document is obtained with respect to the input binary image.

이렇게 하여 얻은 누적 흑화소의 값과 임계값을 비교하여 문자열의 상하 위치를 구해 문서로 부터 문자열을 분리해 낸다.(S11)By comparing the accumulated black pixel value and the threshold value, the upper and lower positions of the string are obtained, and the string is separated from the document.

상기 S11단계에서 문자열 분리가 끝나면, 그 분리된 문자열 각각에 대하여 개별 문자를 분리해낸다.(S12)After the string separation is completed in step S11, individual characters are separated for each of the separated strings.

상기 S12단계에서 분리해낸 개별 문자로 부터 한글의 자소, 즉 초성, 중성, 종성으로 분리하여 떼어내고 모음을 인식한 후 앞에서 떼어낸 자소를 자소 인식부로 보낸다.(S13)From the individual characters separated in step S12, the phoneme of Korean characters, i.e., primary, neutral, and final, is separated and separated, and the phoneme separated from the previous character is sent to the phoneme recognition unit (S13).

그러면 상기 자소 인식부에서는 떼어낸 자소 이미지의 특징 추출 방법과 이들을 인식 과정에 있어서 어떻게 이용하느냐 하는 것인데, 여기서 특징 추출은 스트로크(Stroke)의 갯수와 홀(Hole)의 갯수, 그리고 콘케이브(concave)의 갯수와 같은 윤곽선(Contour) 정보와 수평 및 수직, 그리고 대각 성분의 유무를 판별하는 프로젝션(Projection) 정보를 이용한다.Then, the phoneme recognition unit extracts the extracted feature of the phoneme image and how to use the same in the recognition process. Contour information, such as the number of blocks, and projection information for determining the presence of horizontal, vertical, and diagonal components are used.

상기에서와 같이 윤곽선 정보와 프로젝션 정보를 이용하여 자소 인식부에서 자소 이미지를 인식(S14)한 후 그 인식된 결과들(모음과 초종성)로 부터 한글 문자를 만들어 낸 후 이를 버퍼에 저장한다.(S15)As described above, the phoneme recognition unit recognizes the phoneme image using the contour information and the projection information (S14), and then generates a Hangul character from the recognized results (collection and superspecies) and stores it in the buffer. (S15)

그러나, 상기에서와 같은 종래기술에서 윤곽선 정보를 이용하여 문자를 인식한 경우 도 2에서와 같이 "와"를 잘못 인식하여 홀 정보의 상실, 불필요한 컨케이브의 과다 발생등 잘못된 정보가 추출되는 경우가 빈번하게 발생하고, 이 경우 자소 분리 결과에 덜 민감한 프로젝션 정보를 이용하여 다시 추출하여 인식에 사용함으로써 인식시간이 많이 소비되어 인식성능과 효율이 저하되는 문제점이 있다.However, in the prior art as described above, when the character is recognized by using the contour information, incorrect information such as loss of hall information and excessive occurrence of unnecessary concave may be extracted by incorrectly recognizing "and" as shown in FIG. 2. Frequently occurring, in this case, there is a problem in that recognition time is consumed because recognition time is consumed by re-extracting and using the projection information which is less sensitive to the result of the separation of the elements.

따라서 상기에서와 같은 종래의 문제점을 해결하기 위한 본 발명의 목적은 한글 자소의 특성을 이용하여 프로젝션 정보 추출과정의 일부 정보만을 이용하여 특정 조건을 만족하면 인식결과를 바로 출력하고, 나머지 자소는 그룹핑하여 비교되는 후보문자의 수를 줄인 후 나머지 프로젝션 정보를 추출하여 인식하게 함으로써 인식속도와 인식률을 높이도록 한 윈도우 및 프로젝션 정보를 이용한 한글 인식 방법을 제공함에 있다.Accordingly, an object of the present invention for solving the conventional problems as described above is to output a recognition result immediately after satisfying a specific condition using only some information of the projection information extraction process using the characteristics of the Hangul alphabet, and grouping the remaining characters. By reducing the number of candidate characters to be compared and extracting and recognizing the remaining projection information, the present invention provides a method for recognizing Korean characters using window and projection information to increase recognition speed and recognition rate.

본 발명의 다른 목적은 프로젝션 정보를 이용한 추출 과정에서 후보 수를 줄이기 위하여 대분류기를 사용하도록 하는 윈도우 및 프로젝션 정보를 이용한 한글 인식 방법을 제공함에 있다.Another object of the present invention is to provide a Hangul recognition method using a window and projection information to use a large classifier to reduce the number of candidates in the extraction process using projection information.

도 1은 종래 한글 인식 방법에 대한 동작 과정도.1 is an operation process diagram for a conventional Hangul recognition method.

도 2는 윤곽선 정보를 이용하여 "와"자를 추출했을 때의 오류 상태를 보여주는 설명도.2 is an explanatory diagram showing an error state when "wa" characters are extracted using contour information;

도 3은 본 발명에서 자소 입력시 윈도우 처리를 행하는 과정을 보여주는 설명도.Figure 3 is an explanatory diagram showing a process of performing a window process when the phoneme input in the present invention.

도 4는 본 발명의 윈도우 및 프로젝션 정보를 이용한 한글 인식 방법에 대한 동작 과정도.4 is a flowchart illustrating a method of recognizing a Hangul using a window and projection information of the present invention.

상기 목적을 달성하기 위한 본 발명은 스캐너로 부터 입력되는 이진영상에 대하여 문서의 수평 방향의 누적 흑화소를 구한 값과 임계값을 비교하여 문자열을 분리해내는 제1단계와, 상기 제1단계에서 분리된 문자열 각각에 대하여 개별 문자를 분리해내는 제2단계와, 상기 제2단계에서 분리된 문자로 부터 한글 자소 분리와 모음 인식을 행하는 제3단계와, 상기 제3단계에서 분리된 자소 이미지를 9개의 윈도우로 나누는 제4단계와, 상기 제4단계에서 나눈 윈도우별로 수직, 수평성분을 추출하는 제5단계와, 상기 제5단계에서 추출한 성분을 이용하여 자소인식이 가능한지를 체크하여 자소인식이 가능한 것은 자소를 인식하고 그외의 자소는 그룹핑하여 후보문자의 수를 줄이는 제6단계와, 상기 제6단계에서 그룹핑한 후보문자를 프로젝션 정보를 이용하여 자소를 인식하는 제7단계와, 상기 제6단계와 제7단계에서 인식한 결과를 버퍼에 저장하도록 하는 제8단계로 이루어진 것을 특징으로 한다.The present invention for achieving the above object is a first step of separating the character string by comparing the threshold value and the value obtained from the accumulated black pixels in the horizontal direction of the document with respect to the binary image input from the scanner, and in the first step A second step of separating individual characters for each of the separated character strings, a third step of separating Hangul characters and vowel recognition from the characters separated in the second step, and a phoneme image separated in the third step The fourth step of dividing into nine windows, the fifth step of extracting the vertical and horizontal components for each window divided by the fourth step, and the component extracted in the fifth step is checked to determine whether the phoneme recognition is possible. The sixth step of reducing the number of candidate characters by recognizing the phoneme and grouping other letters is possible, and using the projection information on the candidate characters grouped in the sixth step. And a eighth step of recognizing the phoneme, and an eighth step of storing the result recognized in the sixth and seventh steps in a buffer.

이하, 첨부한 도면에 의거하여 상세히 살펴보면 다음과 같다.Hereinafter, the present invention will be described in detail with reference to the accompanying drawings.

도 4는 본 발명의 윈도우 및 프로젝션 정보를 이용한 한글 인식 방법에 대한 동작 과정도로서, 이에 도시한 바와같이, 스캐너로 부터 입력되는 이진영상에 대하여 문서의 수평 방향의 누적 흑화소를 구한 값과 임계값을 비교하여 문자열을 분리해내는 제1단계(S21)와, 상기 제1단계(S21)에서 분리된 문자열 각각에 대하여 개별 문자를 분리해내는 제2단계(S22)와, 상기 제2단계(S22)에서 분리된 문자로 부터 한글 자소 분리와 모음을 인식하는 제3단계(S23)와, 상기 제3단계(S23)에서 분리된 자소 이미지를 윈도우로 구분하는 제4단계(S24)와, 상기 제4단계(S24)에서 구분한 윈도우별로 수직, 수평성분을 추출하는 제5단계(S25)와, 상기 제5단계에서 추출한 성분을 이용하여 자소인식이 가능한지를 체크하여 자소인식이 가능한 것은 자소를 인식하고 그외의 자소는 그룹핑하여 후보문자의 수를 줄이는 제6단계(S27)와, 상기 제6단계(S27)에서 그룹핑한 후보문자를 프로젝션 정보를 이용하여 자소를 인식하는 제7단계(S29)와, 상기 제6단계(S27)와 제7단계(S29)에서 인식한 결과를 버퍼에 저장하도록 하는 제8단계(S30)로 이루어진다.4 is a flowchart illustrating a method of recognizing a Hangul using a window and projection information according to an embodiment of the present invention. As shown therein, a value and a threshold obtained by calculating a cumulative black pixel in a horizontal direction of a document with respect to a binary image input from a scanner A first step (S21) of separating the character strings by comparing values, a second step (S22) of separating individual characters for each of the strings separated in the first step (S21), and the second step ( A third step (S23) of recognizing the Hangul alphabet and the vowel from the character separated in S22), a fourth step (S24) of dividing the phoneme image separated in the third step (S23) into a window, and The fifth step (S25) for extracting the vertical and horizontal components for each window divided in the fourth step (S24), and by checking whether the phoneme recognition is possible using the components extracted in the fifth step, the phoneme recognition is possible. Recognize and other groupings A sixth step (S27) of reducing the number of candidate letters, a seventh step (S29) of recognizing the phoneme of the candidate characters grouped in the sixth step (S27) using projection information, and the sixth step ( S27) and the eighth step S30 of storing the result recognized in the seventh step S29 in the buffer.

이와같이 구성된 본 발명의 동작 및 작용 효과에 대하여 상세히 설명하면 다음과 같다.Referring to the operation and effect of the present invention configured as described in detail as follows.

미도시된 문자인식 시스템에서 스캐너를 통해 문서에 대한 이진영상이 입력되면, 그 입력된 이진영상에 대하여 문서의 수평 방향의 누적 흑화소를 구한다.When a binary image of a document is input through a scanner in a character recognition system, a cumulative black pixel in the horizontal direction of the document is obtained with respect to the input binary image.

이렇게 하여 얻은 누적 흑화소의 값과 임계값을 비교하여 문자열의 상하 위치를 구해 문서로 부터 문자열을 분리해 낸다.(S21)By comparing the accumulated black pixel value and the threshold value thus obtained, the upper and lower positions of the character string are obtained, and the character string is separated from the document.

상기 S21단계에서 문자열 분리가 끝나면, 그 분리된 문자열 각각에 대하여 개별 문자를 분리해낸다.(S22)After the string separation is completed in step S21, individual characters are separated for each of the separated strings.

상기 S22단계에서 분리해낸 개별 문자로 부터 한글의 자소, 즉 초성, 중성, 종성으로 분리한 후 모음을 인식한다.(S23)Recognize vowels after separating them into individual letters, that is, initial, neutral, and final, from the individual characters separated in step S22.

이렇게 하여 분리된 한글의 자소 이미지를 윈도우로 나눈다.(S24)In this way, the phoneme image of the separated Hangul is divided into windows. (S24)

즉, 자소의 이미지가 입력되면, 도 3에서와 같이, 9개의 윈도우(window)로 나눈 후 그 각 윈도우에 대해 수평(━), 수직(│), 대각1(/), 대각2(\)의 성분을 추출하여 이들 정보를 각 이미지의 특징으로 사용한다.That is, when the image of the phoneme is inputted, as shown in FIG. 3, after dividing into nine windows, the horizontal (-), vertical (-), diagonal (1), and diagonal (2) angles of the respective windows are shown. Extract the components of and use this information as a feature of each image.

따라서 하나의 이미지가 들어오게 되면, 9개의 윈도우로 부터 각각 4개의 정보를 추출하게 되는 것이다.Therefore, when one image comes in, four pieces of information are extracted from nine windows.

그러나, 본 발명에서 사용하는 방법은 일단 이미지가 들어오게 되면, 모든 윈도우에 대해서 수평 성분의 존재 여부만을 확인한 후 도 3에서 윈도우 (1,4,7), (3,6,9)에서의 수직성분을 추출한다.(S25)However, the method used in the present invention, once the image is entered, only the presence of the horizontal component for all the windows to confirm the vertical in the windows (1,4,7), (3,6,9) in FIG. Extract the ingredients. (S25)

다음으로 9개의 윈도우에서 수평 성분이 모두 존재하는 경우에 한해 수평 성분 사이의 빈 여백 존재 여부를 확인한다.Next, we check for the presence of empty spaces between the horizontal components only if all the horizontal components exist in the nine windows.

이 과정에서 다음의 조건을 만족하는 이미지들은 각각의 인식 결과를 내보내준다.In this process, images satisfying the following conditions are exported with their respective recognition results.

첫째, 윈도우1,2 : 수평 성분 존재First, window 1,2: presence of horizontal components

윈도우3 : 이미지 존재Windows 3: Image Exists

윈도우6,9 : 수직 성분 존재Windows 6: 9: vertical component present

나머지 윈도우 : 여백만 존재할 경우 "ㄷ"으로 인식한다.Remaining windows: If there are a few, it is recognized as "ㄷ".

둘째, 윈도우1,4 : 수직 성분 존재Second, window 1,4: vertical component present

윈도우7 : 이미지 존재Windows 7: Image Exists

윈도우8,9 : 수평 성분 존재Windows 8, 9: Horizontal component present

나머지 윈도우 : 여백만 존재할 경우 "ㄴ"으로 인식한다.Remaining windows: If there are a few, it is recognized as "b".

세째, 윈도우2,3,8,9 : 수평 성분 존재Third, window 2, 3, 8, 9: horizontal component present

윈도우1,7 : 이미지 존재Windows 1,7: Image Exists

윈도우4 : 수직 성분 존재Windows 4: vertical component present

나머지 윈도우 : 여백만 존재할 경우 "ㄷ"으로 인식한다.Remaining windows: If there are a few, it is recognized as "ㄷ".

네째, 모든 윈도우에 수평 성분 존재Fourth, there is a horizontal component in every window

윈도우1,2와 윈도우4,5 사이에 빈 여백 존재Empty Margins Between Windows 1,2 and Windows5

윈도우5,6과 윈도우8,9 사이에 빈 여백 존재할 경우 "ㄹ" 로 인식한다.If there is a blank space between windows 5 and 6 and windows 8 and 9, it is recognized as "ㄹ".

다섯째, 모든 윈도우에 수평 성분 존재Fifth, there is a horizontal component in every window

윈도우2,3과 윈도우5,6 사이에 빈 여백 존재Empty Margin Between Windows 2,3 and Windows 5,6

윈도우5,6과 윈도우8,9 사이에 빈 여백 존재할 경우 "E" 로 인식한다.If there is a blank space between windows 5, 6 and 8, 9, it is recognized as "E".

상기에서와 같이 다섯가지 조건을 만족하는 자소의 경우에는 바로 인식하고(S29), 상기 다섯가지 조건을 모두 만족하지 않는 이미지들은 이들 추출된 정보들의 특성을 그룹핑(Grouping)한다.(S27)As described above, if the phoneme satisfies the five conditions is immediately recognized (S29), the images that do not satisfy all five conditions group the characteristics of the extracted information (S27).

상기에서 자소 인식을 행한 자소를 제외한 그룹핑한 자소들은 대분류기를 이용하여 비교 대상이 되는 후보 문자의 수를 줄인다.The grouped phonemes except for the phoneme that has undergone the phoneme recognition above use a large classifier to reduce the number of candidate characters to be compared.

그런다음 프로젝션 정보들을 이용하여 나머지 자소를 인식한다.(S29)Then, using the projection information to recognize the rest of the phonemes (S29).

이렇게 하여 얻어진 자소는 버퍼에 저장한다.(S30)The phoneme thus obtained is stored in a buffer (S30).

이와같이, 한글 자소의 특성을 이용해 프로젝션 정보 추출 과정에서 얻어진 정보의 일부만 미리 추출, 판단하여 특정 조건을 만족시키는 일부 자소는 그 상태에서 인식 결과를 바로 내보내고, 나머지 자소는 이미 추출된 일부 정보로 그룹핑하여 비교 대상이 되는 후보 문자의 수를 줄인 후 나머지 프로젝션 정보로 추출, 인식하여 인식속도와 인식률을 높인다.In this way, the part of the phoneme that satisfies a specific condition by extracting and determining only a part of the information obtained in the process of extracting the projection information using the characteristics of the Hangul phoneme is immediately outputted as a recognition result, and the other phonemes are grouped into some extracted information. After reducing the number of candidate characters to be compared and extracting and recognizing the remaining projection information, the recognition speed and recognition rate are increased.

따라서, 본 발명은 일부의 프로젝션 정보와 윈도우를 이용하여 자소를 인식하도록 함으로써 인식 속도를 높이고, 인식률을 향상시키도록 한 효과가 있다.Accordingly, the present invention has the effect of increasing the recognition speed and the recognition rate by allowing the projection to be recognized using some projection information and a window.

Claims (2)

스캐너로 부터 입력되는 이진영상에 대하여 문서의 수평 방향의 누적 흑화소를 구한 값과 임계값을 비교하여 문자열을 분리해내는 제1단계와, 상기 제1단계에서 분리된 문자열 각각에 대하여 개별 문자를 분리해내는 제2단계와, 상기 제2단계에서 분리된 문자로 부터 한글 자소 분리와 모음 인식을 행하는 제3단계와, 상기 제3단계에서 분리된 자소 이미지를 윈도우로 구분하는 제4단계와, 상기 제4단계에서 나눈 윈도우별로 수직, 수평성분을 추출하는 제5단계와, 상기 제5단계에서 추출한 성분을 이용하여 자소인식이 가능한지를 체크하여 자소인식이 가능한 것은 자소를 인식하고 그외의 자소는 그룹핑하여 후보문자의 수를 줄이는 제6단계와, 상기 제6단계에서 그룹핑한 후보문자를 프로젝션 정보를 이용하여 자소를 인식하는 제7단계와, 상기 제6단계와 제7단계에서 인식한 결과를 버퍼에 저장하도록 하는 제8단계로 이루어진 것을 특징으로 하는 윈도우 및 프로젝션 정보를 이용한 한글 인식 방법.The first step of separating the character strings by comparing the threshold value and the value obtained by calculating the cumulative black pixels in the horizontal direction of the document with respect to the binary image input from the scanner, and the individual character for each character string separated in the first step A second step of separating, a third step of separating Hangul characters and vowel recognition from the characters separated in the second step, a fourth step of dividing the phoneme image separated in the third step into a window, The fifth step of extracting the vertical and horizontal components for each window divided in the fourth step, and by using the components extracted in the fifth step to check whether the phoneme recognition is possible, the phoneme recognition can recognize the phoneme and other phonemes A sixth step of reducing the number of candidate characters by grouping, a seventh step of recognizing the phoneme of the candidate characters grouped in the sixth step using projection information, and the sixth step Hangul recognition method using the window and projection information, characterized in that comprising the steps of claim 8 to store the result of recognition in step 7 in the buffer. 제1항에 있어서, 제4단계에서 윈도우 구분은 9개로 나누는 것을 특징으로 하는 윈도우 및 프로젝션 정보를 이용한 한글 인식 방법.The method of claim 1, wherein the window is divided into nine windows in the fourth step.
KR1019970072527A 1997-12-23 1997-12-23 Korean Recognition Method Using Window and Projection Information KR19990052967A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019970072527A KR19990052967A (en) 1997-12-23 1997-12-23 Korean Recognition Method Using Window and Projection Information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019970072527A KR19990052967A (en) 1997-12-23 1997-12-23 Korean Recognition Method Using Window and Projection Information

Publications (1)

Publication Number Publication Date
KR19990052967A true KR19990052967A (en) 1999-07-15

Family

ID=66099085

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019970072527A KR19990052967A (en) 1997-12-23 1997-12-23 Korean Recognition Method Using Window and Projection Information

Country Status (1)

Country Link
KR (1) KR19990052967A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100470346B1 (en) * 2002-06-07 2005-02-07 주식회사 팔만시스템 The method for clustering an image of a character and the method for high-speed inputting and correcting a character by using the same
KR101015233B1 (en) * 2009-07-15 2011-02-18 엔에이치엔(주) Method, apparatus and computer-readable recording medium for recognizing character included in hangul document

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100470346B1 (en) * 2002-06-07 2005-02-07 주식회사 팔만시스템 The method for clustering an image of a character and the method for high-speed inputting and correcting a character by using the same
KR101015233B1 (en) * 2009-07-15 2011-02-18 엔에이치엔(주) Method, apparatus and computer-readable recording medium for recognizing character included in hangul document

Similar Documents

Publication Publication Date Title
US8908961B2 (en) System and methods for arabic text recognition based on effective arabic text feature extraction
RU2631168C2 (en) Methods and devices that convert images of documents to electronic documents using trie-data structures containing unparameterized symbols for definition of word and morphemes on document image
RU2643465C2 (en) Devices and methods using a hierarchially ordered data structure containing unparametric symbols for converting document images to electronic documents
US6834121B2 (en) Apparatus for rough classification of words, method for rough classification of words, and record medium recording a control program thereof
JPH11120293A (en) Character recognition/correction system
US20050123199A1 (en) Method for optical recognition of a multi-language set of letters with diacritics
US10410080B2 (en) NC-program conversion device
CN112733828A (en) Method and system for character recognition
RU2625533C1 (en) Devices and methods, which build the hierarchially ordinary data structure, containing nonparameterized symbols for documents images conversion to electronic documents
KR19990052967A (en) Korean Recognition Method Using Window and Projection Information
JPS60153574A (en) Character reading system
US20030123730A1 (en) Document recognition system and method using vertical line adjacency graphs
RU2625020C1 (en) Devices and methods, which prepare parametered symbols for transforming images of documents into electronic documents
KR19980058361A (en) Korean Character Recognition Method and System
KR19990049667A (en) Korean Character Recognition Method
CN109409370B (en) Remote desktop character recognition method and device
KR100241447B1 (en) English writing/number recognition method using outline information
KR100926823B1 (en) Recognition method of character
US10515297B2 (en) Recognition device, recognition method, and computer program product
Hwang et al. Segmentation of a text printed in Korean and English using structure information and character recognizers
KR910007032B1 (en) A method for truncating strings of characters and each character in korean documents recognition system
KR100480024B1 (en) Collection Recognition Method Using Stroke Thickness Information
JP5986051B2 (en) Method for automatically recognizing Arabic text
KR930012142B1 (en) Individual character extracting method of letter recognition apparatus
JP2578767B2 (en) Image processing method

Legal Events

Date Code Title Description
N231 Notification of change of applicant
WITN Withdrawal due to no request for examination