KR100199296B1 - 규칙적인 잡음을 이용한 한글 인식 시스템 - Google Patents

규칙적인 잡음을 이용한 한글 인식 시스템 Download PDF

Info

Publication number
KR100199296B1
KR100199296B1 KR1019960043740A KR19960043740A KR100199296B1 KR 100199296 B1 KR100199296 B1 KR 100199296B1 KR 1019960043740 A KR1019960043740 A KR 1019960043740A KR 19960043740 A KR19960043740 A KR 19960043740A KR 100199296 B1 KR100199296 B1 KR 100199296B1
Authority
KR
South Korea
Prior art keywords
nodes
character
recognizing
recognizer
input
Prior art date
Application number
KR1019960043740A
Other languages
English (en)
Other versions
KR19980025571A (ko
Inventor
방승양
권오준
이진수
Original Assignee
이계철
한국전기통신공사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 이계철, 한국전기통신공사 filed Critical 이계철
Priority to KR1019960043740A priority Critical patent/KR100199296B1/ko
Publication of KR19980025571A publication Critical patent/KR19980025571A/ko
Application granted granted Critical
Publication of KR100199296B1 publication Critical patent/KR100199296B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/142Image acquisition using hand-held instruments; Constructional details of the instruments
    • G06V30/1423Image acquisition using hand-held instruments; Constructional details of the instruments the instrument generating sequences of position coordinates corresponding to handwriting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)
  • Document Processing Apparatus (AREA)

Abstract

1. 청구 범위에 기재된 발명이 속한 기술분야
규칙적인 잡음을 이용한 한글 인식 시스템
2. 발명이 해결하려고 하는 기술적 과제
규칙적인 잡음을 이용하여 오인식 문제를 해결함으로써 높은 인식률을 갖고, 더나아가서는 인식대상의 문자 수와 폰트 수에 대하여 뛰어난 확장성을 가지는 한글 인식 시스템을 제공하고자 함.
3. 발명의 해결방법의 요지
한글을 6가지 유형으로 분류하는 제 1 단계; 모음영역에 모음 이외의 자음영역을 포함시켜 자소영역을 결정한 후에 결정된 자소영역에 따라 모음영역과 자음영역을 학습하여 자소를 인식하고, 5번 유형의 문자일 경우에 수평성분의 세로위치를 찾아내어 자소영역을 분리한 후에 신경망 학습을 통하여 자소를 인식하는 제 2 단계; 및 인식 결과에 따라 상기 제 1 단계와 제 2 단계를 재인식하는 제 3 단계를 포함한다.
4. 발명의 중요한 용도
인쇄체 한글을 인식하는 한글 인식 시스템에 이용됨.

Description

규칙적인 잡음을 이용한 한글 인식 시스템
본 발명은 규칙적인 잡음을 이용하여 한글의 자소 인식률을 크게 향상시킨 한글 인식 시스템에 관한 것으로, 특히, 기존의 자동문서인식기(OCR)의 가장 큰 문제점인 문자의 낮은 인식률 문제를 크게 개선시킴으로써 인쇄체 문자 인식의 문서들에 대한 자동 디지틀화를 통하여 문서의 보관 및 지능 정보 검색에 이용되고, 고속의 통신 등에 매우 광범위하게 응용되며, 폰트 수와 문자수의 증가에 무관하게 높은 인식률을 유지할 수 있는 한글 인식 시스템에 관한 것이다.
한글은 초성, 중성, 종성이 결합되어 하나의 문자를 이루는 특성을 가졌기 때문에 문자수가 많고 그 인식이 어렵다. 따라서, 최근에는 자소별로 인식하려는 시도가 많이 있었고 그 중에서도 특히 92년 정보과학회 논문지(B)에 수록된 권재욱, 조성배, 김진형 교수팀의 계층적 신경망을 이용한 다중 크기의 다중활자체 한글 문서인식에서는 한글을 자소의 위치에 따라 6가지 유형으로 나누어 신경망을 이용하여 인식하는 방법을 사용하여 비교적 좋은 결과를 보고하고 있다.
하지만, 상기 종래 방법은 각 자소를 인식하기 위해 고정된 자소 영역을 자소 인식기의 입력으로 사용하기 때문에 해당 자소 이외의 부분까지도 입력으로 사용되어 신경망의 학습이 어렵게 되고, 또한 인식률도 떨어지게 되며, 이러한 현상이 인식 대상 문자의 폰트와 크기가 다양해 질수록 더 두드러지게 나타나는 문제점이 있었다.
또한, 상기 종래 방법은 한글의 유형중 5번 유형의 경우에 수평 모음의 위치가 매우 다양하여 고정된 자소영역으로는 그 학습이 어려운 문제점이 있었다.
마지막으로 상기 종래 방법은 유형분류와 자소인식이라는 2 단계에 걸쳐 인식을 시도하므로 어느 한 단계라도 오류가 발생하면 전체적으로 오류가 발생하여 인식률이 크게 저하되는 문제점이 있었다.
상기 제반 문제점을 해결하기 위하여 안출된 본 발명은, 주어진 유형에서 해당 자소들을 포함하는 최소한의 영역을 자소영역으로 결정하는 종래 방법과는 달리, 결합되는 자소에 따라 잡음들이 규칙적으로 나타나는 점을 이용하기 위하여 모음영역에 모음 이외의 자음영역을 포함시켜 자소영역을 결정함으로써 신경망 학습시에 결합되는 다른 자소의 유형까지도 학습하게 하고, 5번 유형의 문자일 경우에 수평성분의 세로위치를 찾아내어 그 위치를 기준으로 자소영역을 분리하는 알고리즘을 사용하여 수평모음의 위치를 고정시키며, 유형분류와 자소인식이라는 두 단계를 인식 결과에 따라 재인식하도록 하여 두 단계의 인식 모듈이 상호 보완적인 역할을 하게 함으로써 전체적인 오류를 감소시킨 한글 인식 시스템을 제공하는데 그 목적이 있다.
즉, 본 발명은 종래의 신경망을 이용한 자소별 인식방법에서 해결하지 못한 여러 가지 오인식 문제를 규칙적인 잡음을 이용하여 해결함으로써 높은 인식률을 갖고, 더나아가서는 인식대상의 문자 수와 폰트 수에 대하여 뛰어난 확장성을 가지는 한글 인식 시스템을 제공하는데 그 목적이 있다.
도 1 은 본 발명에 따른 한글 인식 시스템의 전체 처리도,
도 2 는 본 발명에 따른 유형 분류기의 상세 처리도,
도 3a 내지 3f 는 본 발명에 따른 자소 인식기의 상세 처리도,
도 4a 및 4b 는 모음영역에 대한 설명도,
상기 목적을 달성하기 위하여 본 발명은, 한글을 일정한 자소영역을 갖는 6가지 유형으로 분류하여 각 자소영역별로 자소인식기를 이용하여 한글을 인식하는 한글 인식 시스템에 있어서, 결합되는 한글의 자소에 따라 잡음들이 규칙적으로 나타나는 점을 이용하기 위하여 자소 결합 유형에 따라 한글을 6가지 유형으로 분류하는 제 1 단계; 모음영역에 모음 이외의 자음영역을 포함시켜 자소영역을 결정한 후에 자소인식을 위한 신경망 학습시에 결정된 자소영역에 따라 모음영역과 자음영역을 학습하여 자소를 인식하고, 5번 유형의 문자일 경우에 수평성분의 세로위치를 찾아내어 그 위치를 기준으로 자소영역을 분리하는 알고리즘을 사용하여 수평모음의 위치를 고정시킨 후에 신경망 학습을 통하여 자소를 인식하는 제 2 단계; 및 유형을 분류하는 상기 제 1 단계와 자소를 인식하는 상기 제 2 단계의 인식 모듈이 상호 보완적인 역할을 수행하여 전체적인 오류를 감소시키도록 하기 위하여 인식 결과에 따라 상기 제 1 단계와 제 2 단계를 재인식하는 제 3 단계를 포함한다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 일실시예를 상세히 설명한다.
도 1 은 본 발명에 따른 한글 인식 시스템의 전체 처리도이다.
먼저, 전처리 부분을 살펴보면 도 1 에서 문서스캐닝부터 크기정규화까지가 이에 해당된다. 문자열로 이루어진 문서를 300dpi 스캐너로 스캔하여 이미지 형식(.tiff)으로 저장한다(1). 이 문자열 이미지를 80x80 크기의 한 문자 이미지들로 세그먼트화한다(2). 이후, 80x80 크기의 한 문자 이미지를 40x40 크기로 크기 정규화한다(3).
인식과정은 크게 유형분류와 자소인식의 두 단계로 나누어진다. 먼저, 유형분류기를 이용하여 정규화된 문자 이미지를 한글의 자소 영역에 따라 6가지 유형으로 분류한다(4). 후술되는 도 4a 및 4b 는 한글의 6가지 유형을 타나내고 있으며, 후술되는 도 2 는 유형분류기의 상세 구조를 나타내고 있다.
유형 분류기의 출력 노드 번호는 그 출력치가 큰 순서대로 소팅(sorting)되어 저장되고, 가장 큰 출력치를 갖는 출력 노드 번호만이 선택되어 다음 단계인 해당 유형의 자소인식기를 인에이블(enable)시키기 위한 인에이블 신호가 출력된다(5).
각 유형의 자소인식기들은 결합되는 자소에 따라 잡음들이 규칙적으로 나타나는 점을 이용하기 위하여 모음영역에 모음 이외의 자음영역을 포함시켜 자소영역을 결정함으로써 신경망 학습시에 결합되는 다른 자소의 유형까지도 학습하고, 특히 5번 유형의 문자일 경우에 수평성분의 세로위치를 찾아내어 그 위치를 기준으로 자소영역을 분리하는 알고리즘을 사용하여 수평모음의 위치를 고정시킨 후에 학습한다(6 내지 11). 각 유형의 자소인식기는 후술되는 도 3a 내지 3f 에 상세하게 나타나 있으며, 각 유형의 자소인식기는 2개 이상의 자소인식기로 구성되어 각 자소를 인식한다.
이후, 각 유형의 자소인식기중 선택되어 인에이블된 유형의 자소인식기들로부터 출력되는 출력값의 평균을 취한 후에(12) 평균 출력치가 0.5보다 큰지를 판단한다(13).
판단 결과, 평균 출력치가 0.5보다 작을 경우에는 후보 유형을 고려하기 위해 상기 출력값을 소팅하여 최대값 출력 노드 번호를 인에이블시키는 과정(5)으로 천이하여 다음 최대값 출력 노드 번호를 최대값 출력 노드 번호로 선택하여, 즉 후보 유형을 다시 선택된 유형으로 놓고 그 유형의 자소인식기를 동작시킨다. 이때, 유형분류기의 후보 유형 자체가 매우 낮은 출력치를 가질 때에는 맨 처음의 결과를 그대로 이용하기 위해 다음 최대값 출력 노드의 출력값이 0.5보다 클 경우에만 최대값 출력 노드를 다음 최대값 출력 노드로 대치한다. 이러한 동작은 유형분류기의 오류를 해결하는 방법이 되는데, 그 원리를 상세히 설펴보면 다음과 같다.
일반적인 2단계 인식 방법에서는 전 단계에 오류가 발생하면 다음 단계와 관계없이 최종 결과적로서 오류가 발생된다. 이러한 오류를 방지하기 위하여 다음 단계의 결과에 대한 확신도에 따라 역추적(backtracking)을 허용한다. 본 발명에 따른 한글 인식 시스템에서는 유형분류 신경망의 출력중 가장 높은 출력치를 가지는 유형을 입력문자의 유형이라고 보고, 이를 해당되는 자소인식 신경망들에 입력하여 인식하도록 한다. 그런데, 만일 전단계에서 오류가 발생하여 잘못된 유형으로 인식하고 있다면 현재의 자소인식 신경망이 입력으로 사용하는 영역들은 해당 자소의 영역이 아닌 여러 자소가 섞인 임의의 자소영역이 될 것이다. 그러므로, 각 자소인식기들은 자신이 학습한 적이 없는 전혀 다른 이미지를 인식하게 되므로 그 출력값들은 어떠한 노드도 높은 출력치를 가지지 못한다. 따라서, 이와 같이 가장 높은 값을 가지는 노드의 출력값이 제1 기준치(threshold 1)을 넘지 못하면 현재의 유형이 잘못된 유형이라고 보고 후보유형을 고려하도록 한다. 후보유형이란 이전의 유형분류 단계에서 현재의 유형 다음으로 높은 출력값을 갖는 유형을 말한다. 이러한 과정을 자소인식 신경망들의 출력값이 어느 정도 높은 출력치를 가질 때까지 반복한다. 만일 6가지 유형 모두에 대해 인식했는도 어느 하나 확신할 정도로 높은 출력치를 가진 경우가 발생하지 않으면 그 중에서 가장 높은 출력치를 가졌던 유형을 답이라고 생각한다.
지금까지는 자소인식기의 결과만을 믿고 후보유형을 고려한 경우에 대한 설명이었는데 여기에 유형분류기의 결과까지도 같이 고려할 수 있다. 후보유형을 취할 때 그 후보유형에 해당하는 확신도가 어느 정도보다 낮을 때에는 아무리 자소인식 신경망이 후보유형을 고려하려고 해도 유형분류기의 판단을 고려하여 그냥 앞의 유형을 답이라고 생각할 수 있다. 유형분류기의 확신도가 낮다는 것은 그 후보유형에 해당하는 노드의 출력값이 제2 기준치(threshold 2)보다 낮은 것을 의미한다. 이때, 유형분류기의 확신도와 자소인식기의 확신도 둘중에 어디에 더 큰 비중을 두느냐에 따라 결과가 달라질 수 있는데, 실험적으로 자소인식 신경망의 비중을 더 큰 것으로 두는 것이 좋은 결과를 나타낸다. 이것은 제1 기준치(threshold 1)의 값을 제2 기준치(threshold 2)의 값보다 크게 잡음으로써 이러한 효과를 가질 수 있다.
판단 결과, 평균 출력치가 0.5이상인 경우에 선택된 각 자소인식기로부터 출력되는 각 신경망의 선택된 출력 노드 번호를 다시 해당되는 자소코드로 맵핑(mapping)한 후에(14) 자소코드에 따라 자소를 조합하여(15) 조합형 한글 코드로 출력함으로써 인식과정을 마치게 된다.
도 2 는 본 발명에 따른 유형 분류기의 상세 처리도이다.
유형 분류기에서 사용되는 모든 입력피쳐는 전체 입력이미지를 대상으로 망사형 벡터(mesh vector)를 사용한다. 망사형 벡터(mesh vector)란 N x M 크기의 망사형(mesh) 윈도우를 입력이미지의 좌측 상단에서부터 이동하면서 그 윈도우내에 포함된 검은 픽셀(pixel) 수를 피쳐로 한다. 따라서, 전체 입력이미지의 크기가 X, Y라면 망사형 벡터(mesh vector)의 차원은 (X/N) x (Y/M)가 된다. 이때, 본 발명에서 망사형 윈도우(mesh window)의 크기는 5x5이고, 망사형 벡터(mesh vector)의 차원은 64차원이 된다.
실제로 64차원의 망사형 벡터(mesh vector)의 각 벡터값은 신경망의 입력으로 사용되기 전에 0과 1사이로 정규화된다.
유형 분류 신경망은 다계층 퍼셉트론(MLP : Multi-Layer-Perceptron)을 사용하며, 그 구조는 64개의 입력노드수와 35개의 은닉노드수와 6개의 출력노드수를 가진다.
도 3a 내지 3f 는 본 발명에 따른 자소 인식기의 상세 처리도이다.
각 유형의 자소인식기에서 사용되는 모든 입력피쳐는 전체 입력이미지를 대상으로 망사형 벡터(mesh vector)를 사용하며, 각 유형의 자소인식기에 사용되는 각 신경망에 따라 망사형 윈도우 크기(mesh window size)가 다르다. 이때, 모든 자소인식기는 신경망으로 다계층 퍼셉트론(MLP)를 사용한다.
여기에서 중요한 것은 자소인식기 신경망의 입력 영역이다. 전체 입력영역의 가로, 세로가 각각 0에서 49까지라고 했을 때 각 유형별 자소영역이 각 유형의 도면에 좌표로 표시되어 있다. 이 영역은 종래의 방법과는 달리 모음영역의 경우에 자음영역을 포함한 크기이다. 이것이 이러한 구조의 인식모델의 단점을 해결할수 있는 방법으로 작용한다.
각 유형에 따른 자소인식기의 구조를 상세히 살펴보면 다음과 같다.
먼저, 제1 유형의 자소인식기는 입력영역의 좌표가 (X1,Y1,X2,Y2)로 표시될때 초성의 좌표는 (0, 2, 26, 34)이고, 중성의 좌표는 (4, 0, 39, 38)이다. 따라서, 제1 유형의 자소인식기는 초성과 중성을 각각 인식하기 위하여 두개의 자소인식기로 구성되며, 초성을 인식하기 위한 자소인식기는 3x3 크기의 망사형 윈도우(mesh window)로 99차원의 망사형 벡터를 생성하여 99개의 입력노드수와 20개의 은닉노드수와 19개의 출력노드수를 가지는 다계층 퍼셉트론(MLP)에 입력하고, 중성을 인식하기 위한 자소인식기는 3x3 크기의 망사형 윈도우(mesh window)로 156차원의 망사형 벡터를 생성하여 156개의 입력노드수와 32개의 은닉노드수와 9개의 출력노드수를 가지는 다계층 퍼셉트론(MLP)에 입력한다.
제2 유형의 자소인식기는 입력영역의 좌표가 (X1,Y1,X2,Y2)로 표시될때 초성의 좌표는 (2, 1, 39, 29)이고, 중성의 좌표는 (2, 2, 37, 39)이다. 따라서, 제2 유형의 자소인식기는 초성과 중성을 각각 인식하기 위하여 두개의 자소인식기로 구성되며, 초성을 인식하기 위한 자소인식기는 3x3 크기의 망사형 윈도우(mesh window)로 130차원의 망사형 벡터를 생성하여 130개의 입력노드수와 25개의 은닉노드수와 19개의 출력노드수를 가지는 다계층 퍼셉트론(MLP)에 입력하고, 중성을 인식하기 위한 자소인식기는 3x3 크기의 망사형 윈도우(mesh window)로 156차원의 망사형 벡터를 생성하여 156개의 입력노드수와 15개의 은닉노드수와 5개의 출력노드수를 가지는 다계층 퍼셉트론(MLP)에 입력한다.
제3 유형의 자소인식기는 입력영역의 좌표가 (X1,Y1,X2,Y2)로 표시될때 초성의 좌표는 (1, 3, 29, 32)이고, 수평모음의 좌표는 (0, 3, 28, 37)이며, 수직모음의 좌표는 (2, 8, 39, 37)이다. 따라서, 제3 유형의 자소인식기는 초성과 수평모음 및 수직모음을 각각 인식하기 위하여 세개의 자소인식기로 구성되며, 초성을 인식하기 위한 자소인식기는 3x3 크기의 망사형 윈도우(mesh window)로 100차원의 망사형 벡터를 생성하여 100개의 입력노드수와 45개의 은닉노드수와 19개의 출력노드수를 가지는 다계층 퍼셉트론(MLP)에 입력하고, 수평모음을 인식하기 위한 자소인식기는 3x3 크기의 망사형 윈도우(mesh window)로 120차원의 망사형 벡터를 생성하여 120개의 입력노드수와 10개의 은닉노드수와 3개의 출력노드수를 가지는 다계층 퍼셉트론(MLP)에 입력하며, 수직모음을 인식하기 위한 자소인식기는 3x3 크기의 망사형 윈도우(mesh window)로 130차원의 망사형 벡터를 생성하여 130개의 입력노드수와 15개의 은닉노드수와 5개의 출력노드수를 가지는 다계층 퍼셉트론(MLP)에 입력한다.
제4 유형의 자소인식기는 입력영역의 좌표가 (X1,Y1,X2,Y2)로 표시될때 초성의 좌표는 (0, 1, 26, 26)이고, 중성의 좌표는 (1, 1, 39, 26)이며, 종성의 좌표는 (3, 25, 38, 39)이다. 따라서, 제4 유형의 자소인식기는 초성과 중성 및 종성을 각각 인식하기 위하여 세개의 자소인식기로 구성되며, 초성을 인식하기 위한 자소인식기는 2x2 크기의 망사형 윈도우(mesh window)로 182차원의 망사형 벡터를 생성하여 182개의 입력노드수와 38개의 은닉노드수와 19개의 출력노드수를 가지는 다계층 퍼셉트론(MLP)에 입력하고, 중성을 인식하기 위한 자소인식기는 3x2 크기의 망사형 윈도우(mesh window)로 169차원의 망사형 벡터를 생성하여 169개의 입력노드수와 35개의 은닉노드수와 9개의 출력노드수를 가지는 다계층 퍼셉트론(MLP)에 입력하며, 종성을 인식하기 위한 자소인식기는 2x2 크기의 망사형 윈도우(mesh window)로 144차원의 망사형 벡터를 생성하여 144개의 입력노드수와 39개의 은닉노드수와 26개의 출력노드수를 가지는 다계층 퍼셉트론(MLP)에 입력한다.
5번 유형의 문자들은 같은 모음이라도 위아래에 결합하는 자소의 종류에 따라 수평모음의 위치가 매우 다르다. 예를 들면 룬과 국이 있다. 이렇게 세로 위치가 완전히 다른 두 모음을 일반적인 고정된 모음영역으로 분리하고 나면 그 두 영역내에 보이는 획의 위치와 분포는 같은 모음이라도 완전히 다르게 된다. 즉, 룬의 경우에는 ㅜ가 영역의 맨 아래 부분에 위치하고 중간에는 오히려 ㄹ 자음의 일부가 차지하게 되고, 국의 경우에는 ㅜ가 맨 위쪽에 위치하고 중간부분에는 받침인 ㄱ의 일부가 차지하게 된다. 이렇게 되면 신경망이 학습하기가 어려워지고 인식률 또한 저하된다. 이러한 현상을 막기 위하여 모음영역의 중심에는 항상 수평모음의 가로획이 위치하도록 고정하는 알고리즘을 사용함으로써 신경망의 학습도 쉽고 인식률도 좋게 만들 수 있다.
5번 유형의 문자이미지에서 수평모음의 세로 위치를 찾아내는 알고리즘은 다음과 같다. 문자이미지는 가로와 세로가 각각 40 픽셀(pixel)들로 이루어져 있다. 먼저 문자이미지의 맨 왼쪽 열부터 검사하여 처음으로 검은 픽셀이 존재하는 열을 찾아낸다. 이때, 5번 유형의 문자들은 잡음만 없으면 수평모음의 맨 왼쪽 점이 곧 그 문자의 맨 왼쪽에 위치한 점이 된다. 찾아낸 열에서의 검은 픽셀이 과연 수평모음의 일부인 점인지 또는 잡음인지를 확인하기 위하여 검은 픽셀이 위치하는 세로 위치에서 가로 행의 픽셀들을 검사한다. 만일 수평모음의 일부라면 가로 행의 처음과 끝 부분, 그리고 중간 부분에 연속된 검은 픽셀들이 존재(잡음이 없다면 모든 행의 점들이 검은 픽셀일 것이나 잡음이 있을 수 있으므로 이와 같은 알고리즘을 작용시킴)의 조건을 만족할 것이다.
이렇게 찾아낸 세로 위치를 기준으로 초성 하단좌표 = y + Δy1, 종성 상단좌표 = y + Δy2, 중성 상단좌표 = y + Δy1', 중성 하단좌표 = y + Δy2'와 같이 모음과 두 자음영역을 분리한다. 이때, Δyl, Δy2, Δy1', Δy2'의 값들은 -1, 4, -12, 15이다. 이러한 방법으로 영역을 분리하게 되면 중성영역의 크기는 항상 일정하나 초성과 종성영역의 크기는 찾아진 세로 위치에 따라 달라지므로 크기를 정규화한다. 위와 같이 수행함으로써 5번 유형의 모음위치가 글자나 폰트에 따라 다양하여 인식을 어렵게 하는 것을 해결할 수 있다.
제5 유형의 자소인식기는 입력영역의 좌표가 (X1,Y1,X2,Y2)로 표시될때 초성의 좌표는 (0, 0, 39, Y-1)이고, 중성의 좌표는 (1, Y-12, 38, Y+15)이며, 종성의 좌표는 (0, Y+4, 39, 39)이다. 따라서, 제5 유형의 자소인식기는 초성과 중성 및 종성을 각각 인식하기 위하여 세개의 자소인식기로 구성되며, 초성을 인식하기 위한 자소인식기는 40x20 크기로 크기를 정규화하고 3x2 크기의 망사형 윈도우(mesh window)로 140차원의 망사형 벡터를 생성하여 140개의 입력노드수와 27개의 은닉노드수와 19개의 출력노드수를 가지는 다계층 퍼셉트론(MLP)에 입력하고, 중성을 인식하기 위한 자소인식기는 38x28 크기로 크기를 정규화하고 3x2 크기의 망사형 윈도우(mesh window)로 182차원의 망사형 벡터를 생성하여 182개의 입력노드수와 25개의 은닉노드수와 5개의 출력노드수를 가지는 다계층 퍼셉트론(MLP)에 입력하며, 종성을 인식하기 위한 자소인식기는 40x20 크기로 크기를 정규화하고 3x2 크기의 망사형 윈도우(mesh window)로 140차원의 망사형 벡터를 생성하여 140개의 입력노드수와 35개의 은닉노드수와 24개의 출력노드수를 가지는 다계층 퍼셉트론(MLP)에 입력한다.
제6 유형의 자소인식기는 입력영역의 좌표가 (X1,Y1,X2,Y2)로 표시될때 초성의 좌표는 (2, 1, 27, 23)이고, 수평모음의 좌표는 (1, 13, 29, 27)이며, 수직모음의 좌표는 (13, 2, 39, 27)이고, 종성의 좌표는 (4, 24, 38, 39)이다. 따라서, 제6 유형의 자소인식기는 초성, 수평모음, 수직모음 및 종성을 각각 인식하기 위하여 네개의 자소인식기로 구성되며, 초성을 인식하기 위한 자소인식기는 3x3 크기의 망사형 윈도우(mesh window)로 72차원의 망사형 벡터를 생성하여 72개의 입력노드수와 20개의 은닉노드수와 19개의 출력노드수를 가지는 다계층 퍼셉트론(MLP)에 입력하고, 수평모음을 인식하기 위한 자소인식기는 3x3 크기의 망사형 윈도우(mesh window)로 54차원의 망사형 벡터를 생성하여 54개의 입력노드수와 17개의 은닉노드수와 3개의 출력노드수를 가지는 다계층 퍼셉트론(MLP)에 입력하며, 수직모음을 인식하기 위한 자소인식기는 3x3 크기의 망사형 윈도우(mesh window)로 54차원의 망사형 벡터를 생성하여 54개의 입력노드수와 17개의 은닉노드수와 5개의 출력노드수를 가지는 다계층 퍼셉트론(MLP)에 입력하며, 종성을 인식하기 위한 자소인식기는 3x3 크기의 망사형 윈도우(mesh window)로 72차원의 망사형 벡터를 생성하여 72개의 입력노드수와 10개의 은닉노드수와 9개의 출력노드수를 가지는 다계층 퍼셉트론(MLP)에 입력한다.
도 4a 및 4b 는 모음영역에 대한 설명도로서, 한글을 일정한 자소영역을 갖는 6가지 유형으로 분류한 형태를 나타낸다.
한편, 본 발명에 따른 한글 인식 시스템은 명조체와 고딕체에 대해서는 99.65%의 인식률을 보였고, 신명조체, 중고딕체, 궁서체를 포함하더라도 평균 98.9%정도의 인식률을 유지하였다. 또한, 인식대상 문자 수에 대해서도 500문자에서 1405자까지 확장하여 인식한 결과 인식률의 차이는 0.1%미만임을 확인할 수 있었다.
이상에서 설명한 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 있어 본 발명의 기술적 사상을 벗어나지 않는 범위내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 한정되는 것이 아니다.
상기와 같은 본 발명은 다음과 같은 효과가 있다.
첫번째로, 자소별 인식과 해당 자소영역의 확대로 인하여 모호성을 해결하고, 확장성을 증가시킬 수 있는 효과가 있다. 실제로 모음의 경우에 종래의 방법보다 73%의 인식률 개선이 있었고, 폰트 수를 증가할 경우에 종래의 방법보다 인식률의 저하 정도가 매우 낮았으며, 문자 수를 증가할 경우에 거의 인식률에는 변화가 없었다.
두번째로, 5번 유형 문자의 경우에 그 위치를 고정시킴으로써 학습 시간을 단축하고 인식률을 증가시킬 수 있는 효과가 있다. 종래의 연구에서 가장 많은 오인식이 발생하는 경우가 5번 유형의 모음이다. 본 발명에 따른 한글 인식 시스템에서는 이러한 알고리즘에 의해 53%의 인식률 개선을 얻을 수 있다.
세번째로, 신경망의 확신도에 따른 후보유형을 고려함으로써 다단계 인식기의 가장 큰 단점인 각 단계별 오류의 곱에 비례하는 전체 오류 증가를 해결할 수 있는 효과가 있다. 종래의 방법에서는 유형분류 신경망에서 오류가 발생하면 자소인식 신경망과는 관계없이 문자를 오인식하게 된다. 이렇게 전체 오류가 앞단계에서 오류와 다음 단계에서의 오류의 곱으로 나타나는 것이 일반적인데 본 발명에 따른 한글 인식 시스템에서는 후보유형을 고려함으로써 실재로는 유형분류 신경망의 자체 오류보다도 더 적은 수의 유형 오류가 나타난다.

Claims (11)

  1. 한글을 일정한 자소영역을 갖는 6가지 유형으로 분류하여 각 자소영역별로 자소인식기를 이용하여 한글을 인식하는 한글 인식 시스템에 있어서,
    결합되는 한글의 자소에 따라 잡음들이 규칙적으로 나타나는 점을 이용하기 위하여 자소 결합 유형에 따라 한글을 6가지 유형으로 분류하는 제 1 단계;
    모음영역에 모음 이외의 자음영역을 포함시켜 자소영역을 결정한 후에 자소인식을 위한 신경망 학습시에 결정된 자소영역에 따라 모음영역과 자음영역을 학습하여 자소를 인식하고, 5번 유형의 문자일 경우에 수평성분의 세로위치를 찾아내어 그 위치를 기준으로 자소영역을 분리하는 알고리즘을 사용하여 수평모음의 위치를 고정시킨 후에 신경망 학습을 통하여 자소를 인식하는 제 2 단계; 및
    유형을 분류하는 상기 제 1 단계와 자소를 인식하는 상기 제 2 단계의 인식 모듈이 상호 보완적인 역할을 수행하여 전체적인 오류를 감소시키도록 하기 위하여 인식 결과에 따라 상기 제 1 단계와 제 2 단계를 재인식하는 제 3 단계를 포함하여 이루어진 한글 인식 시스템.
  2. 제 1 항에 있어서,
    상기 제 1 단계는,
    문자열로 이루어진 문서를 스캐너로 스캔하여 이미지 형식으로 저장한 후에 문자열 이미지를 한 문자 이미지들로 세그먼트화하는 단계;
    상기 한 문자 이미지를 소정의 크기로 정규화한 후에 유형분류기를 이용하여 정규화된 문자 이미지를 한글의 자소영역에 따라 6가지 유형으로 분류하는 단계; 및
    상기 유형 분류기의 출력 노드 번호를 그 출력치가 큰 순서대로 소팅(sorting)하여 저장하고, 가장 큰 출력치를 갖는 출력 노드 번호를 선택하여 해당 유형의 자소인식기를 인에이블(enable)시키기 위한 인에이블 신호를 출력하는 단계를 포함하는 것을 특징으로 하는 한글 인식 시스템.
  3. 제 2 항에 있어서,
    상기 유형 분류기는,
    5x5 크기의 망사형 윈도우(mesh window)로 64차원의 망사형 벡터(mesh vector)를 생성하는 단계;
    64차원의 망사형 벡터(mesh vector)의 각 벡터값을 신경망의 입력으로 사용하기 전에 0과 1사이로 정규화하는 단계; 및
    64개의 입력노드수와 35개의 은닉노드수와 6개의 출력노드수를 가지는 다계층 퍼셉트론(MLP : Multi-Layer-Perceptron)은 상기 정규화된 벡터값을 입력받아 학습한 후에 그 결과를 출력하는 단계를 포함하는 것을 특징으로 하는 한글 인식 시스템.
  4. 제 2 항에 있어서,
    상기 제 3 단계는,
    각 유형의 자소인식기중 선택되어 인에이블된 유형의 자소인식기들로부터 출력되는 출력값의 평균을 취한 후에 평균 출력치가 제1 소정의 기준치보다 큰지를 판단하는 단계;
    상기 판단 결과, 평균 출력치가 제1 소정의 기준치보다 작을 경우에는 후보유형을 고려하기 위해 다음으로 큰 최대값 출력 노드의 출력값이 제2 소정의 기준치보다 클 경우에만 상기 출력값을 소팅하여 최대값 출력 노드 번호를 인에이블시키는 단계로 천이하여 다음으로 큰 최대값 출력 노드 번호를 새로운 최대값 출력 노드 번호로 선택하여 해당 자소인식기를 동작시키는 단계; 및
    상기 판단 결과, 평균 출력치가 제2 소정의 기준치 이상인 경우에 선택된 각 자소인식기로부터 출력되는 출력 노드 번호를 해당되는 자소코드로 맵핑(mapping)한 후에 자소코드에 따라 자소를 조합하여 출력하는 단계를 포함하는 것을 특징으로 하는 한글 인식 시스템.
  5. 제 1 항 내지 제 4 항중 어느 한 항에 있어서,
    상기 제1 유형의 한글을 인식하는 자소 인식기는,
    입력영역의 초성의 좌표가 (0, 2, 26, 34)이고, 중성의 좌표가 (4, 0, 39, 38)인 경우에, 초성과 중성을 각각 인식하기 위하여 두개의 자소인식기로 구성되며, 초성을 인식하기 위한 자소인식기는 3x3 크기의 망사형 윈도우(mesh window)로 99차원의 망사형 벡터를 생성하여 99개의 입력노드수와 20개의 은닉노드수와 19개의 출력노드수를 가지는 다계층 퍼셉트론(MLP)에 입력하고, 중성을 인식하기 위한 자소인식기는 3x3 크기의 망사형 윈도우(mesh window)로 156차원의 망사형 벡터를 생성하여 156개의 입력노드수와 32개의 은닉노드수와 9개의 출력노드수를 가지는 다계층 퍼셉트론(MLP)에 입력하는 구조를 가진 것을 특징으로 하는 한글 인식 시스템.
  6. 제 5 항에 있어서,
    상기 제2 유형의 한글을 인식하는 자소 인식기는,
    입력영역의 초성의 좌표가 (2, 1, 39, 29)이고, 중성의 좌표가 (2, 2, 37, 39)인 경우에, 초성과 중성을 각각 인식하기 위하여 두개의 자소인식기로 구성되며, 초성을 인식하기 위한 자소인식기는 3x3 크기의 망사형 윈도우(mesh window)로 130차원의 망사형 벡터를 생성하여 130개의 입력노드수와 25개의 은닉노드수와 19개의 출력노드수를 가지는 다계층 퍼셉트론(MLP)에 입력하고, 중성을 인식하기 위한 자소인식기는 3x3 크기의 망사형 윈도우(mesh window)로 156차원의 망사형 벡터를 생성하여 156개의 입력노드수와 15개의 은닉노드수와 5개의 출력노드수를 가지는 다계층 퍼셉트론(MLP)에 입력하는 구조를 가진 것을 특징으로 하는 한글 인식 시스템.
  7. 제 6 항에 있어서,
    상기 제3 유형의 한글을 인식하는 자소 인식기는,
    입력영역의 초성의 좌표가 (1, 3, 29, 32)이고, 수평모음의 좌표가 (0, 3, 28, 37)이며, 수직모음의 좌표가 (2, 8, 39, 37)인 경우에, 초성과 수평모음 및 수직모음을 각각 인식하기 위하여 세개의 자소인식기로 구성되며, 초성을 인식하기 위한 자소인식기는 3x3 크기의 망사형 윈도우(mesh window)로 100차원의 망사형 벡터를 생성하여 100개의 입력노드수와 45개의 은닉노드수와 19개의 출력노드수를 가지는 다계층 퍼셉트론(MLP)에 입력하고, 수평모음을 인식하기 위한 자소인식기는 3x3 크기의 망사형 윈도우(mesh window)로 120차원의 망사형 벡터를 생성하여 120개의 입력노드수와 10개의 은닉노드수와 3개의 출력노드수를 가지는 다계층 퍼셉트론(MLP)에 입력하며, 수직모음을 인식하기 위한 자소인식기는 3x3 크기의 망사형 윈도우(mesh window)로 130차원의 망사형 벡터를 생성하여 130개의 입력노드수와 15개의 은닉노드수와 5개의 출력노드수를 가지는 다계층 퍼셉트론(MLP)에 입력하는 구조를 가진 것을 특징으로 하는 한글 인식 시스템.
  8. 제 7 항에 있어서,
    상기 제4 유형의 한글을 인식하는 자소 인식기는,
    입력영역의 초성의 좌표가 (0, 1, 26, 26)이고, 중성의 좌표가 (1, 1, 39, 26)이며, 종성의 좌표가 (3, 25, 38, 39)인 경우에, 초성과 중성 및 종성을 각각 인식하기 위하여 세개의 자소인식기로 구성되며, 초성을 인식하기 위한 자소인식기는 2x2 크기의 망사형 윈도우(mesh window)로 182차원의 망사형 벡터를 생성하여 182개의 입력노드수와 38개의 은닉노드수와 19개의 출력노드수를 가지는 다계층 퍼셉트론(MLP)에 입력하고, 중성을 인식하기 위한 자소인식기는 3x2 크기의 망사형 윈도우(mesh window)로 169차원의 망사형 벡터를 생성하여 169개의 입력노드수와 35개의 은닉노드수와 9개의 출력노드수를 가지는 다계층 퍼셉트론(MLP)에 입력하며, 종성을 인식하기 위한 자소인식기는 2x2 크기의 망사형 윈도우(mesh window)로 144차원의 망사형 벡터를 생성하여 144개의 입력노드수와 39개의 은닉노드수와 26개의 출력노드수를 가지는 다계층 퍼셉트론(MLP)에 입력하는 구조를 가진 것을 특징으로 하는 한글 인식 시스템.
  9. 제 8 항에 있어서,
    5번 유형의 문자일 경우에 수평성분의 세로위치를 찾아내어 그 위치를 기준으로 자소영역을 분리하는 알고리즘을 사용하여 수평모음의 위치를 고정시키는 과정은,
    문자이미지의 맨 왼쪽 열부터 검사하여 처음으로 검은 픽셀이 존재하는 열을 찾아낸 후에 찾아낸 열에서의 검은 픽셀이 과연 수평모음의 일부인 점인지 또는 잡음인지를 확인하기 위하여 검은 픽셀이 위치하는 세로 위치에서 가로 행의 픽셀들을 검사하여 가로 행의 처음과 끝 부분, 그리고 중간 부분에 연속된 검은 픽셀들이 존재하면 수평모음으로 인식한 다음에 초성 하단좌표 = y + Δy1, 종성 상단좌표 = y + Δy2, 중성 상단좌표 = y + Δy1', 중성 하단좌표 = y + Δy2'와 같이 모음과 두 자음영역을 분리하여(Δyl, Δy2, Δy1', Δy2'의 값들은 -1, 4, -12, 15임) 크기를 정규화하는 것을 특징으로 하는 한글 인식 시스템.
  10. 제 9 항에 있어서,
    상기 제5 유형의 한글을 인식하는 자소 인식기는,
    입력영역의 초성의 좌표가 (0, 0, 39, Y-1)이고, 중성의 좌표가 (1, Y-12, 38, Y+15)이며, 종성의 좌표가 (0, Y+4, 39, 39)인 경우에, 초성과 중성 및 종성을 각각 인식하기 위하여 세개의 자소인식기로 구성되며, 초성을 인식하기 위한 자소인식기는 40x20 크기로 크기를 정규화하고 3x2 크기의 망사형 윈도우(mesh window)로 140차원의 망사형 벡터를 생성하여 140개의 입력노드수와 27개의 은닉노드수와 19개의 출력노드수를 가지는 다계층 퍼셉트론(MLP)에 입력하고, 중성을 인식하기 위한 자소인식기는 38x28 크기로 크기를 정규화하고 3x2 크기의 망사형 윈도우(mesh window)로 182차원의 망사형 벡터를 생성하여 182개의 입력노드수와 25개의 은닉노드수와 5개의 출력노드수를 가지는 다계층 퍼셉트론(MLP)에 입력하며, 종성을 인식하기 위한 자소인식기는 40x20 크기로 크기를 정규화하고 3x2 크기의 망사형 윈도우(mesh window)로 140차원의 망사형 벡터를 생성하여 140개의 입력노드수와 35개의 은닉노드수와 24개의 출력노드수를 가지는 다계층 퍼셉트론(MLP)에 입력하는 구조를 가진 것을 특징으로 하는 한글 인식 시스템.
  11. 제 10 항에 있어서,
    상기 제6 유형의 한글을 인식하는 자소 인식기는,
    입력영역의 초성의 좌표가 (2, 1, 27, 23)이고, 수평모음의 좌표가 (1, 13, 29, 27)이며, 수직모음의 좌표가 (13, 2, 39, 27)이고, 종성의 좌표가 (4, 24, 38, 39)인 경우에, 초성, 수평모음, 수직모음 및 종성을 각각 인식하기 위하여 네개의 자소인식기로 구성되며, 초성을 인식하기 위한 자소인식기는 3x3 크기의 망사형 윈도우(mesh window)로 72차원의 망사형 벡터를 생성하여 72개의 입력노드수와 20개의 은닉노드수와 19개의 출력노드수를 가지는 다계층 퍼셉트론(MLP)에 입력하고, 수평모음을 인식하기 위한 자소인식기는 3x3 크기의 망사형 윈도우(mesh window)로 54차원의 망사형 벡터를 생성하여 54개의 입력노드수와 17개의 은닉노드수와 3개의 출력노드수를 가지는 다계층 퍼셉트론(MLP)에 입력하며, 수직모음을 인식하기 위한 자소인식기는 3x3 크기의 망사형 윈도우(mesh window)로 54차원의 망사형 벡터를 생성하여 54개의 입력노드수와 17개의 은닉노드수와 5개의 출력노드수를 가지는 다계층 퍼셉트론(MLP)에 입력하며, 종성을 인식하기 위한 자소인식기는 3x3 크기의 망사형 윈도우(mesh window)로 72차원의 망사형 벡터를 생성하여 72개의 입력노드수와 10개의 은닉노드수와 9개의 출력노드수를 가지는 다계층 퍼셉트론(MLP)에 입력하는 구조를 가진 것을 특징으로 하는 한글 인식 시스템.
KR1019960043740A 1996-10-02 1996-10-02 규칙적인 잡음을 이용한 한글 인식 시스템 KR100199296B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019960043740A KR100199296B1 (ko) 1996-10-02 1996-10-02 규칙적인 잡음을 이용한 한글 인식 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019960043740A KR100199296B1 (ko) 1996-10-02 1996-10-02 규칙적인 잡음을 이용한 한글 인식 시스템

Publications (2)

Publication Number Publication Date
KR19980025571A KR19980025571A (ko) 1998-07-15
KR100199296B1 true KR100199296B1 (ko) 1999-06-15

Family

ID=19476104

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019960043740A KR100199296B1 (ko) 1996-10-02 1996-10-02 규칙적인 잡음을 이용한 한글 인식 시스템

Country Status (1)

Country Link
KR (1) KR100199296B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10529317B2 (en) 2015-11-06 2020-01-07 Samsung Electronics Co., Ltd. Neural network training apparatus and method, and speech recognition apparatus and method

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100456620B1 (ko) * 2001-12-20 2004-11-10 한국전자통신연구원 한글문자 인식 방법
KR100479349B1 (ko) * 2002-12-12 2005-03-31 한국전자통신연구원 자소기반 문자인식기 성능 향상방법
US7844114B2 (en) 2005-12-12 2010-11-30 Microsoft Corporation Logical structure layout identification and classification for offline character recognition
KR101017598B1 (ko) * 2008-11-25 2011-02-28 세종대학교산학협력단 증강 현실을 이용한 한글 교습 시스템 및 한글 정보 제공 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10529317B2 (en) 2015-11-06 2020-01-07 Samsung Electronics Co., Ltd. Neural network training apparatus and method, and speech recognition apparatus and method

Also Published As

Publication number Publication date
KR19980025571A (ko) 1998-07-15

Similar Documents

Publication Publication Date Title
US6687401B2 (en) Pattern recognizing apparatus and method
JP3345224B2 (ja) パターン抽出装置、パターン再認識用テーブル作成装置及びパターン認識装置
EP0649113B1 (en) Multifont optical character recognition using a box connectivity approach
US7233697B2 (en) Character recognition device and a method therefor
US4813078A (en) Character recognition apparatus
US10140556B2 (en) Arabic optical character recognition method using hidden markov models and decision trees
Lehal et al. Feature extraction and classification for OCR of Gurmukhi script
JP2001175811A (ja) 単語大分類装置及びその単語大分類方法並びにその制御プログラムを記録した記録媒体
KR100199296B1 (ko) 규칙적인 잡음을 이용한 한글 인식 시스템
Kim et al. Word segmentation of printed text lines based on gap clustering and special symbol detection
Rodrigues et al. Cursive character recognition–a character segmentation method using projection profile-based technique
KR0186025B1 (ko) 후보 문자 분류 방법
Srinivas et al. An overview of OCR research in Indian scripts
Hussain et al. A self organizing map based Urdu Nasakh character recognition
Haraty et al. Segmenting handwritten Arabic text
US11270146B2 (en) Text location method and apparatus
JP3476595B2 (ja) 画像領域分割方法、および画像2値化方法
Lee et al. Highly accurate recognition of printed korean characters through an improved two-stage classification method
Airphaiboon et al. Recognition of handprinted Thai characters using loop structures
JPH03225579A (ja) 文字パターン切り出し装置
Gatos et al. A segmentation-free recognition technique to assist old Greek handwritten manuscript OCR
Allam Arabic character recognition
Setiawan et al. Informatics Department, Faculty of Industrial Technology, Petra Christian University, Surabaya, Indonesia {alexander, kgunadi}@ petra. ac. id
Abkenar et al. Text Extraction from Raster Maps Using Color Space Quantization
Amin et al. Automatic recognition of printed Arabic text using neural network classifier

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20110228

Year of fee payment: 13

LAPS Lapse due to unpaid annual fee