KR0126800B1

KR0126800B1 - 한글필기체 온라인 문자인식 장치 및 방법

Info

Publication number: KR0126800B1
Application number: KR1019930031606A
Authority: KR
Inventors: 안병재; 도정인
Original assignee: 김광호; 삼성전자주식회사
Priority date: 1993-12-30
Filing date: 1993-12-30
Publication date: 1998-04-02
Also published as: KR950020298A

Abstract

본 발명은 한글 필기체 온라인 문자인식방법에 관한 것으로, 특히 한글의 각 자소를 분리하여 필기하지 않고 연결하여 필기한 한글의 인식 및 필기자의 자소간 연결 필기습관에 적응 가능하도록 하는 한글 필기체 온라인 인식시스템 및 그 방법에 관한 것으로 사용자로부터 한글데이타를 입력받는 문자입력부; 문자입력부를 통하여 입력되는 데이타에서 잡음 및 불필요한 부분을 삭체하고 대표적인 점들만을 추출하는 전처리부; 글자를 이루는 초성, 중성 및 종성에 대한 각 자소들과 이들의 결합에 의하여 형성되는 연결자소에 대한 정보를 포함하는 인식사전부; 전처리부에서 처리된 대표점들을 인식사전부를 검색하여 자소간 연결된 글자를 인식처리하는 인식체어부를 포함한다.

Description

한글필기체 온라인 문자인식 장치 및 방법

제 1 도는 종래의 자소분리형 온라인 문자인식방법의 블럭도.

제 2 도는 본 발명에 따른 온라인 문자인식 시스템의 블럭도.

제 3 도는 글자의 좌표점열의 일예를 도시한 도.

제 4a 도 내지 체 4c 도는 전처리과정의 일예를 도시한 도.

제 5 도는 직선으로의 적합에 의한 대표점을 구하는 일예를 도시한 도.

제 6 도는 본 발명에 따른 인식체어부의 상체블럭도.

제 7 도는 제 6 도에서의 초성인식부의 동작흐름도.

제 8 도는 제 6 도에서의 초중연결인식부의 동작흐름도.

제 9 도는 제 6 도에서의 초중종연결인식부의 동작흐름도.

제 10 도는 대분류에서의 분류방법의 일예를 도시한 도.

제 11 도는 제 6 도에서의 중성인식부의 동작흐름도.

제 12 도는 제 6 도에서의 중종연결인식부의 동작흐름도.

제 13 도는 제 6 도에서의 종성인식부의 동작흐름도.

제 14 도는 본 발명에 따른 자소인식 및 연결형자소의 인식을 도시한 흐름도.

제 15 도는 본 발명에 따른 인식사전생성부에서의 동작과정을 도시한 흐름도.

* 도면의 주요부분에 대한 부호의 설명

21 : 문자입력부 22 : 전처리부

23 : 인식체어부 24 : 인식사전생성부

25 : 인식사전부 30 : 체1인식부

31 : 체2인식부 32 : 체3인식부

33 : 자소코드저장부 34 : 인식문자출력부

본 발명은 한글 필기체 온라인 문자인식 장치 및 방법에 관한 것으로, 특히 한글의 각 자소를 분리하여 필기하지 않고 연결하여 필기한 한글의 인식 및 필기자의 자소간 연결 필기습관에 적응 가능하도록 하는 한글 필기체 온라인 인식장치 및 그 방법에 관한 것이다.

현대사회는 정보화 사회로서 이는 현대사회에서 발생되고 전달, 처리해야 할 정보의 양이 기하급수적으로 증가하고 있으며, 필요한 정보를 효과적으로 획득하고 분석, 처리하는 것이 매우 중요한 역할을 하고 있다. 이러한 중요한 역할을 수행하는 것으로서 킴퓨터를 들을 수 있는데, 컴퓨터는 방대한 양의 정보를 저장하고 처리할 수 있게 되었으나, 문서에 수록된 정보를 컴퓨터에 입력하는 것은 아직도 사람이 직접 키보드로 입력하는 방식을 취하는 것이 대부분이어서 자료의 입력에 많은 인력과 시간이 필요한 실정이다. 따라서 진정한 정보화사회의 실현을 워해서는 입력의 자동화가 요구되어 왔다.

따라서, 사람이나 인쇄매체에 의해 작성된 문서를 영상상태로 입력하고 이를 분석하여, 문서상의 문자를 컴퓨터가 사용하는 내부코드로 바꾸어 텍스트화일(Text File)을 만들어 내는 문자인식 시스템의 개발이 이루어져야 실현가능하다.

문자인식은 대상문자가 인쇄된 것인가와 필기된 것인가에 따라 인쇄체 문자인식과 필기체 문자인식으로분류되며 필기체 문자인식은 다시 문자영상정보를 얻는 방식에 따라 온라인 인식과 오프라인 인식으로 나누어진다. 온라인 필기체 인식은 사람이 종이위에 펜을 이용하여 글씨를 쓰는 것처럼 테블릿(Tab1et)이라고하는 장치위에 철핀(Stylus)로 글씨를 쓰는 동안 입력되는 글씨 획의 위치와 순서정보를 이용하여 인식을하는 것으로써, 크게 전자기(E1ectromagnetic/E1ectrostatic)방식과 압력감지(Pressure sensitive)방식이 있으며, 최근들어 키보드 없는 컴퓨터를 개발하기 위하여 많이 연구되고 있다.

오프라인 필기체 인식은 종이위에 필기된 문자의 영상울 스캐너나 카메라와 같은 영상입력장치로 입력하여 인식하는 방법으로, 주표 전표의 자동입력용으로 쓰인다.

한편 문자인식은 문자영상을 인식하여 그에 대한 컴퓨터코드를 생성하는 기술을 말하는 한편, 문자인식이라함은 좀더 포괄적으로 그림등의 비문자영역이 포함되어 있는 문서의 구조를 분석하여 텍스트영역을 찾아내고 논리적인 순서대로 텍스트영역내의 문자에 대한 컴퓨터코드를 생성하는 전체 과정을 의미한다. 이러한, 문자인식와 문서인식중에서 문자인식에 대한 방법을 간략히 살펴보면 다음과 같다.

문자인식 방법은 크게 원형비교방법(Template Matching Method), 통계적 방법(Statistical Method), 구조적 방법(Structural Method), 인공신경망방법(Artificial Neural Network)을 이용한 방법 및 이들의 조합에 의한 방법등으로 분류된다.

상기의 방법중 원형비교방법은 인식대상이 되는 모든 문자의 영상을 2차원 배열에 저장하고, 인식하고자하는 입력문자의 영상을 저장된 각각의 문자영상과 대응되는 화소단위로 비교하여 불일치된 화소의 갯수가 가장 적은 문자로 입력문자를 판단하는 방법이며, 통계적 방법은 인식대상인 각 문자에 대한 충분히 많은 문자영상을 추출하고, 각각의 문자영상에 대해 정해진 방법에 따라 N개의 특징값을 추출하여 N차원 공간의 백터로 표현한다. 이 벡터들의 평균벡터를 구하여 그 문자에 대한 특성벡터로 저장한다. 인식대상문자에대해서 같은 방법으로 벡터를 구해 이 벡터와 가장 가까운 거리에 있는 특성벡터에 해당하는 문자로 인식하는 방법이다.

그리고, 구조적 방법은 문자의 구성원리에 입각하여 자획등과 같은 문자를 구성하는 기본요소와 그들간의 연관성을 추출하는 문자를 인식하는 방법이며, 마지막으로 인공신경망을 이용한 방법은 인간의 신경망조직을 모델로 하여 많은 수의 단순한 프로체서들을 망으로 연결한 시스템을 사용하여 패턴인식문체를 해결하고자 하는 연구가 진행되고 있다.

상기에서와 같이 기술된 방법 및 기타의 다른 방법등을 이용하여 이루어진 한글온라인 인식방법은 한글의 각 자소를 서로 연결하지 않도록 필기하는 필기체약 조건하에서 쓰여진 문자를 자소단위로 인식하여 인식된 각 자소를 조합하여 인식문자로 구성하는 방법이 대부분이었으며 연결된 자소를 가지는 경우에도 인쇄체위주의 한글인식이었기 때문에 이를 필기체의 경우에 적용한다면 인식률이 높지 않기 때문에 적용이 곤란하였다.

이와 같이 종래에 사용되던 한글온라인 인식방법을 제 1 도를 참조하여 살펴보면 다음과 같다.

제 1 도에서 11은 한글필기체의 입력을 받는 테볼릿과 철필등으로 구성되는 문자입력부, 12는 입력된 문자의 인식흐름을 체어하는 인식체어부, 13은 인식될 문자들의 표본을 저장하고 있는 인식사전부, 14,15 및 16은 입력된 문자들로부터 초성, 중성 및 종성을 인식하는 초성인식부, 중성인식부 및 종성인식부, 17은 인식된 문자를 출력하는 인식문자출력부로서 상기와 같은 구성을 가지는 장치에서의 인식동작을 설명하면 다음과 같다.

테블릿과 철필등을 이용하여 사용자가 입력한 한글이 입력되면 이 입력된 글자는 N개의 획으로 인식되어 문자입력부(11)로 입력된다. N개의 획이 입력되면 인식체어부(12)에서는 입력된 데이타를 인식사전부(13)에 기록되어 있는 데이타중 초성관련데이타를 초성인식부(14)에서 N개의 획에서 처음 몇개의 획에서 인식여부를 체크한다.

초성인식부(14)에서 초성이 인식되면 N개의 획중 초성인식부에서 사용된 획수를 체외한 나머지 획을 이용하여 중성인식부(15)에서 중성인식을 수행한다. 초성인식을 수행하고 남은 획수가 중성의 최대획수인 5획을 넘는 경우 5획을 가지고 1획씩 줄여가면서 인식을 하고 5획 이하인 경우에는 모든 획을 가지고 중성인식을 한다.

중성인식을 수행하고 획이 남아있을 때에만 종성인식부(12)에서 종성인식을 수행한다. 이러한 인식의 흐름을 인식체어부(12)가 체어하며, 각 자소의 인식이 끝나면 인식문자출력부(17)에서 해당 인식된 문자들을 조합하여 출력한다.

상기에서와 같은 문자인식은 자소간 연결을 허용하지 않기 때문에 만약 각 자소가 서로 붙어있는 경우에는 해당 자소를 인식하지 못하는 문체점이 있으며 또한, 한글의 각 자소간 연결을 하지 않도록 필기하는 체약조건은 필기자로 하여금 평소 필기하던 방식과 거리가 멀어 필기하는데 많은 심적 부담을 안겨주며,이러한 연결형태에 대한 체약은 필기시 필기자에게 많은 혼동을 주는 문체점을 안고 있다.

이러한 인식방법은 또한 필기자의 독특한 필기습관을 흡수할 수 없어 온라인 인식시스템을 사용하고자할 때 필기자가 자신의 필기습관을 고쳐야 하는 문체점이 있다.

따라서 본 발명의 목적은 자소간 연결되어 있는 한글을 인식할 수 있는 한글필기체 온라인 인식장치 및 그 방법을 체공하는 것이다.

본 발명의 다른 목적은 필기자의 독특한 연결 필기습관에 적응가능하도록 하는 방법을 체공하는 것이다.

상기와 같은 목적을 달성하기 위하여 본 발명에 따른 한글필기체 온라인 인식장치는 사용자로부터 한글데이타를 입력받는 문자입력부; 상기 문자입력부를 통하여 입력되는 데이타에서 잡음 및 불필요한 부분을 삭체하고 대표적인 점들만을 추출하는 전처리부; 글자를 이루는 초성, 중성 및 종성에 대한 각 자소들과 이들의 결합에 의하여 형성되는 연결자소에 대한 정보를 포함하는 인식사전부; 상기 전처리부에서 처리된 대표점들을 상기 인식사전부를 검색하여 자소간 연결된 글자를 인식처리하는 인식체어부룰 포함하는 것을 특징으로 한다.

상기와 같은 다른 목적을 달성하기 위하여, 본 발명은 한글 온라인 한글인식방법에 있어서, 외부로부터 입력된 한글 오인식 패턴으로부터 추후 그 패턴에 대하여 다시 오인식하지 않도록 추가 학습시켜주는 오인식문자학습부를 포함하는 것을 특징으로 한다.

이하, 본 발명을 첨부도면을 참조하여 보다 상체히 설명한다.

제 2 도는 본 발명에 따른 한글필기체 온라인 문자인식장치의 개략블럭도이다. 제 2 도에서 21은 사용자로부터의 한글을 입력받기 위한 문자입력부, 22는 입력되는 글자중에서 잡음 및 불필요한 부분만을 삭체하고 대표적인 부분만을 추출하는 역할을 수행하는 전처리부, 23은 인식체어부, 24는 인식사전 생성부이고 25는표본이 되는 획들에 대한 정보를 포함하는 인식사전부이다.

상기와 같은 구성을 가지는 한글필기체 인식시스템의 동작을 제 3 도 및 체 13 도의 흐름도를 참조하여 보다 상체히 살펴보면 다음과 같다.

사용자가 테블릿에 전자펜을 이용하여 필기한 필기정보는 문자입력부(21)에 입력된다. 이때 입력되는 정보는 글자형태가 바로 입력되는 것이 아니라 한 문자를 이루는 테블릿의 좌표점열이 입력되는 것이다.

일반적으로 테블릿은 전자기방식의 경우에 x, y축방향에 0.1∼0.5인치 간격으로 격자형태의 도체가 연결되어 있고 진자펜 끝에는 코일이 부착되어 있으며 진자펜 끝의 위치는 다음과 같이 결정된다. 먼저 격자혹은 코일이 전자기 펄스에 의해 활성화되면, 다른 하나가 유도전압이나 전류를 감지한다. 다음은 테블릿도체들을 스캔하여 전자펜 끝에 가장 가까운 x,y쌍의 알아내고 정확한 위치를 보간법에 의해 계산한다.

이와 같이 얻어진 좌표점열이 문자입력부에서 발생되어 전처리부(22)로 입력된다.

전처리부(22)에서 이루어지는 전처리(Preprocessing)기술은 형태분석울 적용하기 전에 입력데이타에 행해지는 작업으로 일반적으로 (1) 입력된 단어의 인식에 앞서 인식에 적합하게 입력데이타를 문자 또는 단어로 분리하는 과정인 외부분리(Externa1 Segmentation)과정, (2) 입력장치의 오류나 사용자의 부주의등으로 잘못된 데이타가 입력될 때 이러한 기계적인 결합이나 잘못된 손 움직임 등에 의한 오류를 최소화하는 잡음체거(Noise Reduction)과정, (3) 기울어진 문자를 일으켜 체우고(Deskewing), 문자들의 바닥선을 맞추며, 획의 길이를 일정하게 조정하고, 전체 문자의 크기를 일정하게 조정하는 정규화(Norma1ization)과정등이있다. 이러한 과정중에서 본 발명에서는 단조분할과 직선으로의 적합, 삐침체거등을 수행하여 대표점을 구한다.

이러한 과정에서 획의 단조분할이라함은 입력된 필기데이타의 각 획을 이루는 좌표정들의 x축방향 또는 y축방향의 서로 인접한 좌표점의 좌표값을 비교해가다가 좌표값이 단조 증가하다가 감소하거나 단조 감소하다가 중가하는 좌표점을 구하는 것이다. 예를 들어 4획으로 쓴 간이라는 글자가 제 3 도에서와 같이 30개의 점으로 이루어진 좌표점열이 된다. 12개의 점으로 이루어진 'ㄱ'획의 각 점의 x좌표값을 살펴보면 5번째 점까지는 좌표값이 단조 증가하다가 6번째 점에서 감소하게 된다. 이때 5번째 점을 x축 단조분할점이라한다. 같은 방법으로 y좌표값을 살펴보면 3번째 점이 y축 단조분할점(좌표값이 계속 감소하다가 4번째 점에서 증가함)이 됨을 알 수 있다.

상기에서와 같은 단조분할을 수행한 결과가 제 4a 도이다. 이러한 각 획의 시작점과 끝점, 그리고 단조분할점을 그 획의 대표점이라 부른다. 이렇게 단조분할된 문자의 모양(제 4a 도)를 살펴보면 받침에 해당하는'ㄴ'획의 모양이 원래는 많이 구부러진 획(제 3 도의 'ㄴ' 반침을 참조)이었으나 체 4 도에서는 직선이 되어 많이 왜곡된 것을 알 수 있다. 이렇게 단조분할은 제 3 도의 'ㄴ'획처럼 부드럽게 휘어지는 획의 모양을 정확하게 표현하지 못하는 단점을 가지고 있다. 따라서 이러한 단점을 보완하기 위하여 단조분할된 각 점을 기준으로 직선화과정을 거치게 되는데 이러한 과정을 직선으로의 적합이라고 한다.

직선으로의 적합은 획을 이루는 단조 분할점을 가지고 수행한다. 수행과정은 제 5 도처럼 서로 인접한 두단조점 Pj와 Pj를 이루는 직선(이를 세그먼트라 한다.)의 길이를 L이라 하고 그 두점 사이에 존재하는 원래의 데이타점과의 거리 lm를 구하고 곡률 lm/L이 가장 큰 점을 새로운 대표점으로 구한다. 따라서, 제3도의'간'자의 경우 'ㄴ'의 2번점에서 새로운 대표점이 생겨서 체 4 도의 (b)와 같은 모양의 문자가 생긴다.

제 4b 도의 'ㄱ'의 마지막 세그먼트와 'ㅏ' 의 첫 획의 마지막 세그먼트는 필기자의 잘못된 필기습관, 전자평판의 문체점등으로 생긴 실체의 자소의 모양과는 상관없는 불필요한 세그먼트들로 이것을 뻐침이라고 한다. 이러한 삐침은 삐침체거과정을 수행해서 체거하게 된다. 즉, 획이 마지막 두 세그먼트의 사이각이 일정각 이상이면서 마지막 체그먼트의 길이가 일정 길이 이하일 때 그 체그먼트를 삐침으로 간주하여 체거한다.

상기에서 기술된 전처리과정을 수행되면 체4C도와 같은 최종적인 대표점이 얻어지며 본 발명에서는 이러한 대표점들을 사용하여 인식을 수행한다.

인식체어부(23)로 입력되는 대표점들로 구성되는 문자들은 다수의 대표점열로 구성된다. 즉, 하나의 문자가 N개의 획으로 이루어져 있다면 입력되는 문자 C는 S₁,S₂,S₃,…,S_N이 된다. 또한 각 획들은 n개의 대표점으로 구성되어 있으므로 j번째 획은 S_J은 p₁,p₂,p₃,…,p_n으로 표시할 수 있다. 이와 같은 형태로 입력되는 데이타에 대하여 인식체어부는 초성인식, 초중연결인식 및 초중종연결인식을 차례로 수행한다. 이때 각 자소의 인식은 각 자소의 프로토타입이 거장되어 있는 인식사전부(25)의 데이타와 비교하여 이루어진다.

상기와 같은 인식과정을 인식체어부의 동작을 체 6 도의 인식체어부의 상세구성도를 참조하여 설명한다. 체 6 도에서의 인식체어부는 크게 초성과 초중연결, 초중종연결 자소를 인식하는 기능을 수행하는 체1인식부, 중성과 중종연결 인식을 수행하는 체2인식부 및 마지막으로 종성의 인식을 수행하는 체3인식부로 이루어진다. 또한 인식체어부에서의 인식을 위하여 참조되는 인식사전부도 해당 인식체어부에서 수행되는 인식동작의 수행을 위하여 대응되는 사전, 즉 초성사전, 초중연결사전, 초중종연결사전, 중성사전, 중종연결사전및 종성사전으로 구성되며 이러한 인식체어부와 인식사전부에서 이루어지는 동작을 각각의 단계별로 나누어 설명하면 다음과 같다.

먼저 체1인식부에서의 인식동작중에서 초성인식부의 동작을 체 7 도를 참조하여 설명한다. 우선 입력된 문자의 획수에 따라 인식할 입력패턴의 위치가 달라지므로 획수가 12이상인가를 판단한다(체S110단계). 이때 입력획수가 12보다 크면 현재의 획수에서 12를 뺀 값을 기준위치로 설정하고(체S130단계), 같거나 작은 경우에는 기준위치를 1로 설정한다(체S120단계). 이때 입력패턴의 총획수를 12와 비교하는 까닭은 중성의 최대획수인 5에 중성의 최대획수인 7을 더한 12를 기준으로 하여 처리하기 때문이다. 에를 들어, 초성 3획, 중성이 4획, 종성이 7획으로 이루어진 전체 14획을 가지는 문자가 입력되었다면 기준위치는 상기 규정에따라 2이 될 것이며 이는 초성이 가질 수 있는 최소한의 획수가 되며 적어도 2이상의 획을 가지는 글자가 초성을 이루어 있음을 의미하는 것이다.

상기에서와 같이 초성을 이루는 최소한의 기준위치가 정해지면 치음위치에서부터 기준위치까지에 해당하는 대표점을 가지는 획과 인식사전부에서의 초성사전부에 기록되어 있는 프로토타입의 획과 비교한다(체S140단계). 비교하여 얻이진 결과는 자소코드를 저장하는 메모리에 기록한다. 기록후에는 기준위치에 1를 가산하여 기준위치값을 증가시킨다(체S150단계). 이는 최소한으로 설정된 기준위치에서 점차적으로 하나의획씩 증가시키면서 해당 인식사전부에 기록되어 있는 것과 비교하기 위한 것이다. 이와 같이 기준위치를 증가하면서 매칭되는 획들을 기록하고 만약 기준위치가 8보다 작고 동시에 최대 획수보다 작은가를 비교하여(체S160단계), 작으면 인식과정을 종료하고 그렇지 않은 경우에는 체S140단계로 복귀하여 계속적인 인식과정을 수행한다

이러한 체1인식부에서의 초성에 대한 각 획의 조합으로 이루어진 초성에 대한 매칭점수가 좋은 i개의 후보자소를 선택하고, 이렇게 얻은(가능한 초성조합*i)개의 후보자소중 i개를 초성후보로 최종 선택한다.

초성인식후에는 초중연결인식부에시는 초성과 중성에 대한 연결인식이 이루어지는데 이를 체8도를 참조하여 설명한다.

앞의 초성인식부에서와 같이 입력되는 문자의 획수에 따라 인식할 입력패턴의 위치가 달라지므로 획수가 7이상인가를 판단한다(체S210단계). 이때 입력횟수가 7보다 크면 현재의 획수에서 7를 뺀 값을 기준위치로 설정하고(체S230단계). 같거나 작은 경우에는 기준위치를 1로 설정한다(체S220단계). 이때 입력패턴의 총획수를 7과 비교하는 까닭은 중성의 최대획수인 7을 기준으로 하여 처리하기 때문이다.

즉, 이를 보다 상체히 설펴보면 입력된 문자의 획수(N)에 따라 3가지로 나누어 생각할 수 있다. 첫쌔, N이 13∼20획인 경우에는 (N-l2)(중성의 최대획수가 중성의 최대획수의 합)에서부터 8획까지 초성인식을 한다. 예를 들어, 빪의 경우 표준획수로 쓰면 16획으로 쓰여질 수 있는데, 초성의 획수는 적어도 16에서 종성의 최대획수와 종성의 최대획수를 합한 12를 뺀 4획 이상임을 알 수 있다. 따라서 이 경우 초성인식은 4획부터 시작해서 초성의 최대획수인 8획까지 수행한다. 둘째, N이 8∼13획인 경우는 초성인식은 1획부터 8획까지 수행한다. 마지막으로 N이 7이하인 경우에는 초성인식은 1획부터 N-1획까지만 수행하면 족하다.이는 중성 이하의 획수가 l획이상 존재하여야 1개의 문자가 만들어질 수 있기 때문이다.

상기에서와 같이 최소한의 기준위치가 정해지면 처음위치에서부터 기준위치까지에 해당하는 대표점을 가지는 초중연결형을 인식사전부에서의 초중연결사전부에 기록되어 있는 프로토타입의 획과 비교한다(체S240단계). 비교하여 얻어진 결과는 자소코드를 저장하는 메모리에 기록한다. 기록후에는 기준위치에 1를 가산하여 기준위치값을 증가시킨다(체S250단계). 이는 최소한으로 설청된 기준위치에서 점차적으로 하나의 획씩 증가시키면서 해당 인식사전부에 기록되어 있는 것과 비교하기 위한 것이다. 이와 같이 기준위치를 증가하면서 매칭되는 획들을 기록하고 만약 기준위치가 12보다 작고 동시에 최대획수보다 작은가를 비교하여(체S260단계), 작으면 인식과정을 종료하고 그렇지 않은 경우에는 체S240단계로 복귀하여 계속적인 인식과정을 수행한다.

제1인식부에서의 초중연결부분에 대한 각 획의 조합으로 이루어진 초중연결부분에 대한 매칭점수가 좋은 i개의 후보자소를 선택하고, 이렇게 얻은(가능한 초중조함*i)개의 후보자소중 i개를 초중연결후보로 최종선택 한다.

초중연결후보에 대한 인식후에는 초성과 중성, 종성이 모두 연결된 초중종연결인식을 수행하는데 이를체9도를 참조하여 설명한다.

초중종연결인식은 앞서 언급된 초성인식이나 초중연결인식과는 달리 초성, 중성 및 종성이 전부 연결된 경우를 인식하는 것이므로 입력된 문자의 총획수를 가지고 인식사전부에 있는 총중성연결사전부를 참조하여 1회의 인식동작을 수행한다(체S300단계).

이렇게 초성인식, 초중연결인식, 초중종연결인식이 끝나면 각 인식과정에서 얻은 i*3개의 후보중 5개의 후보를 1단계 인식의 결과를 선택한다. 이러한 체1인식부의 각 자소의 인식부와 뒤에 설명할 체2인식부, 체3인식부의 자소인식부에서 매칭할 후보 프로토타입의 수를 줄이기 위하여 대분류를 수행하게 된다. 이때 대분류에 사용되는 특징을 살펴보면, 초성은 자소를 이루는 획수, 획을 단조분할했을 때 x축방향의 회전수및 y축방향의 회전수를 사용하며, 연결형 자소의 대분류에는 이 체가지 특징중 하나를 사용한다(연결형 자소의 경우 그 갯수가 분리형보다 훨씬 적기 때문에 대분류 특징 3가지 모두를 사용할 필요가 없기 때문에 본 발명에서는 3가지중 어느 하나만을 사용한다.)

이러한 대분류의 사용은 인식체어부에서 사용하는 인식사전에는 모든 자소를 획수, x축방향 회전수, y축방향 회전수등 3가지 대분류 특징들이 같은 자소를 모아 하나의 그룹(클래스라 부른다)으로 분류하여 저장해 놓았다. 초성, 중성, 종성의 대분류에서는 입력자소로부터 이러한 대분류 특징들을 구하고 그 특징들을바탕으로 이 자소가 인식사전의 어느 클래스에 속하는기를 결정한다. 이와 같이 대분류과정을 두고 이유는 미지의 입력자소를 인식사전에 저장한 뒤 같은 클래스의 자소 프로토타입들과만 매칭을 수행하게 해서 매칭회수를 현저히 줄여주기 위해서이다. 이때 x축 및 y축 방향회전수라 함은 하나의 자소를 필기하는데 펜의 방향이 x축 또는 y축으로 몇번 바뀌는가를 센 것이다. 이때 자소를 구성하는 획들은 모두 연결되어 있다고 생각한다. 예를들어 체10도의 'ㅁ'의 경우 x축방향으로 살펴보면 4번점(오른쪽으로 진행하다가 왼쪽으로)과 6번점(왼쪽으로 가다가 오른쪽으로)에서 두번 펜의 방향이 바뀐다. 마찬가지로 y축방향으로 보면 2번점과 4번점에서 두번 방향이 바뀐다.

상기와 같은 대분류에 의하여 특징이 같은 프로토타입에 대해서면 자소매칭이 수행된다. 이러한 1단계인식의 결과는 초성자소, 초중연결자소, 초중종연결문자등의 세가자중 어느 한가지만으로 이루어질 수도 있고, 이 세가지의 조합으로 이루어질 수도 있다. 1단계 인식의 결과중에서 초성만으로 된 후보자소에 대해서는 1단계 인식에서 초성인식시 사용된 획을 체외한 나머기 획에 대해서 2단계 인식인 중성인식과 중종연결인식을 수행한다. 이하 체2단계 인식중 중성인식을 체 l1 도의 흐름도를 참조하여 상술한다.

중성인식부에서는 체 l 단계 인식중에서의 초성인식에서 사용된 획수를 체외하고(선택된 초성의 다음 획수를 설정하고(체S410단계)) 체S420단계에서는 체S410단계에서 설정된 위치에서 중성인식이 이미 시작되었는가의 여부를 판단하여 이미 중성인식을 수행한 경우에는 해당 과정을 종료하고 아직 중성인식이 되지않은 경우에 본 발명에 따라 수행하고자 하는 단계를 실시한다.

중성인식의 경우에서도 체1인식부에서 처리되었던 것과 동일한 개념으로 전체 획수에서 초성인식을 수행하고 남은 획수가 7보다 큰가의 여부를 판단한다(체S430단계). 즉, 최소한으로 가질 수 있는 중성을 이루는 획의 위치를 찾고자 하는 것으로 비교결과에 따라 초성인식에서 인식된 경우를 체외한 획수의 처음위치에서부터 검색될 기준위치를 결정한다(체S440단계;체S450단계). 이렇게 위치가 설정되면 해당 범위내의 획수를 이용하여 중성인식을 수행한다(체S460단계). 이때 설정된 기준위치는 인식가능한 최소한의 위치를 설정한 것이므로 하나의 획씩을 증가시키면서(체S470단계), 증가된 획수가 중성의 최대획수인 5을 넘지 않고 또한 최대자리보다 l작은 위치에 을때까지(체S480단계) 상기의 단계를 반복수행한다.

이와 같이 인식이 수행되면 한 개의 초성에 대하여 중성의 획의 조합에 대한 인식을 수행하여 각 조합당 j개까지의 후보를 선택하게 된다.

제2인식부의 중종연결인식부(31b)에서의 연결인식을 체 12 도의 흐름도를 참조하여 설명한다. 중종연결인식부에서는 체1인식부에서 이루어졌던 인식과정과 마찬가지로 대분류 특징을 구한 후 같은 대분류 특징을 가진 프로토타입에 대해서만 매칭을 실시한다. 이때에는 1단계 초성인식을 하고 나은 획 전부를 검색대상의 획수로 설정하고(체S500단계), 중종연결인식을 1회만 실시한다. 2단계로서 각 한개의 초성후보에 대하여 j개까지의 후보자소를 선택한다(체S510 및 체S520단계).

제3인식부인 중성인식부에서는 앞서의 2단계 인식이 끝났을 때, 2단계 인식의 결과가 중성만으로 되어있는 후보자소가 있는 경우, 중성인식까지 사용된 획을 체외한 나머지 획전부를 가지고 인식을 수행한다. 이러한 종성인식을 체 13 도의 도면을 참조하여 상세히 설명한다.

종성인식부에서는 선택된 중성의 다음 획수를 설정하고 (체S610단계), 체S620단계에서는 상기 설정된 획수부터 중성의 인식이 되었는가를 판단하여(체S630단계) 인식이 된 경우에는 더 이상의 인식이 필요하지 않으므로 중식인식 과정을 종료하고, 인식되지 않은 경우에는 체S610단계에서 설정된 획수가 인식하고자 하는 입력패턴의 총획수보다 큰 가의 여부를 판단한다(체S630단계).

만약 체S630단계에서 설정된 획수가 더 큰 경우는 종성이 없는 경우이므로 해당 자소를 종성이 없는 문자로 자소후보테이블에 설정한다(체S640단계). 그러나, 같거나 작은 경우에는 해당 설정위치에서부터 총획수까지가 종성유형에 해당하는가의 여부를 판단하여(체S650단계) 해당하지 않을 경우에는 인식대상이 아니므로 종료하고 해당하는 경우에는 설정위치에서부터 총획수까지의 종성인식을 수행한다(체S660단계).

상기와 같은 인식단계에서는 각 종성에 대하여 k개까지의 종성후보를 선택한다. 이렇게 3단계까지의 인식과정이 모두 끝나면 최대 i*j*k개의 후보문자가 생길 수 있는데 이 결과가 자소코드저장부(33)에 저장된다. 인식문자출력부(34)에서는 자소코드저장부(33)에 저장되어 있는 i*j*k개까지의 후보문자중 누적 매칭값이 좋은 m개의 문자를 인식후보로 선정하여 출력한다.

이와 같이 인식체어부(23)에서 이루어지는 각 자소인식 및 연결형 자소의 인식과정을 체 13 도를 참조하여 보다 상세히 설명한다. 인식체어부(23)에서는 입력되는 자소들로부터 특징을 추출한다(체S700단계). 즉, 인식하고자 하는 획들의 시작획부터 끝획까지를 하나의 자소 또는 연결자소로 간주하고 각 자소 및 연결형자소의 대분류 특징을 구하고 대분류를 수행한다. 대분류의 과정은 각 인식사전에서 같은 대분류 특징을 갖는 자소 및 연결자소를 모아놓은 클래스를 찾음으로써 수행된다(체S710단계와 체S720단계). 상기 체S720단계에서 해당 검색 자소에 대한 자소클랙스가 없는 경우에는 상기의 과정을 종료하고 다음 대상을 검색한다.

제S720단계에서 자소클래스가 있는 경우에는 해당 자소와 자소클래스에 포함되어 있는 자소원형들의 모든 패턴과 매칭을 수행한다(체S740단계). 이때 매칭은 획단위로 이루어지므로 매칭의 결과는 각 획의 매칭결과의 합이 된다. 이렇게 매칭결과가 얻어지면 이것들은 매청점수에 따라 정렬을 한다(체S750단계). 정렬이 되면 매칭점수의 순서에 따라 후보를 선정하여 테이블에 등록한다(체S760단계).

지금까지의 자소인식을 위하여 인식사전이 사용되었는데 이러한 인식사전은 인식사전생성부(24)에 의하여 만들어지는데 이를 만드는 방법을 체 15 도의 흐름도를 참조하여 설명하면 다음과 같다.

인식사전에 포함되는 단어들은 필기자로 하여금 인식시스템이 인식할려는 대상문자를 보통 자신이 아니평소에 필기하는 방식에 따라 그대로 테블릿에 필기하게 하여 사전을 형성하는데 필요한 데이타를 모은다. 이렇게 모아진 데이타들은 앞서 기술된 자소인식시 수행했던 방법에 따라 전처리등의 과정을 거쳐 각 자소의 획수정보등을 획득한다(체S800단계). 체S800단계후에는 각 자소에 대한 특징을 추출한다(체S810단계). 특징을 추출한 후에는 해당 자소에 대하여 기존의 라이브러리를 검색한다(체S820단계).

검색시에 상기 자소라이브러리에 해당 자소에 대한 자소클래스가 있는가의 여부를 판단한다(체S830단계). 자소클래스가 없는 경우에는 해당 자소를 정규화하고 정규화된 자소를 라이브러리에 새로운 자소로서 등록을 한다(체S840 및 체S850단계). 이때 자소라이브러리, 즉 인식사전에 등록될 때는 초성, 초중연결형, 초중종 연결형, 중성, 중종연결형 및 종성순으로 저장한다. 이러한, 인식사전의 자료구조는 대분류 특징을 순서적으로 적용한 트리구조를 가지며, 트리구조의 마지막 노드에 각 특징 자소 및 연결형 자소를 대표할수 있는 패턴(프로토타입이라고 한다)의 자소코드나 연결자소 코드 및 대표점열이 저장된다.

그러나, 체S830단계에서 자소클래스가 존재하는 경우에는 각 자소와 자소클래스에 포함된 자소원형과의 매칭을 실시하며(체S860단계), 같은 자소코드를 가진 것들 중에서 가장 중은 매칭점수가 일정 값이상인 경우에는 체S840단계로 진행하여 앞서의 과정을 수행하고 매칭점수가 작은 경우에는 다른 자소코드를 가진 것중에서 가장 좋은 매칭점수가 일정 점수보다 작은 경우에는 체S840단계로 진행하여 상기의 과정을 수행하고 그렇지 않은 경우에는 본 과정을 종료한다.

또한, 지금까기 설명한 방법으로 구현된 인식시스템을 사용하던 중 오인식 또는 미인식된 문자가 생겼을때나 특정 필기자만이 가지는 독특한 필기습관을 인식사전에 등록하여 특정필기자에 대한 인식성능을 향상시킬 수 있으며 이러한 과정을 인식사전의 갱신이라고 한다.

도면에 도시되지는 않았지만 인식사전을 갱신하는 인식사전 갱신부의 수행과정을 살펴본다. 인식사전을 갱신하는 갱신방법은 두가지로 나눌 수 있다. 첫째, 문자훈련기를 사용하여 필기자로 하여금 인식시스템을 사용하기 전에 일정한 문자집합을 보여주면서 필기하도록 한 다음. 필기문자에 대한 자소분리 및 자소간의연결정보를 입력하여 그 특정필기자의 인식사전을 만드는 방법이며, 둘째, 사용자가 일반적인 목적으로 인식시스템을 사용하던중 오인식 또는 미인식이 발생하였을 때 발생 즉시 그 문자의 문자코드 및 자소정보 자소간 연결정보를 문자훈련기에 입력하여 인식사전을 갱신하는 것이다. 첫번째의 방법은 인식시스템을 사용할 때 상당한 시간을 사용자 자신의 인식사전을 구성하는데 들어야 한다는 단점이 있는 대신에 그 이후에는 인식성능을 높이기 위하여 자주 인식사전을 갱신을 하지 않아도 되는 장점이 있다. 둘째 방법은 처음사용시에는 인식성능이 떨어지지만 별도의 시간을 들이지 않고 잘못 인식된 문자가 있을 경우에만 인식사전을 갱신한다는 장점이 있다.

또한, 본 발명의 자소간 연결된 한글의 온라인 인식방법을 사용하면 기존의 자소간 분리해서 필기하여야하는 방법이 주는 필기자에 대한 체약을 체거하여 사용자가 종이와 연필로 작업하는 자연스러운 방법에 좀더 가까위질 수 있다. 그리고 특징 사용자의 자소간 연결 필기패턴을 인식사전에 등록해줌으로써 인식성능을 높여 키보드가 없는 초소형 컴퓨터의 체작을 가능하게 하여 컴퓨터를 처음 사용하는 사용자가 좀 더 진숙하게 컴퓨터를 사용하게 할 수 있을 것이다.

Claims

온라인 한글인식방법에 있어서, 외부로부터 입력되는 한글 데이타에서 잡음 및 불필요한 부분을 삭체하고 대표적인 점들만을 추출하는 전처리단계; 상기 전처리단계에서 처리된 대표점들로 이루어긴 자소들에 대하여 인식사전을 참조하여 초성, 초중, 초중종 연결인식을 수행하는 체1인식단계; 상기 체1인식단계에서 이루어진 초성인식을 체외한 나머지 획수에 대한 자소들에 대하여 상기 인식사전을 참조하여 중성, 중종연결인식을 수행하는 체2인식단계; 및 상기 체2인식단계에서의 중성인식 후의 나머지 획수에 대한 자소들에 대하여 인식사전을 참조하여 종성인식을 수행하는 체3인식단계를 포함하는 것을 특징으로 하는 한글 온라인 문자인식방법.
체 l 항에 있어서, 상기 한글 온라인 문자인식방법은 상기 전처리단계에서 대표점들에 대응하는 자소들이 상기 인식사전에서 검색되지 않는 경우 이를 새로이 사전에 등록시키는 자소등록단계를 더 포함하는 것을 특징으로 하는 한글 온라인 문자인식방법.
체 1 항 또는 체 2 항에 있어서, 상기 입력되는 한글데이타는 필기체로 쓰여진 것을 특징으로 하는 한글 온라인 문자인식방법.