KR970000276B1

KR970000276B1 - 필기체 문자인식방법

Info

Publication number: KR970000276B1
Application number: KR1019920003355A
Authority: KR
Inventors: 강재우; 도정인
Original assignee: 삼성전자 주식회사; 김광호
Priority date: 1992-02-29
Filing date: 1992-02-29
Publication date: 1997-01-08
Also published as: KR930018417A

Abstract

내용 없음.

Description

필기체 문자인식방법

제1도는 본 발명의 전체처리과정을 개략적으로 설명하기 위한 흐름도.

제2도는 본 발명을 실현하기 위한 시스템의 구성을 개략적으로 나타낸 블럭도.

제3a도 및 제3b도는 태블릿에 전자펜으로 쓴 문자의 입력패턴과 입력된 좌표점열의 예를 나타낸 도면.

제4도는 특징추출시 각 자소의 x,y축 방향회전패턴 및 방향회전수의 예를 나타낸 도면.

제5a도 및 제5b도는 중성의 유형분류를 위한 검사영역과 중성의 유형분류시 사용되는 조건을 설명하기 위한 도면.

제6도는 문자인식과정을 설명하기 위한 흐름도.

제7도는 초성의 자소분리 및 자소인식과정을 설명하기 위한 흐름도.

제8도는 중성의 자소분리 및 자소인식과정을 설명하기 위한 흐름도.

제9도는 종성의 자소분리 및 자소인식과정을 설명하기 위한 흐름도.

제10도는 자소매칭과정을 설명하기 위한 흐름도.

제11도는 미인식 또는 오인식문자의 훈련과정을 설명하기 위한 흐름도.

제12도는 훈련을 위해 필기된 문자데이타를 예를들어 나타낸 도면.

제13도는 본 발명의 적용에 따른 인식률 실험결과를 나타낸 도면.

본 발명은 태블릿(tablet)으로부터 입력된 문자의 동적인 정보를 이용하는 온라인 필기체 문자인식방법에 관한 것으로, 특히 가능성이 높은 자소분리점에 대해서만 자소인식을 하여 인식률을 저하시키지 않고 인식시간을 단축하고 인식시스템이 필기자의 필기스타일에 적용가능하도록 하는 방법에 대한 것이다.

입력된 미지의 문자를 인식하기 위한 종래 기술은 입력된 미지의 문자크기를 미리 정규화하여 자소분리가 없이 문자단위로 인식하는 방법과, 미리 자소분리를 하고 그 다음에 인식을 하는 방법과, 모든 가능한 자소분리점에 대하여 자소인식을 시도하여 모든 가능한 인식결과조합 중에서 하나를 선택하는 방법이 있다.

따라서, 종래의 기술에는 다음과 같은 문제가 있다.

(1) 문자단위로 인식을 하는 경우는 많은 메모리가 필요하고 인식시간이 오래 걸린다.

(2) 미리 자소분리를 하고 인식하는 경우는 자소분리에 실패하여, 문자인식이 실패할 확률이 높아 인식률이 떨어진다.

(3) 모든 가능한 자소분리점에 대하여 자소인식을 할 경우는 인식시간이 많이 걸리는 단점이 있다.

따라서, 본 발명의 목적은 자소분리식 모든 가능한 자소분리점에 대하여 자소인식을 하지 않고, 가능성이 높은 자소분리점에 대해서만 자소인식을 함으로써, 인식률을 저하시키지 않고 인식시간을 단축시키는 필기체 문자인식방법을 제공하는 것이다.

상기 목적을 달성하고자 본 발명의 방법은 태블릿으로부터 입력된 문자의 동적인 정보를 이용하여 필기체 문자를 인식하는 방법에 있어서, 사용자의 필기 특성에 따른 자소인식 라이브러리를 준비하는 단계 ; 태블릿으로부터 입력된 문자패턴을 구성하는 복수의 획들에 해당하는 각 좌표점열들을 획입력순서에 따라 구하는 입력단계 ; 구해진 각 좌표점열들중 각 획의 특징정보를 가지는 대표점들만을 남기고 나머지 불필요한 좌표점들을 제거하는 전처리단계 ; 전처리단계의 결과를 이용하여 현재의 획부터 시작하여 다음 자소의 가능성이 높은 자소분리점을 찾는 자소분리단계; 자소분리된 일련의 획들에 대한 특징을 추출하는 대분류단계; 추출된 특징에 따라 준비된 자소인식 라이브러리를 참조하여 자소매칭을 수행하여 유사도가 높은 후보자소들을 찾는 자소인식단계; 찾아진 후보자소를 이루는 마지막 획의 다음 획부터 시작하여 자소분리단계와 대분류단게와 자소인식단계를 다음 자소에 대해 반복수행하는 방식으로 각 자소들에 대한 유사도가 높은 후보 자소들의 테이블을 작성하는 단계 ; 각 자소들에 대한 후보 자소 테이블들을 참조하여 인식하고자 하는 문자를 이루는 후보자소들의 조합들 중 가장 유사도가 높은 후보자소들의 조합을 인식문자로 결정하는 문자인식단계를 구비한 것을 특징으로 한다.

상기 자소인식 라이브러리를 준비하는 단계는 상기 태블릿으로부터 입력된 문자패턴을 구성하는 복수의 획들에 해당하는 각 좌표점열들을 획입력순서에 따라 구하고 상기 입력된 문자에 대응하는 문자코드를 입력하고 상기 구해진 각 좌표점열들중 각 획의 특징정보를 가지는 대표점들만을 남기고 나머지 불필요한 좌표점들을 제거하고, 전처리단계의 결과를 이용하여 현재의 획부터 시작하여 다음 자소의 가능성이 높은 자소분리점을 찾고, 상기 자소분리된 일련의 획들에 대한 특징을 추출하여 대분류하며, 특징추출된 자소의 마지막 획의 다음 획부터 시작하여 다음 자소에 대한 상기 자소분리단계와 대분류단계를 반북수행하는 방식으로 각 자소들의 자소 프로토타입을 대분류하여 라이브러리를 생성하는 단계를 구비한다.

또한, 본 방법은 상기 문자인식결과 오인식 또는 미인식의 경우에는 입력된 미지문자에 대해서 상기 라이브러리생성단계를 수행하여 자소인식 라이브러리를 갱신하는 단계를 더 구비한다.

상기 전처리단계는 각 획의 시작점과 끝점까지의 좌표점열의 횡방향 및 종방향 단조증가 또는 단조감소의 방향이 바뀌는 변곡점을 찾는 단조분할단계 ; 상기 단조분할의 결과로부터 각 단조곡선의 곡률이 특정값보다 큰 경우에는 곡률이 가장 큰 점을 대표점으로 추출하여 단조곡선을 두 개의 직선으로 적합시키는 직선적합단계 ; 상기 직선적합단게의 결과로부터 방향코드에 의해 삐침을 제거하는 삐침제거단계를 포함한다.

상기 자소분리단계는 제1자소(한글의 초성)의 분리는 인식하고자 하는 입력문자패턴의 총획수가 제1소정 획수(6)보다 크지 않으면 제1자소로 가능한 자소는 제1획부터 시작하고 상기 제1소정 획수보다 크면 상기 총획수에서 제2소정 획수(5)를 감산한 획수부터 시작하여 총 획수가 제3소정 획수(8)이면 제1자소는 제3소정 획수까지이고 그렇치 않으면 총획수에서 1을 감산한 획수까지이며, 제2자소(한글의 중성)의 분리는 인식하고자 하는 입력문자패턴의 총획수에서 상기 제1자소의 후보자소의 다음 획수를 감산한 획수가 제4소정 획수(7)보다 크지 않으면 제1자소로 가능한 후보자소의 다음 획부터 시작하고 상기 제1자소의 후보자소의 다음 획수를 감산한 획수가 크면 상기 제1소정획수를 감산한 획수에서 상기 제3소정 획수를 감산한 획수에서부터 시작하여 총 획수보다 작거나 같고 상기 제2자소의 시작획에서 제2소정 획수를 넘지않은 획까지이며, 상기 제2자소로 선택된 후보자소의 다음 획이 상기 총획수를 넘으면 다음의 제3자소(한글의 종성)가 없는 것으로 하며 그렇치 않으면 상기 제2자소로 선택된 후보자소의 다음 획에서부터 마지막 획가지를 자소분리점이 사이에 없는 하나의 제3자소로 분리한다.

상기 대분류단계는 상기 제1 및 제3자소의 경우에는 자소의 획수, 자소의 횡방향회전수와 종방향회전수를 특징으로 추출하고, 상기 제2자소의 경우에는 자소의 획수와 상기 제1자소와의 상대적 위치에 의해 결정되는 자소의 유형과 횡방향회전수를 특징으로 추출한다.

상기 자소인식단계는 특정추출에 의한 대분류에 따라 상기 자소인식 라이브러리를 참조하여 동일 분류가 있는지를 검색하는 단계 ; 검색된 동일 분류의 모든 자소 프로토타입과 특징추출된 자소와의 매칭을 실시하는 단계 ; 상기 모든 자소 프로토타입에 대한 매칭결과의 유사도점수를 낮은 순서로부터 차례로 정열하는 단계 ; 상기 정열된 유사도점수가 가장 낮은 순서로부터 몇 개의 후보자소를 선정하는 단계를 구비한다.

상기 매칭은 자소를 이루는 각 획들마다 실행하고 그 결과로부터 자소를 이루는 모든 획들의 각 유사도점수의 총합을 자소에 대한 유사도점수로 산출한다.

또한, 본 발명의 방법에서는 인식률을 높이기 위해 상기 인식문자뿐만 아니라 유사도가 높은 순서대로 몇 개의 후보문자들을 함께 결정할 수도 있다.

상기 몇개의 후보자소를 선정하는 단계에 있어서 한글 완성형만을 인식결과로 하는 경우에는 한글 완성형 트라이그램을 이용하여 가능성이 없는 상기 후보자소들을 버리는 단계를 포함한다.

이제부터 첨부된 도면을 참조하여 본 발명에 대하여 상세히 기술한다.

제1도는 본 발명에 따른 흐름도로서, 인식시 참조할 수 있는 문자들에 정보를 만드는 제1과정(자소인식 라이브러리(library) 생성과정)과, 자소인식 라이브러리를 참조하여 미지입력문자의 패턴을 인식하는 제2과정(문자인식과정)과, 제2과정에서 오인식 또는 미인식된 문자에 대한 정보를 자소인식 라이브러리에 갱신하는 제3과정(자소인식 라이브러리 갱신과정)으로 이루어진다.

제3과정은 제2과정 후에 제1과정을 수행한다.

제1과정과 제3과정은 특정 필기자에 대한 훈련과정이다. 자소인식 라이브러리를 생성하는 과정(제1과정)은, 필기된 패턴(pattern)의 좌표점열과 그 패턴이 무슨 문자인가를 알려주는 문자코드와 각 자소패턴의 획수에 대한 정보를 입력받는 단게와, 입력된 패턴의 좌표점열로부터 불필요한 좌표점들을 제거하는 전처리 단계와, 각 자소패턴별로 특징을 추출하여 대분류하는 단계와, 각 자소패턴을 정규화하고 추출된 특징에 따라서 자소인식 라이브러리에 저장하는 단계로 이루어진다.

본 발명의 문자인식방법은 자소단위로 인식하는 방법을 택하고 있으며, 자소인식시 자소인식 라이브러리의 자소 프로토타입(prototype)들과 미지의 입력패턴의 잠재적인 자소분리점으로 분리된 획들과 매칭하여 매칭점수가 좋은 자소 프로토타입의 코드를 자소인식결과로 한다.

따라서 입력된 문자는 자소내에서는 흘러 쓸 수 있으나 자소간에는 반드시 끊어 써야 한다는 필기제약조건을 가지고 있다.

즉 한획이 두 개의 다른 자소의 일부분이 될 수 없다는 것이다.

자소인식 라이브러리를 참조하여 미지의 입력문자패턴을 인식하는 과정(제2과정)은, 태블릿으로부터 인식할 문자패터의 좌표점열을 입력받는 단계와, 입력된 문자패터의 좌표점열로부터 불필요한 좌표점들을 제거하는 전처리단계와, 자소분리와 자소인식을 하면서 후보자소를 찾는 문자인식단계와, 후보자소들로부터 인식결과 및 후보문자를 결정하는 단계로 이루어져 있다.

제2과정의 문자인식단계는 현재의 획부터 시작하여 다음 자소의 모든가능한 자소분리점을 찾는 자소분리단계와, 자소분리된 일련의 획들에 대해 특징을 추출하는 단계와, 자소분리된 일련의 획들을 정규화하는 단계와, 추출된 특징에 따라서 자소인식 라이브러리를 검색하여 매칭할 자소인식 라이브러리에서 선정된 자소프로토타입들과 매칭을 하는 자소인식단계와, 매칭된 자소 프로토타입들의 매칭점수를 정렬하여 후보자들을 선정하는 단계와, 후보자소들로부터 문자인식결과 및 후보문자를 선정하는 단계로 이루어진다.

자소인식 라이브러리를 갱신하는 과정(제3과정)은, 제2과정에 의해 미인식 또는 오인식된 패턴에 대해 제1과정을 수행함으로써 이루어진다.

이때, 제1과정의 문자데이타 입력단계에서 미인식 또는 오인식패턴의 문자코드와 각 자소의 획수를 입력 받는다. 제2도는 본 발명을 적용시킨 한글필기체 문자인식장치의 시스템 구성도로서, 문자데이타 입력부(10), 전처리부(20), 자소분리부(30), 대분류부(40), 자소인식 라이브러리 생성부(50), 자소인식부(60), 인식결과 출력부(70) 및 초성, 중성 및 종성 후보자소들을 저장하기 위한 후보자소 테이블(80)로 구성된다.

각 부분에 대한 설명은 다음과 같다.

문자데이타 입력부(10)는 제1과정의 경우, 문자패턴의 좌표점열과 입력된 패턴의 문자코드와 문자패턴을 이루는 각 자소의 획수를 입력받고, 제2과정의 경우는 문자패턴의 좌표점열과 문자패턴을 이루는 회수만을 입력받으며, 제3과정의 경우는 제2과정후에 문자패턴의 문자코드와 문자패턴을 이루는 각 자소의 획수를 입력받는다.

태블릿으로부터 입력되는 일련의 순서화된 좌표점들이 한 문자의 패턴을 이룬다.

한 문자의 패턴은 획들로 이루어지고, 한 획은 전자펜이 태블릿의 표면에 접촉된 순간부터 태블릿의 표면에서 떨어질때까지 입력된 일련의 순서화된 좌표점열이다.

제3a도는 태블릿으로부터 입력된 문자패턴의 예이다.

제3a도의 점(1,3,5,7,9)은 전자펜이 태블릿 표면에 접촉된 순간에 들어온 점이고, 점(2,4,6,8,10)은 전자펜이 태블릿 표면에서 떨어질때 입력된 점이다.

본 발명에서 적용한 한글의 경우, 한글의 필기제약조건은 문자분리를 쉽게 하기 위하여 한 글자씩 박스에 쓰는 형식을 취하고, 자소분리는 쉽게 하기 위하여 한 글자내에서 자소간에 이어 쓸 수 없고 자소내에서는 획수의 변형이나 모양의 변형을 허용하는 방식이다.

제3a도와 같이 입력된 문자패턴은 손의 떨림이나 태블릿 표면의 미그러움, 필기자의 심리상태등에 의해 삐침등이 왜곡이 생길 수 있고, 입력된 문자패턴의 좌표점열의 일부분은 문자인식에 있어서, 없어도 되는 중복되는 데이타가 많이 포함되어 있다.

따라서, 전처리부(20)에서는 입력된 문자패턴으로부터 그 문자패턴을 대표할 수 있는 좌표점들만을 남겨 놓고, 나머지 불필요한 좌표점들은 제거한다.

본 발명에서는 3가지의 전치를 수행한다.

첫째, 각 획의 단조분할에 의한 변곡점 추출을 한다.

각 획의 시작점부터 끝점까지 좌표점의 x축, y축 단조증가 또는 단조감소의 방향이 바뀌는 점을 변곡점이라 하고, 이러한 점에 의해 분할된 곡선을 단조곡선이라 한다.

둘째, 각 단조곡선의 곡율에 의한 직선적합을 한다.

변곡점만을 대표점으로 추출할 경우, 하나의 단조곡선은 하나의 직선으로 바뀐다.

각 단조곡선의 곡율이 큰 경우, 문자패턴의 왜곡이 심하게 발생하므로 곡율이 큰 경우에 한하여 곡율이 가장 큰 점을 대표점으로 추출하여 단조곡선을 두 개의 직선으로 적합시킨다.

세째, 대표점으로부터 방향코드에 의한 삐침을 제거한다.

입력좌표점열 중에서 위와 같은 3단계의 처리에 의해 남은 점을 대표점이라 하고, 대표점만을 인식에 이용한다. 본 발명에서는 미지의 입력패턴과, 기지의 자소 프로토타입(prototype)과의 매칭(matching)을 함으로써 자소인식을 한다.

매칭을 하기 위한 자소 프로토타입의 수가 많아지면 매칭시간이 많이 걸린다.

따라서 매칭된 프로토타입의 수를 줄이는 것이 매칭시간을 줄이는 것이다.

본 발명에서는 제1과정에 의해 기지의 자소 프로토타입을 어떤 특징이 따라서 분류하여 자소인식 라이브러리를 만든 후, 미지의 입력패턴을 인식하고자 할 때, 같은 특징추출방법에 의해 특징을 추출하여 똑같은 특징을 갖는 자소 프로토타입들하고만 매칭을 한다.

이와같이, 같은 특징을 가지는 프로토타입들만을 하나의 클랙스(class)로 모으는 작업을 대분류라 한다.

본 발명에서 매칭을 자소단위로 하기 때문에 대분류를 하기 위한 특징추출은 자소단위로 이루어진다.

각 자소에 대해3가지의 특징이 추출되고, 3차원의 특징벡터(feature vector)로 만들어진다.

초성과 종성은 같은 특징이 추출되고, 중성은 약간 다른 특징이 추출된다.

이와 같은 대분류과정을 구체적으로 설명하면 다음과 같다.

a. 초성과 종성의 특징추출

초성과 종성으로부터 추출되는 3차원의 특징벡터는 다음과 같다.

첫째, 자소의 획수이다.

자소의 획수를 특징으로 추출함으로써, 자소의 매칭시 횟수가 같게 되고, 획단위로 매칭을 할 수 있다.

따라서, 각 획의 매칭점수의 합이 자소의 매칭점수가 된다. 또한 자소분리시 입력된 획순으로 나열해 놓고 가능한 자소분리점을 찾음으로써, 획순정보도 자소인식의 중요한 정보로 사용된다.

둘째, 자소의 x축 방향회전수이다.

x축 방향회전수는 자소의 첫획의 시작점부터 마지막 획의 끝점까지의 x축 방향으로의 좌표점의 단조증가 또는 단조감소의 방향이 바뀌는 획수이다(제4도 참조).

이 특징은 같은 자소를 몇획만에 썼는지에 무관하게 같은 특성을 가지게 된다. 약간의 손의 떨림을 허용하기 위하여 단조증가 또는 단조감소의 방향변화의 정도가 크지 않은 경우는 무시한다.

세째, 자소의 y축 방향회전수이다.

y축 방향회전수는 자소의 첫획의 시작점부터 마지막 획의 끝점까지의 y축 방향으로의 좌표점의 단조증가 또는 단조감소의 방향이 바뀌는 횟수이다(제4도 참조).

b. 중성의 특징추출

중성으로부터 추출되는 3차원의 특징벡터는 다음과 같다.

첫째, 자소의 획수이다.

둘때, 중성의 유형이다.

중성의 유형은 초성과의 상대적인 위치에 의해 다음과 같이 결정된다.

초성의 전처리 후의 대표점열의 C=P₁P₂P₃…P_n(P₁=(x₁,y₁))일때, 다음과 같은 C_xmax와 C_ymax를 구한다.

C_xmax=max{x₁}, 1in

C_ymax=max{y₁}, 1in

또한, 중성이 J=P_1,P_2,P_3,…P_1,…P_n,(P₁=(x₁,y₁))일때, 다음과 같은 Vv와 Vh를 구한다.

V_v={x₁｜x₁ C_xmax},

V_v={y₁｜yx₁ C_ymax}

V_v는 제5a도에서 V₁및 V₃영역에 속하는 중성의 점의 집합을 의미하고, V_h는 V₂및 V₃영역에 속하는 중성의 점의 집합을 의미한다.

V_v와 V_h의 값에 따라서, 중성의 유형을 V₁및 V₃영역에 오는 점의 비율이 높은 유형(제1유형)과 V₂및 V₃영역에 오는 점의 비율이 높은 유형(제2유형), 그리고 이 두 비율이 비슷한 유형(제3유형)으로 나눈다.

즉, 초성을 포함하는 최소 직사각형보다 오른쪽에 있는 중성의 점의 갯수와 아래쪽에 있는 중성의 점의 갯수의 비율로 제5b도와 같이 3가지 유형으로 나눈다.

제5b도에서 V는 중성의 점의 집합이고, ∥∥는 집합의 원소의 갯수를 의미하고, t_v와 t_h는 경험적으로 얻은 01,0t_h t_n 1인 임계값이다.

세번째, 중성의 x축 방향회전수이다.

이특징은 초성과 종성에서 추출되는 특징과 같다.

대분류부에서는 또한 자소의 대표점열을 정규화한다. 정규화는 각 자소별로 다른 크기로 한다. 초성과 종성의 경우는 실험적으로 얻은 평균적인 초성과 종성의 크기로 대분류하고, 종성의 경우는 중성의 유형에 따라 각 유형의 평균적인 크기로 정규화를 한다.

자소인식 라이브러리 생성부(50)는 자소인식시 매칭될 자소의 좌표점열을 저장한다.

상기 자소의 좌표점열은 특정자소를 대표할 수 있는 패턴으로서 자소의 프로토타입(prototype)이라 부른다.

이러한 프로토타입들은 대분류부(40)에서 추출된 특징에 따라 대분류된다.

각 자소인식 라이브러리의 자료 구조는 3레벨(level)의 트리(tree)로 구현되었다. 각 레벨은 자소의 각 특징으로 추출될 수 있는 갯수만큼의 가지(branch)를 가진다.

3번째 레벨에는 각 프로토타입의 대표점열과 자소에 대한 코드가 저장된다. 이러한 프로토타입들은 링크드 리스트(linked list)로 연결되어 순차적 접근이 가능하게 만들었다.

자소분리부(30)에 의해 수행되는 자소분리과정은 자소인식을 하면서 이루어진다. 미지의 입력패턴에 들어오면, 다음과 같은 과정을 거쳐 문자인식을 하게 된다.

제1단계 ; 모든 가능한 다음 자소분리점을 찾는다.

제2단계 ; 제1단계에서 찾아진 모든 가능한 획의 조합에 대해 자소인식을 하여 자소후보문자와 각 자소에 대응되는 점수를 구하고 점수에 따라 서열을 매긴다.

제3단계 ; 높은 서열의 몇 개의 자소인식 결과를 후보자소로 선택한다.

제4단계 ; 선택된 후보자소의 자소분리점으로부터 제1 내지 제3단계를 더 이상의 획이 없을 때까지 반복한다.

제5단계 ; 자소인식 결과들을 조합하여 최상의 누적점수를 갖는 자소조합을 문자인식 결과로 한다.

이와 같은 과정을 한글에 적용하였을 경우, 제6도와 같은 과정을 거친다.

첫째, 각 자소후보 테이블을 초기화한다(601).

둘째, 초성의 후보자소를 결정한다(602).

초성의 후보자소 결정은 제7도와 같은 과정을 거쳐서 초성후보 테이블(80)에 저장된다.

세째, 초성의 후보자소로부터 가능성이 높은 초성을 선택한다(603). 이때는 매칭점수가 높은 자소를 몇개 선택한다. 몇개를 선택할지는 최대 몇개의 후보문자를 선택할지에 따라 달라질 수 있다.

네째, 선택된 각 초성의 다음 획부터 중성후보자소를 결정하여 테이블(80)에 저장된다.

중성의 후보자소결정은 제8도와 같은 과정을 거친다(604).

다섯째, 중성의 각 후보자소로부터 가능성이 높은 중성을 선택한다(605). 이때는 매칭점수가 높은 자소를 몇개 선택한다.

만약 인식결과를 한글 완성형으로만 제한하고자 할 경우는, 한글완성형 트라이그램(trigram)을 이용하여 초성 다음에 올 수 없는 자소는(비록, 높은 매칭점수를 가졌을지라도) 중성으로 선택하지 않고, 초성 다음에 올 수 있는 자소들 중에서만 중성을 선택한다.

완성형 트라이그램은 초성의 각 자소에 대해 중성으로 올 수 있는 자소가 무엇이 있으며, 초성/중성 조합에 대해 종성으로 올 수 있는 자소가 무엇인가를 매트릭스(matrix) 형태로 나타낸 것이다.

예를 들면, 초성 ㅃ 다음에 올 수 있는 중성은 ㅏ, ㅒ, ㅑ, ㅓ, ㅔ, ㅕ, ㅗ, ㅛ, ㅜ, ㅠ, ㅡ, ㅣ이고, 초성/중성 조합 뾰 다음에 올 수 있는 종성은 ㄱ과 ㅇ이다.

여섯째, 선택된 각 중성후보의 다음 획부터 종성후보자소를 결정한다(606).

이 과정은 제9도와 같은 과정을 거쳐서 종성후보 테이블에 저장된다.

일곱째, 후보 테이블로부터 가능성이 높은 종성을 선택한다(607). 이때도 중성과 같은 방법으로 선택한다.

여덟째, 각 자소부호 테이블로부터 인식결과 및 후보문자를 선정한다(608). 인식결과는 각 소자조합의 매칭점수의 합계가 가장 적은 것을 선정하고, 나머지 중에서 매칭점수가 특정임계치 이하인 경우를 후보문자로 선정한다.

아홉째, 인식결과 및 후보문자를 디스플레이(display)한다(609).

상기한 초성의 후보자소 결정 단계(601)는 제7도에 나타낸 과정을 거친다. 먼저 인식하고자 하는 입력패턴의 총획수를 구한다(701). 이어, 그 획수가 6보다 큰지 여부를 판별한다(702). 이때, 6획보다 크지 않으면, 초성으로 가능한 자소의 획수는 1획부터 이고(704), 크면 총획수에서 5를 뺀 만큼의 획부터이다(703). 이것은 한글을 자소단위로 끊어 썼을 경우, 획수가 가장 많은 경우가 20획(초성이 8획, 중성이 5획, 종성이 7획)이라는 데서 얻어질 수 있다.

다음은 첫획부터 초성으로 가능한 획까지를 분리하여 초성인식을 시도한다(705).

이 과정(705)은 제10도와 같은 과정을 거친다. 이 과정을 초성으로 가능한 획을 한 획씩 증가하면서 종료 조건을 만날때까지 반복한다(706,707).

상기한 중성의 후보자소 결정단계(604)는 제8도에 나타낸 바와 같이 초성의 후보자소 결정과 유사한 과정을 거친다. 여기서 중성의 모든 가능한 자소분리점은 선택된 초성 자소후보의 다음 획부터 시작하여 종료 조건을 만날때까지 이다. 이 과정을 살펴보면, 현재 인식하고자 하는 입력패턴의 총획수와 선택된 초성의 다음 획수를 구한다(801,802). 이어, 선택된 초성의 다음획수로부터 시작하는 중성을 인식하였는지 여부를 판별한다(803). 이때, '예'이면 중성후보가 결정과정을 종료하고, '아니오'이면 총획수와 초성 다음획수의 차가 7보다 큰지 여부를 판별한다(804). 이때 중성으로 가능한 획은 선택된 초성의 다음획부터 시작하여 '예'이면 총획수와 초성 다음 획수의 차에 7을 뺀 값에서(805)부터 중성인식을 하고, '아니오'이면 선택된 초성의 다음획부터(806) 중성인식을 한다. 이어, 중성으로 가능한 획을 한 획씩 증가하면서 종료조건을(809) 만날때까지 중성인식을 시도한다(708~809).

상기한 종성의 후보자소 결정단계9606)는 제9도에 나타낸 바와 같이 중성자소후보의 다음 획부터 마지막 획까지를 하나의 종성으로 간주하고 인식한다. 즉, 모든 가능한 종성 자소분리점의 갯수는 하나이다. 만약 중성자소후보의 마지막 획이 인식하려는 문자의 마지막 획인 경우는 종성이 없는 경우로 간주하고, 종성인식을 하지 않는다.

자소인식부(60)에 의해 수행되는 자소인식(705,807,907)은 제10도와 같은 과정을 거친다.

인식하려는 획들의 시작획부터 끝획까지를 하나의 자소로 간주하고 대분류를 한다(1001). 이 과정에서 추출된 특징 벡터에 따라서 해당되는 자소인식 라이브러리에서 같은 특징 벡터를 가진 자소 프로토타입의 클래스를 찾는다(1002,1003). 그리고, 이 클래스에 있는 모든 자소 프로토타입과 미지의 자소패턴을 매칭한다(1004).

매칭은 획단위로 이루어진다. 즉, 미지의 입력패턴의 첫번째 획과 자소 프로토타입의 첫번째 확고 매칭을 하고, 미지의 입력패턴의 두 번째 획과 자소 프로토타입의 두번째 획과 매칭을 하고,…, 미지의 입력패턴의 마지막 획과 자소 프로토타입의 마지막 획과 매칭을 한다. 자소매칭 결과는 각 획의 매칭결과의 합이다. 미지의 입력패턴의 한 획과 자소 프로토타입의 한 획과의 매칭은 다음과 같이 이루어진다.

미지의 입력패턴의 한 획이 S=P₁P₂P₃…P₁…P_n(P₁=(x_i,y_i))이고, 자소 프로토타입의 한 획이 S'=P₁'P₂'P₃…P₁'…P_n'(P₁'=(x_j,y_j))일때, 미지의 입력패턴의 한 획(S')과 자소 프로타입의 한 획(S')의 최적 매칭거리(D_k)는

D_k=D(n,n')/(n +n')

여기서, D(n,n')는 재귀적 관게에 의해서 다음과 같이 구해진다.

D(i,j)=d(i,j)+MIN{K(i-1j), D(i-1,j-1), D(i,j-1)}, 1in, 1jn'

D(i,j)는 미지의 입력패턴의 한 획(S)의 i번째 점과 자소 프로토타입의 한 획(S')의 j번째 점까지의 누적 거리이다.

D(i,j)는 다음과 같은 초기조건으로부터 계산되어진다.

D(1,1)=d(1,1)

D(1,j)=d(1,j)+D(1,J-1)

D(i,1)=d(i,1)+D(i-1,1)

여기서, d(i,j)는 미지의 입력패턴의 한 획(S)의 i번째 점과 자소 프로토타입의 한 획(S')의 j번째 점간의 단순 거리로써 맨하탄거리(Manhatan distance)를 이용하여 다음과 같이 구해진다.

d(i,j)=｜x_i-x_j'｜+｜y_i-y_j'｜

따라서, D(n,n')는 d(1,1)로부터 d(n,n')까지의 최단거리를 의미하고, 두 패턴의 유사도의 척도가 된다.

이와 같이 구해진 자소의 매칭점수는 정렬된 후(1005), 후보 테이블(80)에 자소코드와 함께 저장된다(1006).

이상에서 설명된 바와 같이 자소인식 과정이 완료되면, 인식결과 출력부(70)는 후보 테이블(80)에서 각 자소의 매칭점수를 합하여 정렬을 한다.

매칭점수가 가장 작은 자소조합의 미지의 입력패턴의 인식결과가 되고, 나머지의 자소조합 중 특정임계값이하인 경우는 후보문자가 된다.

문자인식 과정에서 오인식 또는 미인식 된 문자패턴을 자소인식 라이브러리에 추가함으로써, 특정 사용자의 필기습관에 적응가능한 인식시스템을 만들 수 있다.

미인식 또는 오인식 된 문자패턴을 자소인식 라이브러리에 등록하는 과정은 제11도와 같은 과정을 거친다. 먼저 미인식 또는 오인식된 문자패턴의 문자코드와 각 자소의 획수정보를 입력받는다(1101).

다음에 각 자소에 대한 특징을 추출한다(1102). 그리고, 각 자소별로 해당되는 자소인식 라이브러리에 등록을 한다. 등록은 먼저 해당되는 자소인식 라이브러리를 검색(1103)하여, 만약 해당되는 클래스가 없으면, 자소패턴을 정규화를 하고, 자소패턴을 자소 라이브러리에 등록한다(1104,1105,1106). 만약 해당되는 클래스가 있으면, 자소패턴을 그 클래스의 자소 프로토타입들과 매칭한다(1104,1107). 매칭된 자소들 중에서 같은 코드를 가진 코드를 찾아 매칭점수가 가장 작은 값이 임계값(T₁)보다 큰가 검사한다(1108,1109). 만약 T₂보다 크면, 자소의 정규화후에 등록(1109,1105,1106)하고, 그렇지 않으면 종료한다(1109).

그리고 매칭된 자소들 중에서 같은 코드를 가진 코드를 찾아 매칭점수가 가장 작은 것이 임계값(T1)보다 크거나 같으면, 자소의 정규후에 등록(1108,1105,1106)하고, 그렇지 않으면 종료한다.

이상에서 설명된 온라인 필기체 문자인식방법은 컴퓨터의 키보드(keyboard)를 대체하는 문자입력 방법으로 사용될 수 있다.

또한 도형의 인식이나 편집기호(gesture)의 인식에 사용될 수 있다. 이러한 효과는 키보드를 없앰으로써 초소형 컴퓨터를 만들 수 있으며, 키보드의 사용 없이 전자펜만으로 작업을 수행함으로써 사용자가 더 친숙하게 컴퓨터를 사용할 수 있다.

이러한 방법은 사용자가 종이와 연필만으로 작업을 하는 것과 같은 효과를 얻을 수 있다.

본 발명의 성능을 분석하기 위해 5명의 사용자에서 제12도와 같은 문자를 9번 정도 필기하게 하였다. 필기된 데이타를 이용하여 제1과정을 거쳐 각 사용자에 대한 인식 라이브러리를 만들고, 국민교육헌장(399자)을 필기하게 하여 인식성능을 분석하였다.

제13도는 각 사용자에 대한 인식률 실험결과이다.

훈련횟수는 제12도의 문자를 필기한 횟수이고, 필기문자수는 성능평가를 위해 쓰여진 미지의 문자수 이다. 후보인식문자수는 오인식이 되었을 경우, 후보문자로 선정된 문자들 중에서 3번째 안에 속하는 경우의 문자수이다. 정인식률은 9번 정도 훈련 후 91% 정도이다.

본 발명의 문자인식방법은 특정사용자의 필기스타일(style)을 훈련에 의해 적용함으로써 인식률을 상승시킬 수 있으며, 본 발명의 대분류 방법과 자소분리시 모든 가능한 자소분리점에 대해 자소인식을 하지 않고, 부분적이 자소인식 결과를 이용하여 가능성이 높은 자소분리에 대해서만 자소인식을 함으로써, 인식률을 저하시키지 않고 인식시간을 단축시킬 수 있다.

Claims

태블릿으로부터 입력된 문자의 동적인 정보를 이용하여 필기체 문자를 인식하는 방법에 있어서, 사용자의 필기 특성에 따른 자소인식 라이브러리를 준비하는 단계 ; 상기 태블릿으로부터 입력된 문자패턴을 구성하는 복수의 획들에 해당하는 각 좌표점열들을 획입력순서에 따라 구하는 입력단계 ; 상기 구해진 각 좌표 점열들중 각 획의 특정정보를 가지는 대표점들만을 남기고 나머지 불필요한 좌표점들을 제거하는 전처리단계 ; 상기 전처리단계의 결과를 이용하여 현재의 획부터 시작하여 다음 자소의 가능성이 높은 자소분리점을 찾는 자소분리단계 ; 상기 자소분리된 일련의 획들에 대한 특징을 추출하는 대분류단계 ; 상기 추출된 특징에 따라 상기 준비된 자소인식 라이브러리를 참조하여 자소매칭을 수행하여 유사도가 높은 후보자소들을 찾는 자소인식단계 ; 상기 찾아진 후보자소를 이루는 마지막 획의 다음 획부터 시작하여 상기 자소분리단계와 대분류단계와 자소인식단계를 다음 자소에 대해 반복수행하는 방식으로 각 자소들에 대한 유사도가 높은 후보 자소들의 테이블을 작성하는 단계; 상기 각 자소들에 대한 후보 자소 테이블들을 참조하여 인식하고자 하는 문자를 이루는 후보자소들의 조합들중 가장 유사도가 높은 후보자소들의 조합을 인식문자로 결정하는 문자인식단계를 구비한 것을 특징으로 하는 필기체 문자인식방법.
제1항에 있어서, 상기 자소인식 라이브러리를 준비하는 단계는 상기 태블릿으로부터 입력된 문자패턴을 구성하는 복수의 획들에 해당하는 각 좌표점열들을 획입력순서에 따라 구하고 상기 입력된 문자에 대응하는 문자코드를 입력하는 입력단계 ; 상기 구해진 각 좌표점열들중 각 획의 특징정보를 가지는 대표점들만을 남기고 나머지 불필요한 좌표점들을 제거하는 전처리단계 상기 전처리단계의 결과를 이용하여 현재의 획부터 시작하여 다음 자소의 가능성이 높은 자소분리점을 찾는 자소분리단계 ; 상기 자소분리된 일련의 획들에 대한 특징을 추출하는 대분류단계 사이 특징추출된 자소의 마지막 획의 다음 획부터 시작하여 다음자소에 대한 상기 자소분리단계와 대분류단계를 반복수행하는 방식으로 각 자소들의 자소 프로토타입을 대분류하여 라이브러리를 생성하는 단계를 구비한 것을 특징으로 하는 필기체 문자인식방법.
제2항에 있어서, 상기 방법은 상기 문자인식결과 오인식 또는 미인식의 경우에는 입력된 미지문자에 대해서 상기 라이브러리 생성단계를 수행하여 자소인식 라이브러리를 갱신하는 단계를 더 구비하는 것을 특징으로 하는 필기체 문자인식방법.
제1항에 있어서, 상기 전처리단계는 각 획의 시작점과 끝점까지의 좌표점열의 횡방향 및 종방향 단조증가 또는 단조감소의 방향이 바뀌는 변곡점을 찾는 단조분할단계 ; 상기 단조분할의 결과로부터 각 단조곡선의 곡률이 특정값보다 큰 경우에는 곡률이 가장 큰 점을 대표점으로 추출하여 단조곡선을 두 개의 직선으로 적합시키는 직선적합단계 ; 상기 직선적합단계의 결과로부터 방향코드에 의해 삐침을 제거하는 삐침제거 단계를 포함하는 것을 특징으로 하는 필기체 문자인식방법.
제1항에 있어서, 상기 자소분리단계는 제1자소의 분리는 인식하고자 하는 입력문자패턴의 총획수가 제1소정 획수보다 크지 않으면 제1자소로 가능한 자소는 제1획부터 시작하고 상기 제1소정 획수보다 크면 상기 총획수에서 상기 제1소정 획수를 감산한 획수부터 시작하여 총 획수가 제2소정 획수이면 제1자소는 제2소정 획수까지이고 그렇치 않으면 총획수에서 1을 감산한 획수까지이며, 제2자소의 분리는 인식하고자 하는 입력문자패터의 총획수에서 상기 제1소자의 후보자소의 다음 획수를 감산한 획수가 제3소정획수보다 크지 않으면 제1자소로 가능한 후보자소의 다음 획부터 시작하고 상기 제1자소의 후보자소의 다음 획수를 감산한 획수가 크면 상기 제1소정획수를 감산한 획수에서 상기 제3소정 획수를 감산한 획수에서부터 시작하여 총 획수보다 작거나 같고 상기 제2자소의 시작획에서 제4소정 획수를 넘지않은 획까지이며, 상기 제2자소로 선택된 후보자소의 다음 획이 상기 총획수를 넘으면 다음의 제3자소가 없는 것으로하며 그렇치 않으면 상기 제2자소로 선택된 후보자소의 다음 획에서부터 마지막 획가지를 자소분리점이 사이에 없는 하나의 제3자소로 분리하는 것을 특징으로 하는 필기체 문자인식방법.
제5항에 있어서, 상기 대분류단게는 상기 제1 및 제3자소의 경우에는 자소의 획수, 자소의 횡방향회전수와 종방향회전수를 특징으로 추출하고, 상기 제2자소의 경우에는 자소의 획수와 상기 제1자소와의 상대적 위치에 의해 결정되는 자소의 유형과 횡방향회전수를 특징으로 추출하는 것을 특징으로 하는 필기체 문자인식방법.
제1항에 있어서, 상기 자소인식단계는 특징추출에 의한 대분류에 따라 상기 자소인식 라이브러리를 참조하여 동일 분류가 있는지를 검색하는 단계 ; 검색된 동일 분류의 모든 자소 프로토타입과 특징추출된 자소와의 매칭을 실시하는 단계 ; 상기 모든 자소 프로토타입에 대한 매칭결과의 유사도점수를 낮은 순서로부터 차례로 정열하는 단계 ; 상기 정열된 유사도점수가 가장 낮은 순서로부터 몇개의 후보자소를 선정하는 단계를 구비하는 것을 특징으로 하는 필기체 문자인식방법.
제7항에 있어서, 상기 매칭은 자소를 이루는 각 획들마다 실행하고 그 결과로부터 자소를 이루는 모든 획들의 각 유사도점수의 총합을 자소에 대한 유사도점수로 산출하는 것을 특징으로 하는 필기체 문자인식방법.
제1항에 있어서, 상기 방법은 상기 인식문자뿐만 아니라 유사도 높은 순서대로 몇개의 후보문자들을 함께 결정하는 것을 특징으로 하는 필기체 문자인식방법.
제7항에 있어서, 상기 몇개의 후보자소를 선정하는 단계에 있어서 한글 완성형만을 인식결과로 하는 경우에는 한글 완성형 트라이그램을 이용하여 가능성이 없는 상기 후보자소들을 버리는 단계를 포함하는 것을 특징으로 하는 필기체 문자인식 방법.