KR100651762B1

KR100651762B1 - 수기 글자들을 디코딩하는 방법 및 장치

Info

Publication number: KR100651762B1
Application number: KR1020047005558A
Authority: KR
Inventors: 조나손 레이 네퍼
Original assignee: 실버브룩 리서치 피티와이 리미티드
Priority date: 2001-10-15
Filing date: 2002-10-15
Publication date: 2006-12-01
Also published as: US20110293181A1; US7359551B2; ZA200402925B; US20080144938A1; DE60225170T2; AU2006225217A1; CA2463230A1; US20050175241A1; JP4274941B2; AU2006225217B2; EP1444642A1; JP2005505868A; US20100189352A1; CA2463230C; AUPR824501A0; KR20050036864A; DE60225170D1; CN100533470C; US20110052066A1; US20120328195A1

Abstract

주어진 입력 문자를 일련의 저장된 문자 모델들 중 하나와 순차적으로 비교하는 단계를 포함하는, 수기문자 인식을 수행하는 방법이 개시되어 있다. 그 비교 단계는, 현재 문자 모델과 연관된 분할 체계에 따라 상기 주어진 입력 문자를 한개 이상의 세그먼트들로 분해하는 단계; 상기 현재 모델과 연관된 세그먼트 모델에 대하여 상기 세그먼트 또는 세그먼트들을 평가하는 단계로서, 상기 평가는 상기 모델에 일치하는 정도를 특정하는 스코어를 생성하는, 평가단계; 상기 일련의 문자 모델들내의 복수의 문자 모델들에 대하여 비교 단계를 반복하는 단계; 최고 스코어가 할당된 문자 모델을 선택하고 상기 입력 문자를 상기 최고 스코어가 할당된 문자 문자 모델과 연관된 문자로서 분류하는 단계를 포함한다.

수기 문자, 문자 모델, 문자 인식, 자획, 분할, 세그먼트,

Description

수기 글자들을 디코딩하는 방법 및 장치{A method and apparatus for decoding handwritten characters}

본 발명은 컴퓨터 또는 다른 프로세싱 장치로의 수기 데이터 입력(handwriting data entry)을 해석하고 디코딩하는 방법에 관한 것이고, 특히 각각의 글자들을 하나 이상의 프리미티브 서브 자획(primitive sub-strokes)들로 분해하는 것을 수반하는 수기 인식(handwriting recognition) 방법에 관한 것이다.

이 명세서에서의 어떤 종래기술에 대한 참조도, 그 종래 기술이 통상의 일반적 지식의 일부를 이룬다고 하는 인정이나 어떤 형태의 제시가 아니며, 그렇게 받아들여져도 안된다.

핸드헬드 컴퓨터와 같은 종래의 프로세싱 장치들은 수기 데이터 입력들에 근거하여 사용자 명령들을 디코딩하는 데 유용하다. 다른 장치들은 그 사용자가 의사 수기 포맷(pseudo-handritten format)을 사용하여 데이터를 입력하도록 강압한다. 그러한 장치의 한 예는 팜(Palm) 컴퓨터들에 의해 이루어지며 그라피티(Graffiti)로서 알려진 사유입력 포맷을 사용한다. 이러한 입력 포맷은 핸드헬드 컴퓨터의 사용자가 터치스크린 영역 위에서 미리 정의된 모션들로 플라스틱 스타일러스(stylus)를 이동시킴으로써 그 장치에 데이터를 입력할 수 있도록 하며, 여기서 각각의 글자는 관련된 '자획(stroke)'을 가지며, 이것은 다수의 경우에 실제 글자와 닮아 있다.

그러한 시스템들은 그 휴대용 장치가 유용한 크기의 키보드를 갖기에는 너무 작다는 이점들을 제공하지만, 데이터를 입력하기 위해 사용자가 인공 '언어'를 배울 것을 요구한다.

개별 사용자들이 소유하고 있는 수기 스타일러스들의 범위는 방대하고, 따라서 상이한 사용자 수기의 자동 컴퓨터 인식을 제공하는 것은 문제가 있다. 이것은 컴퓨터 장치들에서 상업적으로 실행가능한 수기 인식 시스템이 최소한으로 사용되는 것을 초래했다. 강제로 사용자가 자신의 필체 스타일을 특정 장치의 예상 입력 스타일에 따르도록 적응시키도록 하지 않으면서 수기를 이해할 수 있는 시스템을 제공하는 것이 바람직하다.

대부분의 패턴 또는 글자 인식 시스템들은 그 데이터의 기본 프리미티브을 식별하고 그 입력내의 노이즈 레벨을 최소화하기 위해서 입력 신호에 몇몇 종류의 분할(segmentation)을 수행한다. 또한 분할은 특징 추출 동안에 사용된 정보의 양을 감소시키기 위해 수행되고, 그 입력 신호의 더 많은 요약 특징들(abstract features)에 대해 패턴 인식이 이루어지도록 한다.

수기 인식 시스템에서, 개별 자획들은 종종 선행처리 동안 다수의 서브 자획 프리미티브들로 분할된다. 이 프리미티브들은 그후 특징 추출 모듈로 넘겨지거나 패턴 분류를 위해 직접 사용된다. 초서체 또는 연결된 인쇄체 인식 시스템들에서, 단일 자획은 한 글자 이상을 나타낼 수 있으며, 그래서 분할은 잠재적인 글자 분할 지점들을 식별하기 위해 사용된다.

다수의 분할 기술들이, 인간 운동(human motor) 시스템의 속성들에 기반한 간단한 접근들을 포함하여, 그 연구 커뮤니티에 의해 설명되어 왔다. 예로서 곡률 최대치들, 임계점들, 및 속도 극한값들에서 분할하는 것, 또는 이 기술들의 조합(예컨대, 곡률 극한치들 및 속도 최소치들이 동시에 존재하는 점들을 구하는 것)을 포함한다. 다른 연구는 탄도형 동작(ballistic gesture) 검출, 그 자획들의 독립적인 요소 분석, 자획들의 분할을 위한 규칙성 및 특이성을 사용하는 것을 제안하였다.

상기 과정들이 분할을 위한 기반으로서 수기 생성(handwriting generation)을 사용하는 반면에, 다른 기술들은 지각(perception) 프로세스에 기초한다. 글자들의 시각 디코딩에 있어 중요한 점은 프리미티브들의 국부적 상대 위치들을 지각하는 것이며, 따라서 위치 극한치는 글자 형태의 인식에서 중요한 역할을 한다. 분할을 위한 기준에 기초한 지각은 X 및 Y 극한치, 첨점(cusp)들 및 자획 교차들을 포함한다.

자획 분할이 어떤 조건하에서는 수기 인식 시스템의 정확성을 개선할 수 있는 반면, 또한 인식 에러들의 주된 소스가 될 수도 있다. 대부분의 움직임 기반의 자획 분할 알고리즘들은 분할 점들을 선택할 때 몇가지의 수치적 임계치를 적용하며, 이것은 잘못 형성된 자획들이 일관되지 못하게 분할되는 것을 초래할 수 있다. 도 2b)는 잘못 쓰여진 글자 'a'의 곡률 극한치에 근거한 부정확한 분할을 도시한다.

이 예에서, 자획 분할은 분할 지점으로서 선의 최상부에서 극한 곡률을 사용하여 더 선형인 선으로부터 'a'의 원형체를 구획하거나 분할하는 데 사용되고 있다. 도 2a)는 원형체 내에 곡률 극한치를 가지며, 그 글자 선의 시작부분을 표시하는 예상되는 첨점(the expected cusp)을 잃어, 그 자획의 부정확한 분할을 초래하고 있다.

속도가 또한 분할을 위해 사용되며, 이는 수기가 일련의 탄도형 움직임들(즉, 그 시작에서 최고 속도로 가속하고 나서, 목표 지점에서 감속하는 것)에 의해 생성되기 때문이다. 높은 속도 구간들은 일반적으로 직선적인 반면에, 낮은 속도는 통상적으로 곡률의 극한치에서 발생한다. 그러나, 속도는 또한 임계 문제 (thresholding problem) 문제를 가지며, 부가적으로 사용자는 자획을 쓰는 동안 일시적으로 멈출 수도 있고, 이것은 쓸모없는 분할 지점을 초래한다. 도 3에서, 사각형들에 의해 표시된, 글자 'a'에 대한 샘플링된 지점들이 도시된다. 그 펜의 속도는 그 샘플들 간의 간격으로부터 유도될 수 있고(일정한 샘플링 속도를 가정하면), 그래서 큰 간격은 고속을 표시하는 반면에, 서로 가까운 샘플들은 낮은 속도를 표시한다. 그 샘플에서, 낮은 속도(및 높은 곡률) 영역들은, 그 선의 바닥부에 있는 작은 후크(hook)에서 뿐 아니라 그 선의 최상부에 있는 첨점에서도 샘플들의 집단들로 나타낼 수 있다. 그러나, 다운-자획(down-stroke) 동안 주저하는 기록자에 의해 야기된 (원형 영역의 왼쪽상에) 또다른 낮은 속도 영역이 존재한다. 그래서 그 글자 'a'가 명확하게 잘 쓰여져도, 속도 기반의 분할은 일관되지 못한 결과를 생성할 수도 있다.

분할 지점들로서 Y 극한치들을 사용하는 것과 같은, 지각적 분할 기술들은 일반적으로 임계 문제들로 고생하지 않으며, 이는 지점이 국부 극한치인지 여부를 결정하는 데 수치적 값이 필요하지 않기 때문이다. 그러나, 이 기술들은 또한 일관되지 못한 분할로 고생한다. 도 4a)에서, 글자 'a'는 그 자획의 시작 부근에 위치된 Y 극한치에서 십자로 표시되어 분할된다. 그러나, 도 4b)에 도시된 두번째 글자 'a'는 첫번째 글자와 동일한 글자임이 명백하지만, 그 자획이 햐향되는 경향을 나타내므로, 이 지점에서 Y 극한치를 포함하지 않는다.

대부분의 다른 분할 알고리즘들은 이러한 문제들을 겪으며, 특히 잘못 쓰여진 글자들에 의해 영향을 받는다. 자획 분할의 어렵고 에러가 많은 속성으로 인해, 다수의 시스템들은 어떤 종류의 자획 분할도 시도하지 않으며, 사용자에 의해 제공된 원래의 비분할된 자획에 단순히 직접 작용한다. 자획 분할을 수행하는 시스템은 통상적으로 일관되지 못한 분할의 효과를 최소화하기 위해 몇가지의 신축 정합 과정(elastic matching procedure)을 실행한다.

1998년 3월에 홍콩 대학, 컴퓨터과학부의 기술보고서 HKUST-CS98-07 "Elastic Structual Matching For Recognizing Online Handwritten Alphanumeric Characters"은 자획들을 복수의 선 세그먼트들로 분할하는 데 곡률의 극한치를 사용하는 것을 개시하고 있다. 그러나, 그들은 "부드러운 자획이 잘못 기록됨으로 인해 분할될 수도 있어" 부정확한 분할이 일어나도록 야기할 수 있다는 것을 안다. 이 문제에 대처하기 위해, 그들은 무효 분할을 검출하려는 한 세트의 규칙들을 실행하여, 새로운 자획을 형성하도록 부정확하게 분할된 서브 자획들을 결합한다.

세계 과학 출판사에서 1999년에 발간한 기계 인지 및 인공지능 시리즈인 "Advances In handwriting Recognition", 34권 153-162 페이지인 "Handwritten Word Recongnition - The Approach Proved By Practice"은 상업적 광학 검사판독 시스템에서 수기 흘림 자획들을 분할하기 위해 수직 속도에서 제로 교차 지점들을 사용하는 것을 개시한다. 그 서브 자획들은 그후 신축 매칭 인식기에서 사용되기 위해 한 세트의 프리미티브 요소들에 대항하여 정합된다.

세계 과학 출판사에서 1999년에 발간한 기계 인지 및 인공지능 시리즈인 "Advances In handwriting Recognition", 34권 225-234 페이지인 "Global Methods for Stroke-segmentation"은 윤곽 커브 피팅(contour curve fitting)에 기초한 오프라이니 이미지들의 자획 분할을 개시한다. 이 방법에서, 커브들은 입방 B-스프라인(B-splines)들을 사용하여 먼저 대략화되고, 분할 커트들이 곡률의 극한점들에서 이루어진다.

NC 두람의 1993년 10월 13-16일의 제 2차 퍼지이론 및 기술에 대한 국제 회의의 의사록 "A Fuzzy Online handwriting Recognition System: FOHRES" 는, 자획 분할을 위한 한 세트의 퍼지 논리 규칙들을 형성하기 위해 한 그룹의 언어적 변수들과 함께 펜 속도 및 방향의 퍼지 논지 표현을 사용하는 것을 개시한다. 그들의 분할된 자획들은 퍼지 특징 추출을 위한 프리미티브들로서 사용된다.

독일 울름의 1997년 8월 18-20일의 제 4 차 국제 회의 문서 분석 및 인식(ICDAR)의 "Recognizing Letters in Online handwriting using Hierachical Fuzzy Inference"는 수평 탄젠트들을 가진 지점들과 첨점들에서 자획들을 부분 자 획들(partial strokes: PStrokes)의 세트들로 분할하는 것이 개시되어 있다. 개시된 알고리즘은 (종종 수행되는 점-위치 평활화보다 오히려) 그 펜 비상경로(trajectory)(즉, 첨점들)의 불연속 부분들을 왜곡시키지 않는 각 평활화 시스템을 사용한다.

세계 과학 출판사에서 UK의 콜체스터의 1996년 9월 2-5일의 "Process In handwriting Recognition"의 169-176페이지dls "Detection Of Extreme Points of Online Handwritten Scripts"는, 1995년의 제 7차 국제 문자학회의 회의의 의사록인 "A Delta Lognormal Model for Handwriting Generation"에 개시된 수기 인식의 델타 로그-노멀 이론에 기초하는 곡률 검출 알고리즘의 로버스트 국부 극한치를 개시하고 있다. 자획들을 프리미티브 요소들로 분할하기 위해, 그들은 각 신호강도와 1차 교차지점들의 계산을 사용하는 것을 개시한다.

독일 울름의 1997년 8월 18-20일의 제 4차 국제회의 문서 분석 및 인식(ICDAR)의 "Perceptual Model of Handwriting Drawing Application to the Handwriting Segmentation Problem"은 "지각적 앵커 지점들"의 세트의 검출에 기초한 모델링 및 분할 접근법을 개시한다. 기본적으로, 그들은 '파국(catastrophe)' 지점들을 찾으며, 상기 '파국(catastrophe)' 지점들은, 펜-업(pen-ups)들, 날카로운 턴들(sharp turns) 및 첨점들(cusps)과 같은 불연속 지점들과, 굴절점들, X-, Y- 극한치들 및 자획 교차 지점들을 포함하는 '지각적' 지점들로서 정의된다.

미국 특허 제6,275,611호는 "국부적 각 변화가 최대치이고 세트 임계를 초과하는" 지점들에서 자획들을 분할하는 문자 인식 시스템을 서술한다. 또한 2001년 8 월 14일자의 "Handwriting Recognition Device, Method and Alphabet, With Strokes Grouped Into Stroke Sub-Structures" 를 보라. 분할 알고리즘의 완전한 설명은 미국 특허 제5,740,273호에 있다. 유사하게 미국특허 제5,889,889호는 "펜 리프트들(pen lifts)들 뿐 아니라 갑작스런 방향 변경과 같은 특징에 의해 식별되는" 지점들을 검출함으로써 수기 문자 인식기에서 자획 분할을 수행하는 것을 개시한다. 이것은 "방향이 갑작스럽게 변화하는 코너들 및 첨점들"에서 자획들을 분할하는, 압축 및 재구성을 위한 파라메트릭 형태로 수기 입력을 나타내도록 설계된 시스템에서의 동일 분할 과정을 개시한다. 또한 미국특허 제6,044,174호를 보라.

미국특허 제6,137,908호에 서술된 프로세스는 인식을 위한 자획들의 선행처리의 일부로서 Y-극한치를 식별한다. 이러한 극한치들간의 중간 지점들은 또한 그 인식 시스템에서 사용하기 위한 '프레임'으로서 추출되고 저장된다.

유사하게, 미국특허 제5,610,996호는 인식을 위한 프리미티브들로서 일련의 아크들(arcs)을 사용하는 것을 개시하고, "그 아크들은 샘플 텍스트상의 Y 극한치 지점들에서 시작하고 끝난다". 이러한 문서는 X-극한치와 같은 대안적인 분할 체계들(alternative segmentation schemes)을 사용하는 것을 개시한다.

미국특허 제4,024,500호는 흘림 자획들을 (탄도형 서브 자획 프리미티브들보다 오히려) 문자들로 분할하기 위해 X- 및 Y- 극한치를 사용하는 것을 개시한다.

미국특허 제5,854,855호는 자획들을 분할하고, "서브 자획 경계들을 그 수기 입력내의 선택된 속도 최소치와 연관시키는 데 속도 프로파일을 사용하는 것을 개시한다.

미국특허 제5,577,135호는 Y 극한치에서 자획들을 분할하여, 히든 마코브 모델(Hidden Markov Model: HMM)에서 사용되는 일련의 업 및 다운 자획들을 야기하는 것을 개시한다. 미국특허 제5,878,164호에 서술된 또다른 HMM 시스템에서, 자획들은 "펜 업들 및 첨점들과 같은 정의된 경계 조건들에 따라 글자들 또는 서브-문자 프리미티브들로 분할된다"

종래 기술 참조들은 각각 수기 입력 텍스트를 인식하는 문제들을 해결하는 새로운 기술들을 도입하려고 시도한다. 각각은 개선을 제공할 지 모르지만, 어느 것도 상기에서 서술된 모든 문제들을 해결하는 로버스트 시스템을 제공하지는 못한다.

넓은 형태에서, 본원발명은, 주어진 입력 문자를 일련의 저장된 문자 모델들중 하나와 순차적으로 비교하는 것을 포함하여, 기록된 문자 인식을 수행하는 방법을 제공하며, 여기서 비교 단계는: 상기 현재 문자 모델과 연관된 분할 체계에 따라 상기 주어진 입력 문자를 하나 이상의 세그먼트들로 분해하는 단계; 상기 현재 문자 모델과 연관된 세그먼트 모델에 대비하여 상기 세그먼트 또는 세그먼트들을 평가하는 단계로서 그 평가가 그 모델에 부합하는 정도를 측정하는 스코어를 생성하는, 상기 평가단계; 일련의 문자 모델들내의 복수의 문자 모델들에 대하여 상기 비교 단계를 반복하는 단계; 및 가장 높은 스코어가 할당되는 문자 모델을 선택하고, 그 문자 모델과 연관된 문자로서 상기 입력 문자를 분류하는 단계를 더 포함한다.

바람직하게는, 인식을 위한 문자는 한 글자, 숫자, 또는 구두점 (punctuation) 중 하나이다.

바람직하게는, 상기 입력 문자를 한 개 이상의 세그먼트들로 분해하는 단계는, 각 세그먼트가 다음 식에 따라 최소 길이를 갖도록 수행된다:

l_min = 세그먼트의 최소길이

p_i= 지점 i의 좌표들

n = 그 자획내의 지점들의 수

λ = 최소 길이 임계

바람직하게는, 그 주어진 입력 문자가 현재 문자 모델과 연관된 분할 체계에 따라 분할될 수 없다면, 그때 현재 문자 모델은 그 주어진 입력 문자를 위한 가능한 매칭으로서 거부된다.

바람직하게는, 그 평가 과정은 이상에 보다 가깝게 일치되는 스코어를 할당한다.

바람직하게는 그 평가 과정은 퍼지 논리 규칙들을 사용한다.

바람직하게는, 각 문자 모델이, 동일한 문자의 상이한 형태들을 수월하게 인식하기 위해서 그것을 복수의 분할 체계들과 연관시킬 수 있다.

바람직하게는, 상기 입력 문자를 한개 이상의 세그먼트들로 분해하기 위한 상이한 규칙들이 상이한 문자 모델들에 대해 정의될 수도 있다.

입력 자극을 생성하기 위한 입력 표면 상에서의 스타일러스의 이동에 응답하는 그 입력 표면; 메모리; 상기 입력 자극을 수신하고 처리하기 위한 프로세서로서, 본 발명의 폭넓은 형태에 따른 방법을 수행하도록 적응된, 프로세서를 포함하는 장치가 또한 제공된다.

수기 문자 인식을 위한 자획 분할 과정이 개시된다. 평가되는 그 모델에 따라 분할 알고리즘을 변경하면, 특징 추출 및 분류화를 위해 사용될 수 있는 자획 프리미티브들의 일관적이고 로버스트한 세트가 발생된다. 이러한 분할 과정을 사용하는 예시적인 퍼지 논리 분류기가 또한 서술된다.

본 발명은, 제한하는 실시예로서가 아니라 오직 바람직한 예로서 주어지고, 첨부 도면들에 관련하여 서술되는 다음 설명으로 인해 명백해 질 것이다.

도 1은 본 발명의 실시예를 도시한 것으로서, 사용자 입력들을 수신하고 본 발명의 또다른 실시예들에 따라 그들을 처리하도록 배열된 프로세싱 시스템을 도시한다.

도 2a) 및 2b)는 글자 'a'의 양호하게 형성된 버전과 열악하게 형성된 버전을 도시한다.

도 3은 속도 분할이 글자 'a' 및 그와 연관된 문제들을 해석하기 위해 어떻게 사용되는지를 도시한다.

도 4a) 및 도 4b)는 글자 'a'를 디코딩하기 위해 y 극한치를 사용하는 문제를 도시한다.

도 5는 글자 'a'의 분할을 도시한다.

도 6은 글자 'b'의 분할을 도시한다.

도 7은 글자 'B'의 분할을 도시한다.

도 8a) 및 도 8b) 및 8c)는 글자 'B'의 세 개의 개별 세그먼트들을 도시한다.

도 9는 글자 'E'의 분할을 도시한다.

도 10은 다소 선 배향에 근거한 퍼지 그룹 멤버쉽을 도시한다.

도 11a) - d)는 문자 인식에 사용된 일반적인 자획 프리미티브들의 선택을 도시한다.

본 발명의 대상을 더 정확하게 이해하기 위해서, 기록된 명세서 및 첨부된 청구범위에 적용되는 바와 같이, 다음 모드들이 서술된다.

다음 예들은 본 발명의 한 실시예의 보다 상세한 개요를 제공한다. 이 예들은 단순히 예시적일 뿐이며 본 발명의 범위를 제한하지 않도록 의도된다.

본 발명은 수기 문자 인식을 수행하기 위한 방법을 제공한다. 또한 그 방버을 수행하는 장치가 제공된다. 이 도면에서, 본 발명의 특징들을 예시하도록 결합된 이 도면들에서, 유사 참조 번호들은 그 도면들에 있어 유사 부분들을 나타내도록 사용된다.

본 발명의 실시예들에 따른 방법들은 도 1에 도시된 예인 프로세싱 시스템을 사용하여 실행될 수 있다.

특히, 프로세싱 시스템(10)은 일반적으로 적어도 프로세서(20), 메모리(21), 및 그래픽 태블릿 및/또는 터치스크린과 같은 입력 장치(22), 도시된 바와 같이 버스(24)를 통해 함께 결합된 디스플레이와 같은 출력 장치(23)를 포함한다. 또한 데이터베이스와 같은 스토어(11)에 프로세싱 시스템을 결합하기 위한 외부 인터페이스가 25로 도시된 바와 같이 제공된다. 부가적으로, 스타일러스는 사용자가 그 시스템(10)에 텍스트를 입력할 수 있도록 하는 데 사용될 수 있다.

사용에 있어서, 프로세싱 시스템은 모델 및 규칙 데이터가 데이터베이스(11)에 저장되거나 그로부터 검색될 수 있도록 적응된다. 이것은 프로세서가 입력(22)를 통해 수기 데이터를 수신하고, 상기 수기 데이터를 처리하고, 이것을 스토어에 저장된 데이터와 비교할 수 있도록 한다. 이것은 다시 프로세싱 시스템이 수기 텍스트에 포함된 문자들을 인식할 수 있도록 한다. 이로부터, 프로세싱 시스템(10)이 컴퓨터, 랩톱, 특수 하드웨어 등과 같은 어떤 형태의 프로세싱 시스템도 된다는 것을 알 수 있을 것이다.

프로세싱 시스템(10)의 동작이 이제 더 상세히 서술될 것이다.

모델-특정 알고리즘들의 예들을 포함하여, 수기 문자 인식을 위한 자획 분할에 대한 모델-특정 접근법이 서술된다. 그 과정의 최적화를 위한 기술들이 또한 주어진다.

종래 기술에 관련하여 이상에서 서술된 자획 분할 발견적 방법(stroke segmentation heuristics)은 수기 입력에서의 극한적인 변화성으로 인해 항상 일관적인 분할 지점들을 생성하는 것은 명백히 아니다. 글자 인식에 무관하게 동작하는 분할 과정에 의해 부분적으로 문제가 야기된다. 이것은, 퇴행적인 상황들이 부정확한 결과들을 생성하며 이러한 분할 장애들은 그 세그먼트들을 단일 문자와 상호연관시키려고 하는 분류기에서 검출 및 보정이 어려울 것이라는 것을 의미한다.

수기(handwriting)의 모호함으로 인해, 도형 기호는 국부적 문맥에 따라 다른 의미들을 가질 수 있으며; 예컨대, 모호한 글자 형성은 (사전 또는 문자 문법과 같은) 구문(syntactic) 또는 의미(semantic) 정보에 근거하여 상이하게 이해될 수도 있다. 유사하게, 개별 글자를 포함하는 개별 자획들 및 서브 자획들은 정확한 이해가 이루어지는 것을 보증하기 위해 국부적 문맥에 관하여 이해될 필요가 있다. 모델 특정 자획 분할을 사용하는 본 발명의 실시예들은 수기 자획들의 분할을 지연시켜, 그 분할이 분류 과정과 통합되도록 할 수 있다. 이것은 분할 프로세스에 의해 사용될 글자 모델에 의해 예상되는 분할 지점들의 유형에 대한 더 많은 정보를 발생한다. 자획들을 분할하는 데 사용되는 메트릭(metric)은 인식되고 있는 시리즈들로부터의 현재 문자의 예상되는 구조에 근거하며, 따라서 단일 글로벌 분할 과정은 사용되지 않는다.

각 글자 원형(prototype), 비자필(allograph) 또는 문자 모델이 그 입력에 비교될 때, 그 입력 자획들은 어떤 기술이라도 그 임계 지점들을 시겹ㄹ할 것이라는 데 근거하여 분할되고, 그것은 그 자획들의 프리미티브들로의 보다 일관적인 분할을 초래한다. 부가적으로, 특정 글자 모델을 위한 예상되는 분할 지점들을 발견하는 데 있어 분할 프로세스의 장애는 그 모델의 부가적인 분석이 필요하지 않다는 것을 의미하며, 그것은 그 입력의 일반적 구조와 매칭하지 않는 모델을 효율적으로 추려낼(culling) 수 있도록 한다.

실제적으로, 사용자는 스타일러스를 사용하는 문자를 입력하고, 본 발명의 실시예를 수행하도록 프로그램을 실행하는 프로세서는 먼저 그 입력 글자가 'a'인지 여부를 검사하고, 'a'에 대하여 무엇이 예상되는지에 따라 그 입력을 분할하려고 시도할 것이다. 그리고나서 그것은, 각 시도를 스코어링(score)하는, 예컨대 'b' - 'z'와 같은 몇몇의 또는 모든 가능한 데이터 엔트리들에 대비하여 그 입력을 검사한다. 이러한 방식으로, 가장 근접한 배칭을 갖는 결과가 입력 글자로서 분류된다. 적절한 스코어링 체계가 이후에 개시된다.

특정 글자가 기록될 수 있는 다양한 방식들을 고려하도록 각 글자에 대한 여러 모델들이 존재할 수도 있다. 예를 들어, 몇 사람은 글자 'z'를 옆으로 상부 케이스 'N'처럼 보이도록 쓰는 반면에, 다른 사람들은 숫자 '3'를 닮도록 쓴다.

각각의 글자 모델은 수행될 분할 과정을 잠재적으로 요구하지만, 다수의 모델들은 동일하거나 유사한 분할 지점들을 사용할 것이며, 이것은 이 지점들이 분할 프로세싱 오버헤드를 감소시키도록 캐싱(cach)될 수 있다는 것을 의미한다는 것이 유의된다. 예를 들어, 글자들 'y' 및 'g'는 서술된 바와 같이 캐싱될 수도 있는 유사한 종속 말단 세그먼트들(depending tail segments)을 갖는다.

인식은 그 신호로부터 노이즈를 제거하기 위해 몇가지 간단한 선행처리로 시작된다. 이것은 (샘플링된 프로세스가 노이즈를 갖는다면) 샘플링된 지점들의 평활화하는 것과, 만약 수행되지 않는다면 그 인식 프로세스를 혼동시키는, 자획들의 시작부와 단부로부터 후크들(hooks)을 제거하는 것과 같은 기술들을 포함할 수 있 다. 그 지점들은, 또한 샘플들 간에 최소 거리를 강요하기 위해, 중복 지점들을 제거하거나 리샘플링함으로서 정규화(normaliz)될 수도 있다.

수기 분류기내에 정의된 각 글자 모델은 그 입력 자획들 상에 수행될 분할 과정을 정의한다. 분할은 그 자획을 일련의 서브 자획들로 분할하는 데 사용될 분할 지점들의 세트를 생성한다. 그 알고리즘은 한 번에 한 개의 자획에 실시한다. 너무 작아서 구조적으로 연관성이 없는 서브 자획들이 생성되는 것을 막기 위해, 최소 서브 자획 길이는 그 자획의 전체 길이에 기초하여 계산된다.

p_i = 지점 i의 좌표들

n = 그 자획에서의 지점들의 수

λ= 최소 길이 임계(경험적으로 0.05로 설정)

현재 글자 모델에 의해 정의된 바와 같은 잠재적인 분할 지점을 식별할 때까지, 분할은 그 샘플들에 걸쳐 그 알고리즘을 반복하면서 진행된다. 정확한 지점이 발견될 수 없다면, 그 알고리즘은 실패(failure)로 회귀하고, 그 입력이 그 글자모델에 의해 예상된 구조에 일치하지 않다는 것을 나타낸다. 그렇지 않으면, 이 지점에서 그 자획을 분할함으로서 생성된 두 개의 서브 자획들이 l_min 보다 클 경우, 분할 지점은 무시되고 프로세싱이 계속된다. 모든 분할 지점들이 정확하게 식별되었다면, 그 과정은 종료되고 분할이 성공적이라는 것을 인식기에 나타낸다.

글자 모델들은 그 수기 글자의 예상된 구조에 의해 표시된 바와 같은 어떤 임의의 분할 기술을 사용할 수 있으며, 몇가지 모델들은 어떤 자획 분할도 요구하지 않을 수도 있다는 것이 주의된다. 예컨대, 'c' 및 'o'에 대한 간단한 모델들이, 그 자획들을 서브 자획 프리미티브들로 축소하려는 시도없이, 직접적으로 그 입력과 간단히 매칭될 수도 있다. 일반적으로, 이러한 단일 탄도형 동작들의 분할로부터 어떤 정보도 유도되지 않으며, 그 비분할된 자획들에 대하여 매칭을 허용하면 전통적인 분할 기술에 의해 생성될 수 있는 문제들(예컨대, 평활한 속도-곡률 프로파일은 분할이 기록자의 스타일에 따라 임의의 지점에서 발생하도록 야기할 수 있다)을 회피할 수 있다.

다음의 예들은 다양한 모델들을 위한 분할 과정을 예시한다. 도 5는 글자 'a'의 단일 자획 비자필의 분할에 사용된 임계점들(30,32)를 나타낸다.

그 모델이 그 글자 선(32)의 최상부에서 자획이 분할될 것을 예상한다고 가정하면, 분할 알고리즘은 초기에 제 1 Y-최소치(30)를 찾고 나서 이 지점(30)이후의 Y-최대치(32)를 찾으려고 시도한다. Y-최대치가 발견되면, 그 지점은 분할 지점으로서 표시된다. Y-최소치(30)은 분할에 사용되지 않고, 단순히 정확한 Y-최대치 지점을 발견하는 것을 보장하기 위해 사용된다는 것을 유의하라. 먼저 초기 Y-최소치(30)를 찾지 않으면, 부정확한 Y-최대치가 위치될 수 있다(도 4b에서 도시된 바와 같이). 또한 이 과정이 위의 도 1-3에 관해 논의된 모든 예들을 위한 정확한 분할 지점을 발견할 것이라는 것을 유의하라.

반대 예로서, 사용자에 의해 의한 입력인, 수기 'c'가 이상에서 정의된 'a' 모델을 사용하여 매칭되고 있는 것을 가정하라. Y-최소치가 발견되는 반면에, 후속 의 Y-최대치를 발견하는 것은 실패한다. 끝-지점들은 분할 지점들로서 매칭되지 않을 것이다. 결과적으로, 그 분할 과정은 실패할 것이고, 그 입력이 그 모델의 일반적인 구조와 매칭되지 않다는 것을 나타내며, 그 모델이 잠재적인 매칭 리스트로부터 제거되도록 할 것이다.

이상의 분할 과정이 다수의 글자 모델에 대하여 양호하게 작동되는 반면에, 다른 모델들은 다른 알고리즘들을 요구할 것이다. 간단한 예로써, 도 6은 글자 'b'의 모델을 위한 분할을 도시한다.

이러한 'b'의 단일 자획 비자필을 분할하기 위하여, 제 1 Y 최소치가 발견되고, 분할 지점(40)으로서 사용되며, 수직선 서브 자획 및 곡선의 'o' 형태 서브 자획을 생성한다. 더 복잡한 분할 과정은 도 7에 주어진다.

이상에서 주어진 글자 'B'의 단일 자획 모델에서, 제 1 분할 지점은 제 1 Y-최소치(50)에서 발견된다. 이 이후에, Y-최대치(52)가 발견되고, X-최소치(54)가 뒤따르며, 이것은 제 2 분할 지점으로서 사용된다. 도 8은 분할된 글자를 도시한다.

그 결과는 도 8a)에서 도시된 바와 같은 처음의 수직선 서브자획과, 그 다음의 도 8b)에서의 곡선의 'p' 서브 자획과, 그 다음의 도 8c)에서의 '옆의로 누운-u' 서브자획이다. 이 분할 접근법은 곡률 및 속도에서의 변화에 강하며, 폭넓게 다양한 기록 스타일들에 대하여 일관적인 분할을 생성한다. 다른 한편, 종래 기술에 서 사용된 글로벌 분할 과정들은 이상에서 주어진 것과 같은 수기 글자들의 매우 일관되지 않은 분할을 생성할 수 있으며, 펜 자획들의 일관된 속도 및 곡률의 정도 에 의존한다.

모든 글자 모델들이 일관적으로 X- 및 Y- 극한치를 사용하여 분할될 수 있는 것은 아니다. 예컨대, 도 9는 글자 'E'의 2 자획 비자필의 분할을 도시한다.

특히 그 글자가 다소 회전되거나 기울어지면, 분할 지점들(60, 62)을 검출하는 데 X-최소치를 사용하는 것은 성공적이지 않을 수 있다. 이 비자필에 대하여, 제 1 자획에서 가장 큰 각 변화가 있는 두 지점이 분할에 사용될 수 있다. 곡률이 가장 큰 두 지점들은 각 점에서 곡률 값들을 분류함으로서 쉽게 발견될 수 있기 때문에, 각 임계(angular threshold)는 이 지점들을 발견하는 데 요구되지 않는다는 것을 유의하라. 예컨대, 분할 지점들이 대략 동일한 길이의 서브 자획들을 생성한다는 것을 보장하는 것과 같이, 더 복잡한 프로세싱이 가능하다. 전반적으로, 입력 자획의 어떤 구조적 특징에 근거한 임의적으로 복잡한 모델 특정 분할(arbitrarily comples model-specific segmenation)은 정확한 분할 지점들이 일관적으로 발견되는 것을 보장하도록 수행될 수 있다.

글자 'a'에 대하여 이상에서 서술된 분할 과정은 곡선 영역과 그 이후의 첨점과, 그 이후의 다운 자획(down-stroke)(예컨대, 'd', 'g', 'u', 'y' 등의 몇가지 비자필들)을 갖는 기본 구조를 따르는 모든 글자 모델들에 대하여 실시될 것이다. 결과적으로, 발견된 서브 자획들은, 이후에 이러한 유사 구조 모델들과 매칭할 때 사용하기 위하여 저장될 수 있다. 또한, 서브 자획들이 분류 전에 특징 표현(feature representation)으로 변환된다면, 특징 벡터들은 반복된 특징 추출을 방지하기 위해 저장될 수 있다.

사용될 수 있는 다수의 자획 분할 기술들은 서브 자획 거리 및 곡률 정보를 필요로 할 것이다. 자획 분할이 수행될 때마다 이러한 값들을 재계산하는 것을 피하기 위해, 자획상의 각 지점이 가진 거리 및 곡률을 저장함으로써 그 값들을 캐싱하기 위해 제 2 데이터 구조가 생성될 수 있다.

다음의 설명은 모델 특정 자획 분할이 어떻게 수기 문자들의 인식에 사용되는지를 예시한다. 이 예는 퍼지-논리 기반의 분류기에 기초하지만, 이 기술이 자획 분할을 사용할 수 있는 어떤 분류기 유형에도 사용될 수 있으며, 그 과정은 (신축적 매칭과 같은) 구조적 및 통계적 분류기들에 쉽게 결합될 수 있다.

수기 분자들의 부정확성 및 스타일상의 변화를 모델링하는 한가지 접근법은 퍼지 논리를 사용하는 것이며, 이것은 정확하게 정의되지 않은 기준들의 세트들을 정의할 수 있도록 한다. 퍼지 논리 분류기들은, 특징들이 그 모델을 서술하는 퍼지 규칙들과 얼마나 잘 매칭하는가에 따라 퍼지 모델에 대한 멤버쉽의 등급을 입력 신호에 할당함으로써 작동한다. 수기 문자 인식을 위한 적절한 퍼지 논리 분류기들은, 1998년의 패턴 인식에 대한 국제회의(ICPR'98)의 1121-1123페이지의 "A New Fuzzy Geometric Representation for On-Line Isolated Character Recognition"과, 1997년의 패턴 인식 30권 1591-1604페이지의 "Fuzzy Feature Description of Handwriting patterns"에서 더 서술된다.

예로서, 직선들을 정의하기 위한 퍼지 논리 규칙은 다음 세트들을 포함할 수 있다: 수직선들(VL), 수평선들(HL), 양의 기울기의 선들(PS), 및 음의 기울기의 선들(NS). 명백히, 대부분의 선들은 이렇게 제한된 세트들내에서 완벽히 맞지는 않 을 것이며, 통상적으로 이 세트들 중 한개 이상에 대한 멤버쉽의 등급을 가질 것이다. 따라서, 퍼지 논리는 이산적이기 보다 점진적인 논리적 세트 표기를 정의한다. 도 10은 정규화된 배향(orientation)(도(degree)로 나타냄)에 의해 정의된 바와 같이, 직선들에 대한 가능한 그룹 멤버쉽 함수들의 세트를 도시한다.

도 10은 일련의 종 모양의 커브들을 도시한다. 예로서, VL로 표시된 커브는 수직선을 의미하고, 진정한 수평선에 비교할 때 대략 45˚보다 약간 작거나 135˚보다 약간 큰 범위의 각들을 갖는 선들의 세트로 정의되며, 90˚에 가장 가까운 것들은 더 높은 웨이팅(weighting)을 갖는다. 유사한 곡선들이 수평선들(HL), 음기울기 선들(NS), 및 양기울기 선들(PS)에 대하여 도시된다.

예시적인 퍼지 논리 분류기는 개별 글자 모델들을 정의하는 규칙들의 세트로 구성된다. 이 규칙들은 일반적 자획 형태들의 세트에 대하여 자획 및 서브 자획 프리미티브들과 매칭한다. 이 규칙들은 또한 유사한 프리미티브들로 구성된 글자들을 구별하기 위해 사용된 상대적 위치 정보를 포함한다. 사용된 언어학적 프리미티브들은 도 11a)에서 도시된 'o'형 커브(OC), 도 11b)에서 도시된 'c'형 커브(CC), 도 11c)에서 도시된 'd'형 커브(DC), 및 도 11d)에서 도시된 오른쪽으로의 수직커브(RVC)를 포함한다.

각 서브 자획들에 있어서, 이러한 프리미티브 세트들에서의 멤버쉽의 등급은 다음 정보를 사용하여 자획들의 간단한 구조적 분석에 근거하여 계산된다: 절대 자획 곡률, 자획의 바운딩 박스(bounding box)와 관련된 시작 및 끝점들의 위치, 및 시작점 및 끝점들 사이의 선의 배향.

위치 프리미티브들 LEFT, RIGHT, TOP, CENTRE, 및 BOTTOM은 글자의 바운딩 박스내의 자획 위치를 나타내며, 이상에서 서술된 직선 프리미티브들(VL, HL, PS, NS)가 또한 사용된다. 몇가지 전형적인 규칙 예들은 다음과 같다:

이상의 규칙들에서, '│'기호는 퍼지 OR을 나타내고, '&'기호는 퍼지 AND를 나타내며, 괄호는 논리적 선행을 나타내며, 콤머는 퍼지 AND(즉, 콤머의 왼쪽상의 그 표현은 제 1 서브 자획을 사용하여 값이 구해지며, 그 오른쪽상의 그 표현은 제 2 서브자획을 사용하여 값이 구해지고, 그 결과들은 퍼지 AND를 사용하여 결합된다)를 사용하여 서브자획 합성하는 것을 나타낸다.

예로서, 제 1 규칙은 다음과 같을 수 있다. 글자 'a'는 글자에서 왼쪽이고 수직 중앙에 위치된 'o'형 커브 또는 'c'형 커브와, 그 이후의 그 글자의 오른쪽에 위치한 오른쪽으로의 수직선 또는 수직커브이다. 수기의 스타일상의 가변성을 모델링하는, 각 글자를 위한 다수의 대안적인 규칙들이 존재할 수도 있다는 것이 유의된다.

이 규칙들은, 프리미티브들이 각 글자 모델들을 위하여 어떻게 구성되는지를 서술하는 반면에, 그들은 자획들이 프리미티브들로 어떻게 분해되는지는 나타내지 않는다. 이를 위해, 각 규칙은 이 규칙이 값이 구해지기 전에 입력 자획들에 대하여 실행되는 모델-특정 분할 규칙과 연관된다.

MAX_Y는 그 다음 Y-최대치를 구하는 것을 나타낸다. MIN_Y은 그 다음 Y-최소치를 구하는 것을 나타낸다. →기호는 왼쪽상에 정의된 지점이 먼저 발견되지만 분할에는 사용되지 않는다는 것을 나타낸다; 오히려, 그것은 후속 지점이 정확하게 위치되어 있다는 것을 보장하기 위해 발견된다. 'c' 모델의 분류는 단지 자획을 필요로하고, 따라서 그 모델에 대하여는 분할이 수행되지 않는다는 것을 유의하라. 'k' 모델은 복수의 분할 지점들을 포함하는 규칙의 예로서 도시되며, 지정된 순서로 발견된다.

일단 자획 분할이 모델 특정 규칙들을 사용하여 수행되면, 서브자획들은 일반 자획 클래스들로 멤버쉽의 등급에 의해 분류된다. 이 멤버쉽 값들은 그 때 구조 규칙들을 평가하는 데 사용되며, 그 입력이 글자 모델과 얼마나 잘 매칭하는지를 나타낸다. 각 글자 모델은 유사하게 평가되고, 그 입력은 가장 높은 퍼지 멤버쉽 값을 주는 모델의 클래스로서 분류된다.

요약하면, 각 입력은 각 규칙에 대하여 검사되고, 각 규칙은 또한 입력 문자가 그에 대하여 검사되는 문자와 동일하다는 예상에서 취해지도록 분할 접근법을 정의한다. 만약 그 입력 문자가 규칙에 의해 그에 대하여 검사되는 문자에 일치되지 않기 때문에 특정 문자 모델을 위한 분할이 수행될 수 없다면, 분류에 있어 그 시도에 0 또는 낮은 스코어가 부착될 것이다.

본 발명은 또한, 본 출원의 명세서에 언급되거나 나타내어진 부분들, 구성요소들, 및 특징들로, 개별적으로 또는 집합적으로 상기 부분들, 구성요소들 또는 특징들 중 두개 이상의 임의의 또는 모든 조합들로 폭넓게 구성된다고 할 수 있으며, 공지된 등가물들이 마치 개별적으로 제시된 것처럼 여기에 결합되는 것으로 보이도록, 본 발명이 관련된 기술에서 공지된 등가물들을 갖는 특정 정수들이 여기에 언급된다.

비록 바람직한 실시예가 상세히 서술되었지만, 다양한 변화들, 치환들 및 변경들이 이전에 서술된 바와 같이 그리고 이후에 청구된 바와 같이 본 발명의 범위를 이탈하지 않으면서 본 발명의 숙련된 자에 의해 이루어 질 수 있음이 이해될 것이다.

Claims

일련의 저장된 문자 모델들과 주어진 입력 문자를 순차적으로 비교하는 단계를 포함하는, 기록된 문자 인식을 수행하는 방법에 있어서,

상기 비교 단계는:

현재 문자 모델과 연관된 분할 체계에 따라 상기 주어진 입력 문자를 하나 이상의 세그먼트들로 분해하는 단계; 및

상기 현재 문자모델과 연관된 세그먼트 모델에 대하여 상기 세그먼트 또는 세그먼트들을 평가하는 단계로서, 상기 평가는 상기 모델에 일치하는 정도를 측정하는 스코어를 생성하는, 평가단계를 더 포함하는, 상기 비교 단계와;

상기 일련의 문자 모델들에 있어서 다수의 문자 모델들에 대해 상기 비교 단계를 반복하는 단계와;

최고 스코어가 할당된 문자 모델을 선택하고, 상기 입력 문자를 상기 문자 모델과 연관된 문자로써 분류하는 단계를 포함하는, 기록문자 인식 수행 방법.
제1항에 있어서,

인식을 위한 상기 문자는 글자, 숫자, 또는 구두점 중에 하나인, 기록문자 인식 수행 방법.
제1항 또는 제2항에 있어서,

상기 입력 문자를 한 개 이상의 세그먼트들로 분해하는 단계는 각 세그먼트가 다음 식,

l_min = 세그먼트의 최소길이

p_i= 지점 i의 좌표들

n = 그 자획내의 지점들의 수

λ = 최소 길이 임계,

에 따라 최소 길이를 갖도록 수행되는, 기록문자 인식 수행 방법.
제1항 또는 제2항 중 어느 한 항에 있어서,

상기 주어진 입력 문자가 상기 현재 문자 모델에 연관된 분할 체계에 따라 분할될 수 없다면, 상기 현재 문자 모델이 상기 주어진 입력 문자를 위한 가능한 매치로써 거절되는, 기록문자 인식 수행 방법.
제1항에 있어서,

상기 평가 과정은 이상(ideal)에 더 가깝게 일치하도록 하는 스코어를 할당하는, 기록문자 인식 수행 방법.
제5항에 있어서,

상기 평가 과정은 퍼지 논리 규칙들을 사용하는, 기록문자 인식 수행 방법.
제1항에 있어서,

각 문자 모델은, 동일 문자의 다른 형태들을 인식하는 것이 수월하게 되도록 그것을 복수의 분할 체계들과 연관시킬 수 있는, 기록문자 인식 수행 방법.
제1항에 있어서,

상기 입력 문자를 한 개 이상의 세그먼트들로 분해하기 위한 상이한 규칙들은 상이한 문자 모델들에 대해 정의될 수 있는, 기록문자 인식 수행 방법.
수기 문자 인식(handwritten character recognition)을 수행하는 장치에 있어서,

- 입력 자극을 생성하기 위한 그 위의 스타일러스(stylus)의 이동에 응답하는 입력 표면과;

- 메모리와;

- 상기 입력 자극을 수신하고 상기 입력 자극을 프로세싱하기 위한 프로세서로서, 제1항 내지 제8항 중 어느 한 항에 있어서의 방법을 수행하도록 적응된 프로세서를 포함하는, 수기문자 인식 수행 장치.