KR20080034956A

KR20080034956A - 기입 입력의 스타일 연동 이용

Info

Publication number: KR20080034956A
Application number: KR1020087004220A
Authority: KR
Inventors: 아흐마드 에이. 압둘카더
Original assignee: 마이크로소프트 코포레이션
Priority date: 2005-08-29
Filing date: 2006-08-29
Publication date: 2008-04-22
Also published as: RU2419871C2; JP2009506464A; EP1920386A1; US7715629B2; CN101253513A; BRPI0615318A2; US20070047817A1; RU2008107774A; CN101253513B; WO2007027747A1

Abstract

사용자의 기입 스타일에 기초하여 수기 입력을 처리하기 위한 기술들이 개시된다. 몇몇 기술들은 사용자가 단일 문자를 기입하는 스타일을 이용하는 반면, 다른 기술들은 대안으로 또는 추가로 수기 스타일을 구성하는 이서체들의 그룹을 이용한다. 기입 스타일 분석 도구 내에 구현되는 것과 같은 이러한 기술들의 몇몇 구현은 사용자에 의해 기입된 하나 이상의 문자를 분석하여, 사용자의 수기 스타일이 속하는 지리 영역 또는 문화 그룹과 같은 공동체를 식별한다. 다른 구현들은 대안으로 또는 추가로 사용자의 수기를 특정 수기 스타일로 분류하기 위해 사용자의 수기의 하나 이상의 문자를 분석한다. 이어서, 기입 스타일 분석 도구는 사용자의 개인 수기 스타일에 대해 고유하게 구성된 수기 인식 애플리케이션을 사용자에게 제공할 수 있다.

기입 스타일 분석 도구, 수기 인식 애플리케이션, 수기 스타일, 이서체, 문자

Description

기입 입력의 스타일 연동 이용{STYLE AWARE USE OF WRITING INPUT}

컴퓨터는 전 세계를 통해 다양한 목적을 위해 일상적으로 사용되고 있다. 컴퓨터가 일반화됨에 따라, 컴퓨터 제조자들은 컴퓨터들을 더 액세스 가능하고 사용하기 쉽게 만들려고 계속 시도해왔다. 그러한 하나의 노력은 자연적 입력 방법의 개발이었다. 예를 들어, 음성 인식은 사용자가 데이터를 크게 말함으로써 간단하게 데이터를 컴퓨터에 입력하는 것을 허가한다. 이어서, 사용자의 이야기의 음소들이 분석되어, 타이핑된 텍스트로 변환된다. 대안으로, 수기 인식은 사용자가 스타일러스를 이용하여 디지타이저 상에 기입하여 전자 잉크를 생성함으로써 데이터를 입력하는 것을 허가한다. 컴퓨터는 잉크의 형상들을 분석하여 타이핑된 텍스트로 변환한다.

수기 입력 기술의 출현은 많은 컴퓨터 사용자에게 특히 이로운 것이었다. 일부 사용자들은 이들이 키보드를 이용하여 문자들을 타이핑할 수 있는 것보다 빠르게 손으로 동일 문자들을 기입할 수 있다. 따라서, 이러한 사용자들은 키보드 입력보다 빠르게 수기 입력을 생성할 수 있다. 대부분의 동아시아 언어 사용자들은 또한 수기 입력이 키보드 입력보다 효율적임을 안다. 동아시아 언어들은 통상적으로 수천 개의 문자를 가진 그림 문자 세트를 이용하여 기입된다. 대형 키보드조차도 사용자가 동아시아 언어로 기입하기에 충분한 키들을 포함할 수 없다. 따 라서, 키보드 사용자는 지루하게 키보드 상에 표현된 음성 문자들을 원하는 그림 문자들로 변환하는 것이 요구된다. 수기 입력을 수용하고 인식하는 컴퓨터에서, 동아시아 언어 사용자는 이제 간단하게 원하는 그림 문자를 직접 전자 잉크로 기입할 수 있다. 또한, 일부 사용자들은 키보드의 사용을 허가하지 않는 환경에서 컴퓨터를 사용한다. 예를 들어, 병원을 돌아다니는 의사는 키보드의 사용이 비실용적인 경우 수기 입력을 생성할 수 있다.

수기 입력 기술들은 다양한 사용자에게 매우 편리할 수 있지만, 이러한 기술들의 유용성은 이들의 인식 정확도에 크게 의존한다. 그러나 상이한 사용자들은 동일 문자를 다양한 상이한 형상을 이용하여 기입하므로, 시종일관 정확한 수기 인식을 얻는 것은 어려울 수 있다.

수기 인식의 문제를 해결하기 위하여, 몇몇 소프트웨어 개발자들은 다양한 사용자에게 보편적인 수기 인식 소프트웨어 애플리케이션들을 생성하였다. 이들 소프트웨어 애플리케이션은 하나의 언어에 대해 모든 형태의 수기에 공통인 하나 이상의 수기 인식 기술을 이용한다. 예를 들어, 이들 기술 중 일부는 수기 문자를 한 세트의 문자 원형들과 비교하여 수기 문자가 어느 원형과 가장 닮았는지를 판정한다. 이어서, 원형들의 세트는 사용자의 알파벳 내의 각 문자에 대해 하나 이상의 통상의 이서체를 포함할 것이다. 이러한 범용 인식 기술들은 다양한 사용자에 대해 아웃-오브-더-박스(out-of-the-box) 방식으로 수기를 인식하지만, 이들은 통상적으로 임의의 특정 사용자에 대해 높은 인식 정확도를 제공하지 못할 것이다. 더욱이, 이러한 유형의 인식 기술들의 정확도는 통상적으로 시간에 따라 개선되지 못할 것이다.

몇몇 소프트웨어 개발자들은 대안으로, 특정 개인의 수기를 인식하도록 학습하는 개인화된 수기 인식 소프트웨어 애플리케이션을 제공한다. 그러나 이들 애플리케이션은 통상적으로 학습 프로세스 동안 사용자가 많은 양의 수기 데이터를 입력할 것을 요구한다. 결과적으로, 이들 수기 인식 소프트웨어 애플리케이션 중 일부는 그다지 정확한 "아웃-오브-더-박스" 방식은 아니다. 또한, 많은 사용자는 이러한 유형의 소프트웨어가 사용자의 수기를 인식하도록 적절히 훈련시키는 데 필요한 시간을 투자하기를 꺼린다. 또한, 이들 개인화된 수기 인식 소프트웨어 애플리케이션은 과잉 훈련에 민감하다. 소프트웨어는 시간에 따라 그의 인식 프로세스를 계속 정교화할 때 사용자에 의해 기입된 비정상적인 문자 형상들을 그의 훈련 데이터에 포함시킬 수 있다. 사용자의 통상적인 기입과 다른, 이러한 가끔 비정상적인 문자 형상들은 시간에 따라 애플리케이션의 인식 정확도를 실제로 줄일 수 있다.

<발명의 요약>

본 발명의 다양한 양태들은 사용자의 기입 스타일에 기초하여 수기 입력을 처리하기 위한 기술들에 관한 것이다. 본 발명의 몇몇 양태는 사용자가 단일 문자를 기입하는 스타일을 이용할 수 있다. 본 발명의 다른 양태들은 대안으로 또는 추가로 수기 스타일을 형성하는 이서체들의 그룹을 이용할 수 있다.

예를 들어, 본 발명의 몇몇 구현은 사용자에 의해 기입된 하나 이상의 문자를 분석하여, 사용자의 수기 스타일이 속하는 지리 영역 또는 문화 그룹과 같은 공동체를 식별할 수 있다. 이러한 구현들에서, 사용자는 해당 공동체에 의해 사용되 는 수기 스타일들을 인식하도록 맞춤화된 수기 인식 애플리케이션을 제공받을 수 있다. 본 발명의 다른 구현들은, 대안으로 또는 추가로 사용자의 수기를 특정 수기 스타일로 분류하기 위하여 사용자의 수기 중 하나 이상의 문자를 분석할 수 있다. 이어서, 사용자는 그의 개인적 수기 스타일을 위해 고유하게 구성된 수기 인식 애플리케이션을 제공받을 수 있다. 이롭게도, 양 유형의 수기 인식 애플리케이션들은 사용자에게 많은 양의 훈련 데이터를 제출할 것을 요구하지 않고 범용 수기 인식 애플리케이션보다 높은 인식 정확도를 제공할 수 있다.

본 발명의 또 다른 구현들에서, 사용자의 수기 스타일은 대안으로 또는 추가로 인식 프로세스를 개선하기 위해 수기 인식 애플리케이션이 비정상적으로 기입된 문자를 훈련 데이터로 사용하는 것을 방지하는 데 사용될 수 있다. 이어서, 본 발명의 몇몇 예는 대안으로 또는 추가로 사용자의 이서체들 중 하나 이상을 분석하여 사용자가 다른 문자들을 어떻게 기입하는지를 예측할 수 있다. 예를 들어, 이들 문자의 각각에 대응하는 훈련 데이터를 제출할 것을 사용자에게 요구하는 것이 아니라, 이들 구현은 대신에 사용자에게 그가 다른 문자들을 어떻게 기입하는지를 확인하도록 프롬프트할 수 있다. 이들 구현은 예를 들어 단순하게 사용자가 분석된 이서체들과 동일한 기입 스타일에 속하는 이서체들 사이에서 선택하게 할 수 있다.

본 발명의 또 다른 구현들은 대안으로 또는 추가로 사용자의 기입 스타일을 분석하여, 사용자가 오른손으로 또는 왼손으로 기입하는지를 판정할 수 있다. 이어서, 이들 구현은 예를 들어 사용자의 손잡이 유형(handedness)에 맞도록 컴퓨터의 하나 이상의 사용자 인터페이스를 구성할 수 있다.

본 발명의 상이한 구현들의 이들 및 다른 특징들 및 이점들은 아래에 보다 상세히 설명된다.

특허 또는 출원 파일은 칼라로 제작된 적어도 하나의 도면을 포함한다. 이러한 칼라 도면을 갖춘 특허 또는 특허 출원 공개의 사본들은 요청 및 필요 수수료의 지불시에 특허청에 의해 제공될 것이다.

도 1A 및 1B는 학교에서 수기를 가르치는 데 통상적으로 사용되는 수기 스타일 모델을 나타내는 도면이다.

도 2 및 3은 본 발명의 다양한 예에 따른 수기 인식 기술들을 구현하는 데 사용될 수 있는 운영 환경의 예들을 나타내는 도면이다.

도 4는 본 발명의 다양한 예에 따라 구현될 수 있는 기입 스타일 분석 도구를 나타내는 도면이다.

도 5는 문자 K의 다양한 잉크 샘플에 대한 클러스터링의 일례를 나타내는 도면이다.

도 6은 다양한 손잡이 유형 노출 이서체(handedness revealing allograph) 및 이들에 대응하는 기입자들의 손잡이 유형 통계를 나타내는 도면이다.

도 7은 본 발명의 다양한 예에 따라 사용자로부터의 기입 샘플들을 하나 이상의 손잡이 유형 노출 이서체와 비교하는 수기 인식 도구를 나타내는 도면이다.

도 8은 사용자에게 본 발명의 다양한 예에 따라 사용될 수 있는 그의 손잡이 유형을 확인하도록 프롬프트하는 사용자 인터페이스를 나타내는 도면이다.

도 9는 본 발명의 다양한 예에 따른 계층적 클러스터링 알고리즘을 미국 출신의 267명의 기입자들에 의해 기입된 99개의 문자들에 대응하는 71,600개의 잉크 샘플들에 대해 수행하여 얻은 문자들 "q", "t" 및 "x"에 대한 결과적인 스타일들을 나타내는 도면이다.

도 10은 본 발명의 다양한 예에 따른 계층적 클러스터링 알고리즘을 영국 출신의 228명의 기입자들에 의해 기입된 99개 문자에 대응하는 70,000개 잉크 샘플에 대해 수행하여 얻은 문자들 "q", "t" 및 "x"에 대한 결과적인 스타일들을 나타내는 도면이다.

도 11은 이용될 특정 공동체에 공통적인 이서체들에 대해 고유하게 훈련된(또는 고유하게 훈련되도록 구성된) 수기 인식 애플리케이션을 나타내는 도면이다.

도 12는 상이한 수기 인식 애플리케이션들 사이에서 다양한 잡음 레벨을 배제함에 의한 테스팅 에러율의 변화를 나타내는 도면이다.

도 13 및 14는 상이한 훈련 기술들을 이용한 3개의 수기 인식 애플리케이션의 각각에 대한 테스팅 에러율들을 나타내는 도면이다.

도 15는 사용자에게 어떻게 그가 예측된 수기 스타일에 기초하여 특정 문자를 기입할 수 있는지를 확인하도록 프롬프트하는 사용자 인터페이스를 나타내는 도면이다.

기입 스타일

본 발명의 다양한 양태는 사용자의 기입 스타일을 이용하여 기입 입력 기술을 개선하는 것에 관한 것이다. 본 발명의 몇몇 예는 사용자가 단일 문자를 기입하는 스타일(이하 "이서체"라 한다)을 이용할 수 있다. 이하에서 사용되는 "문자"라는 용어는 일반적으로 개별 문자, 숫자 또는 다른 마크 및 합자(즉, 둘 이상의 기초 문자, 숫자 또는 다른 마크를 나타내는 단일 형상 또는 그림 문자)의 양자를 지칭한다. 문자의 이서체는 예를 들어 사용자가 문자를 기입하기 위해 행하는 스트로크들의 수, 각각의 스트로크가 기입되는 순서, 및 각각의 스트로크가 기입되는 방향에 의해 결정될 수 있다.

본 발명의 다른 양태들은 대안으로 또는 추가로 기입 스타일을 형성하는 이서체들의 그룹을 이용할 수 있다. 예를 들어, 도 1A는 현대 흘림 수기 스타일 모델을 나타내고, 도 1B는 단순 흘림 수기 스타일 모델을 나타낸다. 이들 도면으로부터 알 수 있듯이, 양 수기 스타일 모델은 대문자 "T"에 대해 유사한 이서체를 공유한다(그러나 단순 흘림 수기 스타일의 이서체가 현대 흘림 수기 스타일의 이서체보다 약간 더 기울어져 있다). 그러나 이들 수기 스타일은 소문자 "p"에 대해서는 상당히 다른 이서체를 갖는다. 본 명세서에 사용되는 "기입 스타일"이라는 용어는 일반적으로 단일 이서체, 이서체들의 그룹, 또는 다수의 이서체로 이루어진 수기 스타일을 지칭한다.

도 1A 및 1B에 도시된 수기 스타일들은 학교에서 새로운 기입자들에게 수기를 가르치는 데 통상적으로 사용되는 수기 스타일 모델들이다. 그러나 더 많은 경험을 가진 기입자는 필사 및 흘림 기입 양자를 포함할 수 있는 그 자신의 특유한 수기 스타일을 개발했을 것이다. 이러한 특유한 수기 스타일은 통상적으로 다양한 상이한 수기 스타일 모델로부터의 이서체 특성들을 임의의 특정 수기 스타일 모델에 속하지 않는 보통과 다른 이서체 특성들과 조합할 것이다. 기입자가 개인화된 수기 스타일을 개발하면, 이 스타일은 시간에 따라 변하지 않을 것이다. 따라서, 사용자의 특유한 수기 스타일은 고유 특성들 및 하나 이상의 다른 기입자와 공유되는 몇몇 특성 양자를 가질 것이다. 고유 특성 세트는 개인 특성 세트로서 지칭될 수 있고, 공유 특성들은 "스타일" 특성들의 세트로 지칭될 수 있다. 따라서, 후술하는 바와 같이, 하나 이상의 공유되는 "스타일" 특성에 기초하여 둘 이상의 특유한 수기 스타일들이 더 포괄적인 수기 스타일로 함께 그룹화될 수 있다.

구현 환경

이 분야의 전문가들이 이해하듯이, 본 발명의 다양한 예는 아날로그 회로를 이용하여 구현될 수 있다. 그러나 보다 일반적으로는, 본 발명의 양태들은 프로그래밍 또는 "소프트웨어" 명령들을 실행하는 프로그램가능한 컴퓨팅 장치를 이용하여 구현될 것이다. 따라서, 이제 본 발명의 다양한 예를 구현하는 데 사용될 수 있는 컴퓨팅 장치 환경의 일반 예가 도 2 및 3과 관련하여 설명될 것이다.

보다 구체적으로, 도 2는 본 발명의 다양한 예를 구현하는 데 사용될 수 있는 범용 디지털 컴퓨팅 환경의 일례를 나타낸다. 구체적으로, 도 2는 컴퓨터(200)의 개략도를 나타낸다. 컴퓨터(200)는 통상적으로 적어도 소정 형태의 컴퓨터 판독가능 매체를 포함한다. 컴퓨터 판독가능 매체는 컴퓨터(200)에 의해 액세스될 수 있는 임의의 이용 가능 매체일 수 있다. 예를 들어, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 포함할 수 있지만 이에 제한되는 것은 아니다. 컴퓨터 저장 매체는 컴퓨터 판독 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보를 저장하는 임의의 방법 또는 기술로 구현되는 휘발성 및 비휘발성, 이동식 및 비이동식 매체를 포함한다. 컴퓨터 저장 매체는 RAM, ROM, EEPROM, 플래시 메모리 또는 기타 메모리 기술, CD-ROM, DVD(digital versatile disk) 또는 기타 광학 저장 장치, 자기 카세트, 자기 테이프, 자기 디스크 저장 장치 또는 기타 자기 저장 장치, 펀칭된 매체, 홀로그래픽 저장 장치, 또는 컴퓨터(200)에 의해 액세스되고 원하는 정보를 저장하는 데 사용될 수 있는 임의의 기타 매체를 포함하지만 이에 제한되는 것은 아니다.

통신 매체는 통상적으로 반송파(carrier wave) 또는 기타 전송 메카니즘(transport mechanism)과 같은 피변조 데이터 신호(modulated data signal)에 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터 등을 구현하고 모든 정보 전달 매체를 포함한다. "피변조 데이터 신호"라는 용어는, 신호 내에 정보를 인코딩하도록 그 신호의 특성들 중 하나 이상이 설정 또는 변경시킨 신호를 의미한다. 예로서, 통신 매체는 유선 네트워크 또는 직접 배선 접속(direct-wired connection)과 같은 유선 매체, 그리고 음향, RF, 적외선, 기타 무선 매체와 같은 무선 매체를 포함하지만 이에 제한되는 것은 아니다. 상술된 매체들의 모든 조합이 또한 컴퓨터 판독가능 매체의 영역 안에 포함되어야 한다.

도 2에 도시된 바와 같이, 컴퓨터(200)는 처리 장치(210), 시스템 메모리(220), 및 시스템 메모리(220)를 비롯한 각종 시스템 컴포넌트를 처리 장치(210)에 연결시키는 시스템 버스(230)를 포함한다. 시스템 버스(230)는 메모리 버스 또는 메모리 컨트롤러, 주변 장치 버스 및 각종 버스 아키넥쳐 중 임의의 것을 이용하는 로컬 버스를 비롯한 몇몇 유형의 버스 구조 중 어느 것이라도 될 수 있다. 시스템 메모리(220)는 판독 전용 메모리(ROM)(240) 및 랜덤 액세스 메모리(RAM)(250)를 포함할 수 있다.

예를 들어 시동 중과 같은 때에, 컴퓨터(200) 내의 구성요소들 사이의 정보 전송을 돕는 기본 루틴을 포함하는 기본 입/출력 시스템(BIOS)(260)은 ROM(240)에 저장되어 있다. 컴퓨터(200)는 또한 하드 디스크(도시되지 않음)에 기록을 하거나 그로부터 판독을 하는 하드 디스크 드라이브(270), 이동식 자기 디스크(281)에 기록을 하거나 그로부터 판독을 하는 자기 디스크 드라이브(280), 및 CD-ROM, DVD-ROM 또는 기타 광학 매체 등의 이동식 광 디스크(291)에 기록을 하거나 그로부터 판독을 하는 광 디스크 드라이브(290)를 포함할 수 있다. 하드 디스크 드라이브(270), 자기 디스크 드라이브(280) 및 광 디스크 드라이브(290)는 하드 디스크 드라이브 인터페이스(292), 자기 디스크 드라이브 인터페이스(293) 및 광 디스크 드라이브 인터페이스(294)에 의해 각각 시스템 버스(230)에 접속된다. 이들 드라이브 및 이들과 관련된 컴퓨터 판독가능 매체는, 퍼스널 컴퓨터(200)에 대한 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 및 기타 데이터의 비휘발성 저장을 제공한다. 자기 카세트, 플래시 메모리 카드, DVD, 베르누이 카트리지, RAM, ROM 등과 같이 컴퓨터에 의해 액세스될 수 있는 데이터를 저장할 수 있는 기타 유형의 컴퓨터 판독가능 매체도 예시적인 운영 환경에서 사용될 수 있다는 것을 이 분야의 전문가들은 이해할 것이다.

운영 체제(295), 하나 이상의 애플리케이션 프로그램(296), 기타 프로그램 모듈(297) 및 프로그램 데이터(298)를 포함하는 다수의 프로그램 모듈이 하드 디스크 드라이브(270), 자기 디스크(281), 광 디스크(291), ROM(240), 또는 RAM(250)에 저장될 수 있다. 사용자는 키보드(201) 및 포인팅 장치(202)(마우스 등)와 같은 입력 장치를 통해 컴퓨터(200)에 명령 및 정보를 입력할 수 있다. 다른 입력 장치(도시 생략)는 마이크, 조이스틱, 게임 패드, 위성 안테나, 스캐너 등을 포함할 수 있다. 이들 및 기타 입력 장치들은 종종 시스템 버스(230)에 결합된 직렬 포트 인터페이스(206)를 통해 처리 장치(210)에 접속되지만, 이들은 또한 병렬 포트, 게임 포트 또는 USB(universal serial bus) 등의 다른 인터페이스에 의해 접속될 수도 있다. 또한, 이들 장치는 적절한 인터페이스(도시되지 않음)를 통해 시스템 버스(230)에 직접 결합될 수도 있다.

모니터(207) 또는 다른 유형의 디스플레이 장치도 비디오 어댑터(208) 등의 인터페이스를 통해 시스템 버스(230)에 접속될 수 있다. 모니터(207) 외에, 퍼스널 컴퓨터는 통상적으로 스피커 및 프린터와 같은 기타 주변 출력 장치(도시 생략)를 포함한다. 예로서, 수기 입력을 디지털 방식으로 캡처하기 위해 펜 디지타이저(265) 및 관련 펜 또는 스타일러스(266)가 제공된다. 펜 디지타이저(265)와 직렬 포트 인터페이스(206) 간의 접속이 도 2에 도시되지만, 실제로 펜 디지타이저(265)는 처리 장치(210)에 직접 결합되거나, 이 분야에 공지된 바와 같이 병렬 포트 또는 다른 인터페이스 및 시스템 버스(230)를 통하는 것과 같은 임의의 적절한 방식으로 처리 장치(210)에 결합될 수도 있다. 또한, 디지타이저(265)가 도 2에서 모니터(207)와 별개로 도시되지만, 디지타이저(265)의 사용 가능 입력 영역은 모니터(207)의 디스플레이 영역과 같은 공간일 수 있다. 또한, 디지타이저(265)는 모니터(207)에 통합되거나, 모니터(207) 위에 놓이거나 모니터에 부착되는 개별 장치로서 존재할 수 있다.

컴퓨터(200)는 원격 컴퓨터(209)와 같은 하나 이상의 원격 컴퓨터로의 논리적 접속을 사용하여 네트워크화된 환경에서 동작할 수 있다. 원격 컴퓨터(209)는 서버, 라우터, 네트워크 PC, 피어 장치 또는 기타 통상의 네트워크 노드일 수 있고, 간략화를 위해 도 2에는 메모리 저장 장치(211)만이 도시되어 있지만, 통상적으로는 컴퓨터(200)와 관련하여 전술한 요소들의 대부분 또는 전부를 포함한다. 도 2에 도시된 논리 접속들은 LAN(212) 및 WAN(213)을 포함한다. 이러한 네트워킹 환경들은 유선 및 무선 접속 양자를 이용하는 사무실, 전사적 컴퓨터 네트워크(enterprise-wide computer network), 인트라넷, 및 인터넷에 일반적인 것이다.

LAN 네트워킹 환경에서 사용될 때, 컴퓨터(200)는 네트워크 인터페이스 또는 어댑터(214)를 통해 LAN(212)에 접속된다. WAN 네트워킹 환경에서 사용될 때, 퍼스널 컴퓨터(200)는 통상적으로 인터넷과 같은 WAN(213)을 통해 통신 링크를 설정하기 위한 모뎀(215) 또는 기타 수단을 포함한다. 컴퓨터(200)에 대해 내장형 또는 외장형일 수 있는 모뎀(215)은 직렬 포트 인터페이스(206)를 통해 시스템 버스(230)에 접속될 수 있다. 네트워크화된 환경에서, 퍼스널 컴퓨터(200)와 관련하여 기술된 프로그램 모듈들 또는 그의 일부들은 원격 메모리 저장 장치에 저장될 수 있다.

도시된 네트워크 접속은 예시적인 것이며 이 컴퓨터들 사이의 통신 링크를 설정하는 기타 기술이 사용될 수 있다는 것을 이해할 것이다. TCP/IP, 이더넷, FTP, HTTP, UDP 등과 같은 임의의 다양한 공지 프로토콜들의 존재를 가정하며, 시스템은 사용자-서버 구성에서 동작하여, 사용자가 웹 기반 서버로부터 웹 페이지를 검색하는 것을 허가할 수 있다. 임의의 다양한 통상의 웹 브라우저를 사용하여 웹 페이지 상에 데이터를 디스플레이하고 처리할 수 있다.

도 2의 환경은 본 발명의 다양한 실시예의 운영 환경의 일례를 도시하지만, 다른 컴퓨팅 환경들도 이용될 수 있음을 이해해야 한다. 예를 들어, 본 발명의 하나 이상의 예는 도 2에 도시되고 위에서 설명된 다양한 양태의 모두보다 적은 것을 갖는 환경을 이용할 수 있으며, 이들 양태는 이 분야의 전문가에게 자명할 것인 다양한 조합 또는 하위 조합으로 나타날 수 있다.

도 3은 본 발명의 다양한 양태에 따라 사용될 수 있는 펜 기반 퍼스널 컴퓨터(PC; 301)를 나타낸다. 도 2의 시스템의 특징들, 서브 시스템들 및 기능들의 임의 또는 모든 것이 도 3의 컴퓨터(301)에 포함될 수 있다. 펜 기반 퍼스널 컴퓨터 시스템(301)은 대형 디스플레이면(302), 예를 들어 윈도우 그래픽 사용자 인터페이스와 같은 복수의 그래픽 사용자 인터페이스(303)가 디스플레이되는 액정 디스플레이(LCD) 스크린과 같은 디지타이징 평판 디스플레이를 포함한다. 사용자는 스타일러스(266)를 사용하여 디지타이징 디스플레이 영역 상에서 선택, 하이라이트 및 기입할 수 있다. 적절한 디지타이징 디스플레이판의 예는 Mutoh 사(현재 FinePoint Innovations 사로 알려짐) 또는 Wacom Technoloty 사로부터 입수 가능한 펜 디지타이저와 같은 전자기 펜 디지타이저를 포함한다. 다른 유형의 펜 디지타이저, 예를 들어 광학 디지타이저 및 터치 감지 디지타이저 또한 사용될 수 있다. 펜 기반 컴퓨팅 시스템(301)은 스타일러스(266)를 이용하여 행해진 제스처를 해석하여, 데이터를 처리하고, 텍스트를 입력하고, 스프레드시트, 워드 프로세싱 프로그램 등의 생성, 편집 및 수정과 같은 통상적인 컴퓨터 애플리케이션 태스크들을 실행한다.

스타일러스(266)는 그의 능력을 증대하기 위하여 버튼들 또는 다른 특징들을 구비할 수 있다. 일례로, 스타일러스(266)는 하나의 단부가 기입부를 구성하는 "펜슬" 또는 "펜"으로서 구현될 수 있다. 또한, 스타일러스(266)의 다른 단부는 디스플레이에서 이동할 때 지워야 할 디스플레이 상의 전자 잉크 부분들을 지시하는 "지우개" 단부를 구성한다. 마우스, 트랙볼, 키보드 등과 같은 다른 유형의 입력 장치들도 사용될 수 있다. 또한, 디스플레이가 터치 감지 또는 접근 감지 디스플레이인 경우, 디스플레이된 이미지의 부분들을 선택하거나 지시하기 위해 사용자 자신의 손가락이 사용될 수 있다. 결과적으로, 본 명세서에서 사용되는 "사용자 입력 장치"라는 용어는 넓은 정의를 갖는 것을 의도하며, 공지된 입력 장치들의 많은 변형을 포함한다.

완전 성능 펜 기반 컴퓨팅 시스템 또는 "타블렛 PC"(예를 들어, 컨버터블 랩톱 또는 "슬레이트" 유형 PC)에서의 이용 외에, 본 발명의 양태들은, 핸드헬드 또는 팜톱 컴퓨팅 시스템; PDA; 포켓 퍼스널 컴퓨터; 모바일 및 셀룰러 전화, 페이저, 및 다른 통신 장치; 시계; 기구; 및 모니터 또는 다른 디스플레이 장치 및/또는 인쇄된 또는 그래픽 정보를 사용자에게 제공하고 그리고/또는 전자 펜 또는 스타일러스를 이용한 입력을 허가하는 디지타이저를 포함하거나 다른 장치에 의해 수집된 전자 잉크를 처리할 수 있는 임의의 다른 장치 또는 시스템(예를 들어, 타블렛 PC에 의해 수집된 전자 잉크를 처리할 수 있는 통상의 데스크톱 컴퓨터)과 같이, 데이터를 전자 잉크로서 수용하고 그리고/또는 전자 펜 또는 스타일러스 입력을 수용하는 다른 유형의 펜 기반 컴퓨팅 시스템 및/또는 다른 장치와 관련하여 이용될 수 있다.

기입 스타일 분석 도구

도 4는 본 발명의 다양한 예에 따라 구현될 수 있는 기입 스타일 분석 도구(401)를 나타낸다. 이 도면에 도시된 바와 같이, 기입 스타일 분석 도구(401)는 기입 수집 모듈(403), 스타일 분석 모듈(405), 인식 훈련 데이터베이스(407), 및 인식 훈련 모듈(409)을 포함한다. 후술하는 바와 같이, 기입 스타일 분석 도구(401)는 다양한 사용자(411)로부터 수기 데이터 입력을 수신하고, 이어서 수신 사용자의 수기 스타일에 맞춰진 수기 인식 애플리케이션들(413)을 하나 이상의 사용자에게 제공한다.

도 4에 도시된 바와 같이, 기입 스타일 분석 도구(401)는 다양한 사용자에 대해 액세스될 수 있다. 따라서, 본 발명의 다양한 예에서, 적어도 기입 수집 모듈(403)은 인터넷과 같은 하나 이상의 네트워크를 통해 다수의 사용자가 액세스할 수 있는 서버 컴퓨터 상에 구현될 수 있다. 사용자의 수기를 수집하는 것 외에, 기입 수집 모듈(403)은 또한 사용자에 관한 추가 개인 정보를 포함할 수 있다. 예를 들어, 기입 수집 모듈(403)은 또한 사용자의 손잡이 유형(즉, 사용자가 오른손 또는 왼손으로 기입하는지)을 취득할 수 있다. 기입 수집 모듈(403)은 대안으로 또는 추가로 사용자의 지리적, 종교적 그리고/또는 문화적 정보와 같이 사용자가 속하는 하나 이상의 공동체에 관한 정보를 취득할 수 있다. 따라서, 기입 수집 모듈(403)은 사용자가 기입을 배운 나라 또는 기타 지리 영역, 사용자가 종교 학교에서 교육을 받았는지, 또는 사용자가 특이한 문화 그룹에 속하는지를 확인할 수 있다.

후술하는 바와 같이, 스타일 분석 모듈(405)은 수신된 수기 샘플들(411)을 이들의 특성의 유사성에 기초하여 관련 그룹들 또는 "클러스터들"로 구성한다. 위의 설명으로부터 알 수 있듯이, 각각의 클러스터는 자신의 수기 샘플들이 클러스터에 포함된 하나 이상의 사용자에 공통적인 수기 스타일로서 정의될 수 있다. 본 발명의 다양한 예에서는, 수신된 수기 샘플들(411)을 클러스터들로 구성하기 위해 2개의 개별 기술, 즉 대략적인 서브 스타일을 검출하는 톱 다운 접근 방법 또는 바텀-업 클러스터링 접근 방법을 이용할 수 있다.

도시된 예에서, 스타일 분석 모듈(405)은 바텀 업 접근 방법을 이용하는데, 이는 아래의 설명으로부터 명백하듯이 이러한 접근법을 이용하여 얻은 정보가 인식 훈련 모듈(409)에 의해 직접 이용될 수 있기 때문이다. 이러한 접근법을 이용하는 경우, 수기 샘플 데이터 세트 X={x¹,x²,...,x^M}의 클러스터링 C는 데이터의 분리 세트들의 세트 {c¹,c²,..,c^K}로의 분할을 정의하며, 따라서

=X이다. 클러스터링 C는 수기 샘플(411) 내의 모든 문자에 대해 독립적으로 계산된다.

본 발명의 다양한 예에서, 스타일 분석 모듈(405)은 C_m _-1이 C_m의 서브세트인 중첩 클러스터링들 [C₁,C₂,...,C_M]의 계층 구조를 생성하는 계층적 클러스터링 알고리즘을 이용한다. 이러한 계층 구조는 M개의 단계로 구성되는데, 단계 m의 클러스터링은 단계 m-1에서 생성된 클러스터링으로부터 생성된다. 단계 1에서, 샘플 세트 X 내의 모든 멤버는 그 자신의 클러스터를 나타낸다. 2개의 클러스터의 차이 함수

를 이용하는 경우, 다음의 알고리즘이 적용된다. 먼저,

를 초기화한다. 이어서, m=2,..,M에 대해, C_m _-1의 클러스터들 c^k _min및

을 병합하여 새로운 클러스터링 C_m을 얻는데, 여기서 (k_min,k^' _min)=

이다.

클러스터 차이 함수

는 예를 들어 잉크 샘플 차이 함수

에 기초할 수 있다. 임의의 원하는 차이 함수를 이용하여 잉크 샘플들 간의 차이를 결정할 수 있지만, 본 발명의 다양한 예는 탄성 매칭 알고리즘(동적 타이밍 워핑 알고리즘으로도 알려짐)을 이용하여 하나의 잉크 샘플이 다른 잉크 샘플과 얼마나 유사한지를 결정할 수 있다.

따라서, 잉크 샘플들 k(S개의 스트로크로 구성됨) 및 k'(S'개의 스트로크로 구성됨)에 대해,

S≠S'인 경우,

이고,

S=S'인 경우,

인데,

여기서, P 및 P'는 샘플들 k, k'의 대응하는 재 샘플링된 좌표 벡터들이고, N은 샘플링 포인트들의 수이다. 벡터 P 내의 요소 p는 3개 좌표 (x,y,Θ)를 갖는데, 여기서 x, y는 포인트 p의 데카르트 좌표이고, Θ는 동일 포인트에서의 기울기의 추정치이다.

이러한 정의로부터, 상이한 스트로크 수를 갖는 잉크 샘플들은 프로세스의 끝까지 동일 클러스터 내에 병합되지 않을 것임을 이해할 것이다. 그 시점에서, 병합은 실제로 중지되었을 것이다.

따라서,

이다.

평균 또는 최소 값이 아니라 최대 값을 사용하고, 상이한 스트로크 수를 갖는 2개의 잉크 샘플 간의 거리를 ∞로 정의하기 위한 결정은 소형의 클러스터들을 지원한다.

클러스터 내의 하나의 잉크 샘플이 클러스터 표본으로 선택된다. 모든 클러스터에 대해 선택된 표본은 예를 들어 클러스터의 중앙값 중심일 수 있다. 클러스터 c^k에 대한 중앙값 중심은 나머지 클러스터 멤버 잉크 샘플들에 관하여 최소의 중앙값 거리를 갖는 잉크 샘플로서 정의된다.

모든 문자에 대한 클러스터링의 결과들은 이진 트리("차이 덴드로그램"이라고도 함)로서 가시화될 수 있다. 도 5는 문자 K의 다양한 잉크 샘플에 대한 결과적인 덴드로그램(501)의 일례를 나타낸다. 이 도면에서, 스트로크들은 칼라 코딩되는데, 스트로크의 칼라는 스트로크가 기입된 순서, 즉 (1) 레드, (2) 그린, (3) 블루 및 (4) 마젠타를 지시한다. 또한, 각각의 스트로크는 그의 시작점에서 종료점까지 점점 더 밝아지도록 도시된다.

본 발명의 다양한 예에서, 모든 문자에 대한 클러스터들의 수는 원하는 임계치 D_max로서 정의될 수 있는데, 이 임계치 이상에서는 클러스터들의 어떠한 추가적인 병합도 발생하지 않는다. 이어서, 병합이 중지된 때 남아 있는 액티브 클러스터들은 대응 문자의 다양한 문자 스타일 또는 이서체로서 정의될 수 있다. 따라서, 결과적인 스타일들의 수는 문자 형상들의 차이에 따라 문자마다 다를 것이다.

사용자의 손잡이 유형의 결정

본 발명의 몇몇 구현에서, 인식 훈련 모듈(409)은 스타일 분석 모듈(405)에 의해 생성된 데이터를 이용하여, 기입자의 손잡이 유형을 인식하는 기입 인식 애플리케이션을 생성할 수 있다. 전술한 바와 같이, 문자 내의 스트로크들의 형상 외에, 본 발명의 다양한 예는 이서체를 정의할 때 각각의 스트로크의 방향 및 각각의 스트로크가 기입되는 순서 또한 고려할 것이다. 본 발명의 일례를 이용함으로써, 특정 이서체들과 이들 이서체를 사용하는 기입자들의 손잡이 유형 사이에서 매우 높은 상관성이 주관적으로 발견되었다. 따라서, 이들 이서체는 손잡이 유형 노출 이서체들로서 기능할 수 있다. 도 6은 이들 이서체의 일부 및 이들에 대응하는 기입자들의 손잡이 유형 통계를 나타낸다.

이 도면에서 알 수 있듯이, 특정 손잡이 유형의 기입자들에 의해 거의 독점적으로 다양한 이서체가 기입된다. 예를 들어, 스타일 601(좌에서 우가 아니라 우에서 좌로 횡선이 기입됨)로 문자 T를 기입한 기입자들의 94.44%가 왼손으로 기입한다. 반대로, 스타일 603(좌에서 우로 횡선이 기입됨)으로 문자 T를 기입한 기입자들의 4.95%만이 왼손으로 기입한다.

따라서, 인식 훈련 모듈(409)은 사용자로부터의 기입 샘플들을 하나 이상의 손잡이 유형 노출 이서체와 비교하는 도 7에 도시된 수기 인식 도구(701)와 같은 기입 인식 애플리케이션을 사용자에게 제공할 수 있다. 이 도면에 도시된 바와 같이, 수기 인식 애플리케이션(701)은 사용자로부터 수기 입력(411)을 수신하는 기입 수집 모듈(703)을 포함한다. 애플리케이션(701)은 또한 기입 입력(411)의 수기 스타일을 결정하는 수기 분석 모듈(705)을 포함한다. 이어서, 손잡이 유형 결정 모듈(709)은 사용자의 수기 스타일과 수기 스타일 데이터베이스(707) 내의 손잡이 유형 노출 수기 스타일들을 비교한다. 비교에 기초하여, 손잡이 유형 결정 모듈(709)은 사용자의 손잡이 유형을 결정할 수 있다.

본 발명의 몇몇 예에서, 손잡이 유형 결정 모듈(709)은 사용자가 결정된 손잡이 유형을 갖는다는 것을 간단하게 결정할 수 있다. 대안으로, 인식 애플리케이션은 사용자에게 그의 손잡이 유형을 확인하도록 프롬프트하는 사용자 인터페이스(711)를 사용자에게 제공할 수 있다. 이러한 유형의 사용자 인터페이스의 일례가 도 8에 도시되어 있다. 이 도면에 도시된 바와 같이, 인식 애플리케이션(701)은 사용자가 수기 샘플들을 텍스트 입력판 사용자 인터페이스(801)에 제공하는 것에 응답하여 사용자 인터페이스(711)를 제공한다. 사용자의 기입 샘플들로부터의 손잡이 유형의 결정에 기초하여, 인식 애플리케이션(701)은 예를 들어 사용자의 손잡이 유형에 대한 컴퓨터의 하나 이상의 사용자 인터페이스를 구성할 수 있다.

공동체 기반 기입 인식

본 발명의 다양한 예에서, 인식 훈련 모듈(409)은 스타일 분석 모듈(405)에 의해 생성된 데이터를 이용하여, 지리 영역, 종교 가입, 인종 배경, 문화 그룹, 또는 임의의 다른 유형의 공동체에 특이한 수기 스타일 또는 이서체에 기초하여 훈련된 기입 인식 애플리케이션을 생성할 수 있다. 예를 들어, 전술한 계층적 클러스터링 알고리즘이 미국 출신의 267명의 기입자에 의해 기입된 99개의 문자에 대응하는 71,600개의 잉크 샘플에 적용되었다. 도 9는 문자들 "q", "t", "x"에 대한 결과적인 스타일들을 "잡음" 클러스터들(즉, 발생 빈도가 매우 낮은 클러스터들)의 제거 후의 이들의 상대 빈도와 함께 나타내고 있다. 영국 출신의 228명의 기입자에 의해 기입된 99개의 문자에 대응하는 70,000개의 잉크 샘플 세트에 대해 동일한 실험이 반복되었다. 도 10은 문자들 "q", "t", "x"에 대해 이 데이터로부터 얻은 결과적인 스타일들을 "잡음" 클러스터들의 제거 후의 이들의 상대 빈도와 함께 나타내고 있다.

이 실험에서, 양 지리적 공동체들의 주된 이서체들은 상이한 빈도로 발생하지만, 대부분의 문자들에 대해 거의 동일하게 나타나는 것으로 결정되었다. 또한, 몇몇 프린지(fringe)(즉, 낮은 빈도) 이서체들이 하나의 지리 공동체에 대해 존재하는 것으로 보이지만, 다른 지리 공동체에 대해서는 그렇지 않다. 또한, 양 지리 공동체에 대해 프린지 이서체가 나타나는 경우에도, 그 빈도는 지리 공동체들 간에 상당히 다르다.

스타일 분석 모듈(405)에 의해 얻은 이러한 유형의 공동체 기반 이서체 및 수기 스타일 정보를 이용하여, 인식 훈련 모듈(409)은 이용될 특정 공동체에 공통적인 이서체들에 대해 고유하게 훈련된(또는 고유하게 훈련되도록 구성된) 수기 인식 애플리케이션을 사용자에게 제공할 수 있다. 이러한 하나의 수기 인식 도구(1101)가 도 11에 도시되어 있다. 이 도면에 도시된 바와 같이, 수기 인식 애플리케이션(1101)은 사용자로부터 수기 입력(411)을 수신하는 기입 수집 모듈(1103)을 포함한다. 애플리케이션(1101)은 또한 기입 입력(411)의 수기 스타일을 결정하는 수기 분석 모듈(1105)을 포함한다. 이어서, 수기 인식 모듈(1109)은 사용자의 수기 스타일을 수기 스타일 데이터베이스(1107) 내의 하나 이상의 수기 스타일과 비교하여, 예를 들어 사용자의 수기 중 하나 이상의 이서체가 특정 지리 영역에 속하는 공동체와 같은 특정 공동체와 연관된 이서체에 대응하는지를 결정한다.

이러한 비교에 기초하여, 수기 인식 모듈(1109)은 수기 스타일 데이터베이스(1107) 내의 수기 스타일들을 이용하여, 사용자로부터의 현재 및 미래의 수기 입력(411)을 인식할 수 있다. 본 발명의 몇몇 예에서, 수기 인식 모듈(1109)은 사용자가 특정 공동체에 속한다는 것을 간단하게 결정할 수 있다. 대안으로, 인식 애플리케이션(1101)은 사용자에게 그가 특정 공동체에 속하는 것을 확인하도록 프롬프트하는 사용자 인터페이스를 사용자에게 제공할 수 있다.

물론, 스타일 분석 모듈(405)에 의해 얻어진 이서체 및 수기 스타일 정보를 이용하여, 종교 가입, 인종 배경, 문화 그룹, 또는 사용자의 수기 스타일에 영향을 줄 수 있는 임의의 다른 유형의 공동체와 같이 식별 가능한 기입 스타일과 연관될 수 있는 임의의 원하는 유형의 공동체에 대한 공동체 고유 수기 인식 애플리케이션들을 제공할 수 있다.

스타일 연동 인식 훈련

스타일 분석 모듈(405)에 의해 얻어지는 이서체 및 수기 스타일 정보는 또한 통상의 수기 인식 애플리케이션들을 포함하는 다양한 유형의 수기 인식 애플리케이션들의 훈련 동작을 개량하기 위해 얻어질 수 있다. 예를 들어, 스타일 분석 모듈(405)에 의해 얻어지는 이서체 및 수기 스타일 정보를 이용하여, 수기 인식 애플리케이션들의 훈련 프로세스 동안 잘못된 수기 샘플들을 필터링할 수 있다.

예를 들어, 전술한 실험에서, 대부분 잡음이 많고 잘못된 잉크 샘플들로 구성된 클러스터들(즉, 이서체들)이 존재함을 알게 되었다. 그러나 경향적으로 이러한 클러스터들은 주로 농도가 낮았다. 이것은 일반적으로 잡음 가설(또는 데이터 이상치들)이 맞지 않고 모순되기 때문에 예상되는 것이다. 따라서, 이들 클러스터 또는 이서체들은 중요하지 않은 이서체들로 간주될 수 있다.

수기 인식 애플리케이션의 훈련으로부터 이러한 중요하지 않은 이서체들을 제외한(즉, 수기 인식 애플리케이션을 훈련시키는 데 사용되는 훈련 문자들의 세트로부터 중요하지 않은 이서체들을 제외한) 영향이 측정되었다. 원하는 임계치 O_min이 정의될 수 있는데, 이 임계치 이하에서는 스타일이 중요하지 않은 것으로 간주된다. 이 분야의 전문가들이 이해하듯이, 이 임계치를 위해 선택된 값은 수기 훈련 세트에 대해 원하는 허용 가능 잡음의 양에 기초할 것이다. 이러한 중요하지 않은 이서체들의 수기 인식 애플리케이션의 인식 정확도에 대한 영향을 측정하기 위하여, 14명의 기입자(이들 중 두 명은 왼손잡이임)에 의해 기입된 18,628개의 잉크 샘플의 데이터베이스가 사용되었다. 이어서, 개별 에러율은 물론, 평균 에러율이 5개의 상이한 수기 인식 애플리케이션에 대해 비교되었다. 제1 수기 인식 애플리케이션은 전체 훈련 세트에 대해 훈련되었다(즉, 100% 인식기). 제2 수기 인식 애플리케이션은 중요하지 않은 이서체들을 포함하는 전체 훈련 세트의 15%에 대해 훈련되었다. 이어서, 나머지 3개의 수기 인식 애플리케이션은 상이한 O_min 값들에 기초하여 중요하지 않은 이서체들을 제외하고 전체 훈련 세트의 15%에 대해 훈련되었다.

도 12는 상이한 수기 인식 애플리케이션들 사이에서 O_min의 값에 따라 테스팅 에러율이 어떻게 변했는지를 나타낸다. 테스팅 결과들에 기초하여, 14명의 개인들 중 10명에 대해, 그리고 대체로, 대응하는 "정리되지 않은(un-pruned)" 수기 인식 애플리케이션보다 낮은 테스팅 에러율을 갖는 수기 인식 애플리케이션을 생성한 "정리된" 훈련 세트(즉, 중요하지 않은 이서체들을 제외한 훈련 세트)가 존재함을 알아냈다. 또한, 14명의 기입자 중 5명에 대해, 중요하지 않은 이서체들을 제외한 데이터의 15%에 대한 훈련에 의해 달성된 테스팅 에러율이 전체 훈련 세트(즉, 훈련 세트의 100%)에 대해 수기 인식 애플리케이션을 훈련시킴으로써 달성된 에러율보다 낮았다.

따라서, 본 발명의 다양한 예는 스타일 분석 모듈(405)에 의해 식별된 수기 스타일들을 이용하여, 수기 인식 애플리케이션(413)이 사용자의 수기 인식을 더 정확하게 하도록 그 자신을 훈련시키는 데 어떤 이서체들을 사용할 것인지를 결정할 수 있다. 이 분야의 전문가들이 이해하듯이, O_min의 값은 예를 들어 수기 인식 애플리케이션을 이용할 공동체에 기초하여 가장 정확한 훈련 데이터 세트를 제공하도록 실험적으로 선택될 수 있다.

개인화된 수기 인식

본 발명의 또 다른 예들에서, 수기 훈련 모듈(409)은 스타일 분석 모듈(405)에 의해 얻어진 데이터를 이용하여, 사용자의 개인 수기 스타일(즉, 사용자에 의해 가장 일반적으로 사용되는 이서체들의 집합)을 인식하도록 고유하게 맞춰진 기입 인식 애플리케이션을 생성할 수 있다.

통상의 수기 인식 애플리케이션들은 차별 분류기 모델에 기초한다. 이러한 통상의 수기 인식 애플리케이션들에 대해 사용되는 단일 문자 분류기를 포함하는 분류기들은 통상적으로 수백 명의 기입자로부터 수집된 데이터를 포함하는 훈련 세트로 훈련된다. 특정 기입자에 대해 수기 인식 애플리케이션을 개인화하기 위하여, 이들 분류기는 기입자가 명시적 또는 암시적 수단을 통해 제공하는 기입 데이터의 소규모 샘플에 대해 더 훈련된다. 일반적으로, 기입자 고유 훈련은 과잉 훈련을 방지하기 위하여 제한된 반복 횟수로 수행된다. 이러한 통상적은 개인화 방식은 본 명세서에서 "고전적" 개인화로 지칭된다.

그러나 본 발명의 다양한 예는 스타일 분석 모듈(405)에 의해 얻어지는 스타일 정보를 이용하는 대안적 접근법을 이용할 수 있다. 본 명세서에서, 이러한 대안적 접근법은 "스타일 기반" 개인화로 지칭된다. 보다 구체적으로, 이러한 접근법에서, 인식 훈련 모듈(409)은 사용자에 의해 제공되는 잉크 샘플들을 이용하여, 사용자에 의해 통상적으로 사용되는 이서체들의 그룹을 계산한다. 이러한 이서체들의 그룹은 사용자의 수기 스타일 또는 "스타일 멤버쉽 벡터"를 구성한다. 이어서, 벡터를 이용하여 기입자의 스타일에 가장 잘 매칭되는 훈련 세트의 서브세트를 계산한다. 이어서, 분류기가 훈련 세트의 계산된 서브세트에 대해 훈련될 수 있다.

이러한 스타일 기반 개인화 접근법을 평가하기 위하여, 이러한 접근법을 이용하여 훈련된 수기 인식 애플리케이션의 성능을 기준 수기 인식 애플리케이션(즉, 범용 수기 인식 애플리케이션)과, 그리고 고전적 개인화를 통해 훈련된 수기 인식 애플리케이션과 비교하는 실험이 행해졌다. 267명의 기입자에 의해 기입된 70,000개의 잉크 샘플을 포함하는 훈련 세트를 사용하여 기준 수기 인식 애플리케이션을 생성하였다. 두 명이 왼손잡이이고 아무도 훈련 세트 내에 어떠한 데이터도 갖지 않은 14명의 기입자 세트가 개인화 실험에 대한 목표가 되었다. 이들 기입자 각각은 개인화 목적을 위해 99개의 지원 문자 각각에 대한 2개의 잉크 샘플을 제공하여, 총 198개의 잉크 샘플이 만들어졌다. 각각의 기입자는 또한 테스팅 목적을 위해 문자들에 대해 14개의 샘플을 제공하였다.

수기 인식 애플리케이션은 기입자의 개인화 잉크 샘플들로 증대된 오리지널 훈련 세트에 대해 범용 수기 인식 애플리케이션을 훈련시킴으로써 기입자들 각각에 대해 개인화되었다. 전술한 바와 같이, 이러한 수기 인식 애플리케이션들은 고전적으로 개인화된 수기 인식 애플리케이션들로 지칭된다. 이어서, 기입자의 개인화 데이터를 이용하여 기입자의 수기 스타일에 매칭되는 훈련 세트의 서브세트를 선택함으로써 기입자들 각각에 대해 다른 하나의 범용 수기 인식 애플리케이션이 개인화되었다. 즉, 훈련 세트에 대해 스타일 분석을 수행한 후, 기입자의 개인화 잉크 샘플들 각각을 이용하여, 훈련 세트 내의 각각의 문자에 대한 이서체들 중 하나를 가능케 하였다. 이어서, 개인화 잉크 샘플들에 의해 증대된 훈련 데이터의 이 서브세트에 대해 그 기입자에 대해 수기 인식 애플리케이션이 훈련되었다. 전술한 바와 같이, 이러한 수기 인식 애플리케이션들은 스타일 개인화된 수기 인식 애플리케이션들로 지칭된다. 이러한 3개의 수기 인식 애플리케이션 각각은 각각의 기입자에 의해 제공되는 테스트 세트에 대해 평가되었다.

도 13 및 14는 이 실험에서 목표가 된 14명의 기입자의 각각에 대한 전술한 3개의 수기 인식 애플리케이션의 각각의 테스팅 에러율들은 물론, 각각의 스타일 개인화된 수기 인식 애플리케이션을 훈련시키기 위해 선택된 훈련 세트의 백분율을 나타낸다. 이들 도면에서, 14명의 기입자 각각에 대해, 고전적으로 개인화된 수기 인식 애플리케이션 및 스타일 개인화된 수기 인식 애플리케이션 양자는 기준 인식기에 의해 제공되는 것보다 테스팅 에러율을 감소시켰다는 것을 알 것이다. 또한, 12명의 기입자에 대해, 스타일 개인화된 수기 인식 애플리케이션은 고전적으로 개인화된 수기 인식 애플리케이션에 의해 제공되는 것보다 높은 에러 감소를 제공하였다. 더욱이, 스타일 개인화된 수기 인식 애플리케이션에 의해 제공되는 평균 상대 에러 감소는 약 27%인 반면, 고전적으로 개인화된 수기 인식 애플리케이션의 평균 상대 에러 감소는 단지 약 20%였다. 또한, 스타일 기반 개인화에서 선택된 훈련 세트의 일부의 평균 크기는 기준 훈련 세트의 약 68%였다.

따라서, 스타일 분석 모듈(405)이 사용자로부터 얻은 수기 샘플들을 분석한 후에, 인식 훈련 모듈(409)은 스타일 분석 모듈(405)에 의해 제공되는 데이터를 이용하여, 향상된 정확도를 달성하기 위해 사용자로부터 보다 적은 훈련을 요구하면서도 사용자에 대해 보다 높은 인식 정확도를 제공하는 스타일 개인화된 기입 인식 애플리케이션을 생성할 수 있다. 보다 구체적으로, 기입 스타일 분석 도구(401)는 사용자의 수기 스타일에 대응하는 이서체들을 포함하거나 이들로 제한되는 훈련 세트를 사용하는 수기 인식 애플리케이션(413)을 사용자에게 제공할 수 있다.

스타일 예측

본 발명의 다양한 예에서, 수기 인식 애플리케이션의 훈련 세트를 개량하는 것 외에, 기입 스타일 분석 도구(401)는 대안으로 또는 추가로 사용자의 수기 입력(411)으로부터 사용자의 기입 스타일을 예측(그리고/또는 사용자의 수기 입력(411)으로부터 사용자의 기입 스타일을 예측하는 수기 인식 애플리케이션을 제공)할 수 있다. 예를 들어, 수기 스타일 분석 도구(401)는 예를 들어 협력 필터링을 이용하여, 다른 문자들에 대해 수집된 잉크 샘플들에 기초하여 기입자가 소정 문자들을 어떻게 기입할 것인지를 예측할 수 있다.

협력 필터링은 다른 사용자들의 샘플 또는 팝퓰레이션으로부터의 사용자 투표들의 데이터베이스에 기초하여 특정 사용자에 대한 항목들의 유용성을 예측하는 데 일반적으로 이용되는 공지 기술이다. 본 발명의 다양한 예의 구현에 구체적으로 관련되는 것은 기억 기반 알고리즘으로 알려진 협력 필터링의 클래스이다.

이러한 유형의 협력 필터링에서는, 투표들 v_i _,j(항목 j에 대한 사용자 i의 투표에 대응)로 이루어지는 사용자 데이터베이스를 이용하여, 새로운 사용자 u에 관한 소정의 부분적 정보 및 사용자 데이터베이스로부터 계산된 가중치들의 세트에 기초하여 액티브 사용자의 투표들을 예측한다. 항목 j에 대한 새로운 사용자 u의 예측된 투표는 P_u _,j인 것으로 가정한다. P_u _,j는 데이터베이스 내의 다른 사용자들의 투표들의 가중 합이다.

여기서, N은 협력 필터링 데이터베이스 내의 사용자들의 수이다. 가중치들 w(u,i)는 각각의 사용자 i와 사용자 u 사이의 상관성 또는 유사성을 반영한다. 값 α는 투표들의 합이 1임을 보증하기 위한 정규화 팩터이다.

가중치들을 계산하기 위한 가장 간단하고 가장 일반적인 방법은 피어슨 상관 계수를 사용하는 것이다. 이 계수를 사용하는 경우, 사용자들 i와 u 사이의 상관성은 다음과 같이 주어진다.

j에 관한 합들은 양 사용자 u 및 i가 투표한 항목들에 대해 행해진다.

기입자의 수기 스타일을 예측함에 있어서, 사용자 데이터베이스는 수기 스타일 데이터베이스에 대응하고, 사용자 투표들은 기입자의 스타일 멤버쉽 벡터 값들에 대응하고, 부분적 투표들이 공지된 사용자 u는 입력 수기 데이터로부터 부분적 스타일 멤버쉽이 알려져 있고 스타일들의 나머지를 예측하기 위해 수기 스타일 분석 도구(401)(또는 수기 인식 애플리케이션(413))가 요구되는 기입자에 대응한다. 본 발명의 다양한 예에서, 기입 스타일 분석 도구(401)(또는 수기 인식 애플리케이션(413))는 예를 들어 문자들 a, A, I, 0, 1, 2 및 9에 기초하여 사용자의 기입 스타일을 예측할 수 있는데, 이는 이들 문자가 차이를 나타내고, 수기 인식기의 일상적 사용 동안 캡처될 가능성이 높기 때문이다. 물론, 본 발명의 대안 예들은 문자들의 임의 조합을 이용하여 사용자의 기입 스타일을 예측할 수 있다.

본 발명의 몇몇 예에서, 기입 스타일 분석 도구(401)(또는 수기 인식 애플리케이션(413))은 사용자가 특정 수기 스타일을 갖는 것을 간단히 예측하고, 이 스타일을 구성하는 이서체들을 이용하여, 사용자의 수기를 인식할 수 있다. 대안으로, 기입 스타일 분석 도구(401)(또는 수기 인식 애플리케이션(413))는 예측된 수기 스타일에 기초하여 사용자가 특정 문자를 어떻게 기입할 수 있는지를 확인하도록 사용자에게 프롬프트하는 사용자 인터페이스를 사용자에게 제공할 수 있다. 이러한 유형의 사용자 인터페이스의 일례가 도 15에 도시되어 있다. 이 도면에서 알 수 있듯이, 사용자 인터페이스(1501)는 사용자의 수기 입력에 가장 가까이 대응하는 기입 스타일 내의 이서체들의 주 선택(1503)을 제공한다. 사용자 인터페이스(1501)는 또한 이서체들의 주 선택보다 다소 적게 사용자의 수기 입력에 또한 대응하는 수기 스타일 내의 이서체들의 대안 세트(1505)를 제공할 수 있다. 사용자의 수기 스타일의 결정에 기초하여, 수기 인식 애플리케이션(413)은 전술한 바와 같이 사용자의 수기 입력을 정확하게 인식할 수 있다.

결론

본 발명은 본 발명을 실시하는 현재 바람직한 모드들을 포함하는 특정 예들과 관련하여 설명되었지만, 이 분야의 전문가들은 첨부된 청구범위에서 설명되는 바와 같은 본 발명의 사상 및 범위 내에 있는 전술한 시스템들 및 기술들의 다양한 변형 및 교환들이 존재함을 이해할 것이다.

Claims

사용자로부터 수기를 수집하는 기입 수집 모듈; 및

상기 수집된 수기를 분석하여 상기 수집된 수기의 스타일을 결정하는 스타일 분석 모듈

을 포함하는 수기 스타일 분석 도구.
제1항에 있어서, 상기 스타일 분석 모듈은 상기 수집된 수기와 연관된 공동체를 더 식별하는 수기 스타일 분석 도구.
제2항에 있어서, 상기 공동체는 지리 영역, 문화 그룹 또는 종교 가입에 의해 정의되는 수기 스타일 분석 도구.
제1항에 있어서, 상기 스타일 분석 모듈은 상기 사용자에 특유한 스타일을 식별하는 수기 스타일 분석 도구.
사용자로부터 수집된 수기를 분석하여 상기 수집된 수기의 스타일을 결정하는 수기 분석 모듈;

손잡이 유형(handedness) 노출 기입 스타일들을 포함하는 수기 스타일 데이터베이스; 및

상기 수집된 수기의 스타일을 상기 손잡이 유형 노출 기입 스타일들과 비교하여 상기 사용자의 손잡이 유형을 결정하는 손잡이 유형 결정 모듈

을 포함하는 수기 인식 애플리케이션.
제5항에 있어서, 상기 수기 분석 모듈은 상기 사용자에게 상기 결정된 손잡이 유형을 확인하도록 프롬프트하는 인터페이스를 상기 사용자에게 더 제공하는 수기 인식 애플리케이션.
제5항에 있어서, 상기 수기 분석 모듈은 상기 결정된 손잡이 유형에 기초하여 동작하도록 컴퓨터를 구성하는 수기 인식 애플리케이션.
수기 인식 애플리케이션을 훈련시키는 방법으로서,

복수의 기입자로부터 수기를 수집하는 단계;

상기 복수의 기입자의 기입 스타일들을 결정하는 단계; 및

상기 결정된 기입 스타일들 중 적어도 하나로부터 선택된 훈련 샘플들을 이용하여 수기 인식 애플리케이션을 훈련시키는 단계

를 포함하는 방법.
제8항에 있어서, 상기 결정된 기입 스타일들 중 적어도 하나로부터 선택된 훈련 샘플들만을 이용하여 상기 수기 인식 애플리케이션을 훈련시키는 단계를 더 포함하는 방법.
제8항에 있어서,

사용자로부터 수집된 수기를 분석하는 단계;

상기 결정된 스타일들 중 적어도 하나를 상기 사용자와 연관시키는 단계; 및

상기 사용자와 연관된 상기 결정된 기입 스타일들 중 적어도 하나로부터 선택된 훈련 샘플들을 이용하여 상기 수기 인식 애플리케이션을 훈련시키는 단계

를 더 포함하는 방법.
제10항에 있어서, 상기 결정된 스타일들 중 상기 연관된 적어도 하나는 공동체에 공통인 스타일인 방법.
제11항에 있어서, 상기 공동체는 지리 영역, 문화 그룹 또는 종교 가입에 의해 정의되는 방법.
제10항에 있어서, 상기 결정된 스타일들 중 상기 연관된 적어도 하나는 상기 사용자에 특유한 스타일인 방법.
제10항에 있어서, 상기 결정된 스타일들 중 상기 연관된 적어도 하나는 손잡이 유형 노출 스타일인 방법.
제8항에 있어서,

사용자로부터 수집된 수기를 분석하는 단계;

상기 결정된 스타일들 중 적어도 하나를 상기 사용자와 연관시키는 단계; 및

상기 결정된 스타일들 중 상기 연관된 적어도 하나를 이용하여, 상기 사용자에 의해 기입된 문자들의 기입 스타일을 예측하는 단계

를 더 포함하는 방법.
제15항에 있어서, 상기 사용자에게 상기 예측된 기입 스타일을 확인하도록 프롬프트하는 단계를 더 포함하는 방법.
제15항에 있어서, 기억 기반 협력 필터링을 이용하여, 상기 사용자에 의해 기입된 문자들의 기입 스타일을 예측하는 단계를 더 포함하는 방법.