KR20170005378A

KR20170005378A - 중첩된 필기 인식 기술을 위한 시스템 및 방법

Info

Publication number: KR20170005378A
Application number: KR1020167030895A
Authority: KR
Inventors: 지솔트 빔머; 프레디 페로; 피에르-미셸 랄리깡
Original assignee: 마이스크립트
Priority date: 2014-04-04
Filing date: 2015-03-30
Publication date: 2017-01-12
Also published as: CN106663189A; JP6542870B2; US20170061223A1; JP2017514248A; US9911052B2; KR102383624B1; WO2015150911A3; CN106663189B; US20150286886A1; EP3127043A2; US9524440B2; WO2015150911A2

Abstract

문자들 간에 어떤 명백한 구분 없이 사용자의 자연스러운 중첩된 필기를 인식할 수 있는 시스템 및 방법. 그 시스템 및 방법은 단일-스트로크 및 멀티-스트로크 문자들을 프로세싱할 수 있다. 또한, 필기체를 프로세싱할 수 있다. 추가로, 그 방법 및 시스템은 특정 사용자 입력 제스처의 사용에 의해, 또는 언어 문자들 및 특성들에 기초하여 단어 경계들을 검출함으로써 입력 단어들의 경계들을 결정할 수 있다. 시스템 및 방법은 세그먼트화, 문자 인식, 및 언어 모델링의 프로세스를 통해 필기 입력을 분석한다. 이들 3 가지 프로세스들은 동적 프로그래밍의 사용을 통해 동시에 발생한다.

Description

중첩된 필기 인식 기술을 위한 시스템 및 방법{SYSTEM AND METHOD FOR SUPERIMPOSED HANDWRITING RECOGNITION TECHNOLOGY}

관련 출원들에 대한 상호 참조

본 출원은 2014 년 4 월 4 일에 출원된 미국 특허 출원 제 14/245,601 호를 우선권 주장하며, 상기 특허 출원은 그 전체가 본원에 참조로서 통합되고, 본원의 일부로 형성된다.

본 발명은 일반적으로 다양한 문자들의 사용자 입력 필기를 인식할 수 있는 컴퓨팅 디바이스 인터페이스들의 분야에 관한 것이다.

컴퓨팅 디바이스들은 계속해서, 일상 생활에서 더 편재하고 있다. 그 디바이스들은 컴퓨터 데스크탑들, 랩탑들, 태블릿 PC들, e-북 리더들, 이동 전화들, 스마트폰들, 웨어러블 컴퓨터들, 글로벌 포지셔닝 시스템 (GPS) 유닛들, 회사 디지털 보조장치들 (EDA들), 개인 디지털 보조장치들 (PDA들), 게임 콘솔들, 등등의 형태를 취한다. 추가로, 컴퓨팅 디바이스들은 자동차들, 트럭들, 농장 시설, 제조 장비, 건물 환경 제어 (예컨대, 조명, HVAC), 및 가정 및 상업용 가전제품 내에 통합되고 있다.

컴퓨팅 디바이스들은 일반적으로, 중앙 프로세싱 유닛 (CPU), 일부 형태의 메모리, 및 입력 및 출력 디바이스들과 같은 적어도 하나의 프로세싱 엘리먼트로 구성된다. 다양한 컴퓨팅 디바이스들 및 그들의 후속 사용들은 다양한 입력 디바이스들을 필요로 한다. 하나의 그러한 디바이스는, 터치 스크린 또는 터치 패드와 같은 터치 감지 표면이며, 여기서 사용자 입력은 사용자의 손가락 또는 펜 또는 스타일러스와 같은 기구와 터치 감지 표면 간의 접촉을 통해 수신된다. 또 다른 입력 디바이스가 입력 표면 위의 사용자에 의해 실행된 제스처들을 감지하는 입력 표면이다. 이들 입력 방법들 중 어느 한 쪽은 일반적으로, 텍스트를 그리거나 입력하기 위해 사용될 수 있다. 사용자 입력이 텍스트일 때, 컴퓨팅 디바이스는 온라인 필기 인식 시스템 또는 방법을 사용하여 사용자의 필기를 해석해야만 한다.

일반적으로, 온라인 필기 인식 시스템들 또는 방법들은 사용자가 터치 감지 표면을 접촉하는 경우와 같은 스트로크의 개시 (펜-다운); 사용자가 터치 감지 표면을 접촉하는 것을 중지하는 경우와 같은 스트로크의 종료 (펜-업), 및 사용자가 스트로크의 개시와 스트로크의 종료 간에 그 또는 그녀의 손가락 또는 펜으로 실행하는 임의의 움직임들 (제스처들 또는 스트로크들) 을 모니터링한다.

온라인 필기 인식 시스템들 또는 방법들은 통상적으로, 프리-프로세싱 (preprocessing) 스테이지, 세그먼트화 (segmentation) 스테이지, 인식 스테이지, 및 해석 스테이지로 구성된다. 일반적으로, 프리-프로세싱 스테이지는 관련 없는 입력 데이터를 삭제하고, 관련 있는 데이터로부터의 잡음을 정규화, 샘플링 및 제거하는 것을 포함한다. 세그먼트화 스테이지는 입력 데이터를 개별 문자들 및 단어들로 분해하는 상이한 방식들을 명시한다. 인식은 일반적으로, 상이한 입력 세그먼트들을 특징으로 하는 특징 추출 스테이지 및 그 세그먼트들을 가능한 문자 후보들과 연관시키는 분류 스테이지를 포함한다. 최종적으로, 해석 스테이지는 일반적으로, 문자 후보들과 연관된 문자들 및/또는 단어들을 인식하는 것을 포함한다. 실제로, 온라인 필기 인식 시스템들 또는 방법들은 이들 스테이지들과 함께 부가적인 스테이지들을 포함할 수도 있다. 추가로, 온라인 필기 인식 시스템들 또는 방법들은 각 스테이지를 명확히 기술하지 않을 수도 있다.

온라인 필기 인식 시스템들 또는 방법들은 단일-스트로크 또는 멀티-스트로크일 수도 있다. 단일 스트로크 인식은 알파벳의 각 문자에 대하여 단일-스트로크 속기 (shorthand) 를 사용한다 (예컨대, Palm, Inc.'s Graffiti). 이들 시스템들 또는 방법들은 적은 입력 에러들을 가지지만, 사용자가 전체 알파벳에 대하여 새로운 스트로크 패턴들을 암기할 것을 요구한다. 멀티-스트로크 인식은 자연스러운 필기를 인식할 수 있고, 일본어 또는 중국어 문자들과 같이, 단일 스트로크들로 용이하게 감소되지 않는 문자들을 포함하는 언어들을 갖는 온라인 필기 인식 시스템들을 사용할 경우에, 종종 필수적이다.

컴퓨팅 디바이스의 타입은 또한, 활용되는 필기 인식 시스템 또는 방법의 타입을 결정할 수 있다. 예를 들어, (태블릿과 같이) 입력 표면이 충분히 클 경우, 사용자는 마치 사용자가 한 장의 종이 위에 기록하고 있었던 것처럼, 입력 표면에 또는 그 위의 어느 곳에도 텍스트 또는 데이터를 입력할 수 있다. 디바이스들이 작아질수록, 멀티-박스 또는 단일-박스와 같은 상이한 시스템들 또는 방법들이 개발되었다. 멀티-박스 시스템들 또는 방법들은 입력 표면을 3 개의 박스들과 같은 다수의 영역들로 분할하며, 여기서 사용자는 각각의 문자를 각각의 박스에 차례로 입력한다. 이들은 문자 세그먼트화가 최소이거나 불필요하기 때문에 유리하다. 그들은 또한, 분리된-문자 인식 기술들로 분석될 수 있는 멀티-스트로크 문자들을 허용한다.

심지어 더 작은 디바이스들에 대해서도, 입력 표면은 다수의 박스들에 대하여 충분히 크지 않을 수도 있고, 따라서 그 표면은 본질적으로 단일-박스 필기 인터페이스이다. 이 경우, 한 번에 오직 하나의 문자만이 기록될 수 있다. 단일-박스 인터페이스들이 단일-스트로크 인식 시스템들에 적합하지만, 일본어 또는 중국어와 같은 특정 언어들은 단일-스트로크 속기로 용이하게 감소되지 않는 멀티-스트로크 문자들을 갖는다. 추가로, 가장 자연스러운 필기는 언어에 관계없이, 멀티-스트로크 문자들을 포함한다.

멀티-스트로크 시스템들 또는 방법들을 사용하는 단일 박스 인터페이스들은 문자들의 시작부 및 종료를 결정하는 것 및 입력 문자들의 이미지들을 명확히 디스플레이하는 것을 포함하는 추가의 문제들을 생성한다. 문자들의 시작부 및 종료를 결정하기 위한 한 가지 방식은, 사용자가 각각의 문자 사이에 명백하게 정지할 것을 요구한다. 그러나, 이는 사용자가 데이터를 입력하는 속도를 늦추기 때문에, 최적이 아니다. 사용자가 문자들을 계속해서 정지 없이 입력할 수 있는 단일 박스 시스템 또는 방법에 있어서, 입력 문자들은 서로 겹쳐지거나 중첩될 것이다. 이는 중첩된 필기, 겹쳐진 필기, 또는 "온-탑-라이팅 (on-top-writing)" 으로 지칭된다.

본 발명의 온라인 중첩된 필기 인식 시스템 및 방법은 세그먼트화, 인식, 및 해석을 순차적으로 보다는 동시에 수행함으로써, 사용자 입력 필기 인식에 대하여 개선된 결과들을 제공한다. 본 발명의 시스템 및 방법은 계층을 단계들에 적용하는 것보다 동일한 레벨로 이들 프로세스들을 수행한다. 세그먼트화, 인식 및 해석이 협력하여 발생하게 함으로써, 본 발명의 시스템은 사용자 입력에 기초하여 가장 가능한 문자, 단어, 및 문장 후보들을 사용자에게 제공한다.

이하 본원에서 설명되는 본 발명의 예들은 온라인 중첩된 필기 인식에서 사용하기 위한 방법들, 시스템들, 및 소프트웨어를 제공한다. 이들은 사용자가 문자들 간에 어떤 명백한 구분 없이도 그 또는 그녀의 자연스러운 필기를 사용하여 컴퓨팅 디바이스에 문자들을 기입하는 것을 허용한다. 본 발명의 필기 인식 시스템 및 방법은 입력 표면의 형태인 입력 디바이스에 접속된 컴퓨팅 디바이스를 포함한다. 사용자는 그 또는 그녀의 손가락 또는 스타일러스 또는 펜과 같은 기구를 사용하여 입력 표면을 가압하거나 또는 입력 표면 위에서 제스처를 취함으로써 입력을 제공할 수도 있다. 본 발명의 시스템 및 방법은 입력 스트로크들을 모니터링한다. 입력 스트로크들을 프리-프로세싱한 후에, 세그먼트화 엑스퍼트, 인식 엑스퍼트, 및 언어 엑스퍼트가 동시에 입력 데이터를 분석한다. 이들 3 개의 엑스퍼트들은 입력 스트로크들을 프로세싱하고 문자, 단어, 및 문장 레벨로 후보들을 생성하기 위해 동적 프로그래밍을 통해 협력하여 작업한다.

개시된 시스템 및 방법의 목적은, 사용자의 자연스러운 필기 스타일을 해석할 수 있는 온라인 필기 인식 시스템 및 방법을 제공하는 것이다. 이는 시스템 및 방법을 제공함으로써 실행될 수 있고, 그것에 의해 사용자 입력과 인식 엑스퍼트 및 언어 엑스퍼트로부터의 입력에 기초하여 세그먼트화 그래프를 생성하는 세그먼트화 엑스퍼트; 문자 후보들의 리스트를 세그먼트화 그래프의 각각의 노드의 인식 스코어들과 연관시키는 인식 엑스퍼트; 및 세그먼트화 그래프에서 상이한 경로들의 언어적 의미를 생성하는 언어 엑스퍼트 모두 동적 프로그래밍을 통해 협력하여 작업한다.

개시된 시스템 및 방법의 다른 목적은, 중첩된 필기를 인식할 수 있는 온라인 필기 인식 시스템 및 방법을 제공하는 것이며, 여기서 문자들은 연속하는 글자들 간에 어떤 명백한 구분 없이 겹쳐서 기록된다. 이는 시스템 및 방법을 제공함으로써 실행될 수 있고, 그것에 의해 세그먼트화 엑스퍼트, 인식 엑스퍼트, 및 언어 엑스퍼트는 문자, 단어, 및 문장 입력들에 대하여 가장 가능성 있는 후보들을 제공하기 위해 동적 프로그래밍을 통해 협력하여 작업한다.

개시된 시스템 및 방법의 또 다른 목적은, 다중 스트로크 문자들을 인식할 수 있는 온라인 필기 인식 시스템 및 방법을 제공하는 것이다. 이는 시스템 및 방법을 제공함으로써 실행될 수 있고, 그것에 의해 세그먼트화 엑스퍼트는 사용자 입력 및 세그먼트화 그래프를 분석하는 인식 및 언어 엑스퍼트들을 수반하는 동적 프로그래밍에 기반하는 세그먼트화 그래프를 생성한다.

개시된 시스템 및 방법의 또 다른 목적은, 추가되는 문자들이 다른 것보다 먼저 기록되는 흘림체를 인식할 수 있는 온라인 필기 인식 시스템 및 방법을 제공하는 것이다. 이는 시스템 및 방법을 제공함으로써 실행될 수 있고, 그것에 의해 세그먼트화 엑스퍼트는 스트로크를 그 구성 세그먼트들로 분해하기 위한 위치들을 정의하는 특정 지점을 검출한다.

개시된 시스템 및 방법의 추가의 목적은, 특정 입력 스트로크에 기초하여 또는 단어 경계들을 자동으로 검출함으로써 단어 경계들을 제공하는 온라인 필기 인식 시스템 및 방법을 제공하는 것이다. 이는 시스템 및 방법을 제공함으로써 실행되고, 그것에 의해 세그먼트화 엑스퍼트, 인식 엑스퍼트, 및 언어 엑스퍼트를 모두 포함하는 본 발명의 시스템은 입력 문자들을 단어들로 분해하기 위한 특정 입력 스트로크를 예측하거나; 3 개의 엑스퍼트들은 입력 문자들을 총체적으로 모두 분석함으로써 분철 지점 (word break) 들을 자동으로 추가한다.

본 발명의 시스템 및 방법은 도면들과 함께 취득되는 예들의 이하 상세한 설명으로부터 더 완전히 이해될 것이다.
도 1 은 본 발명의 시스템의 일 예에 따른 컴퓨팅 디바이스의 블록 다이어그램을 도시한다.
도 2 는 본 발명의 시스템의 일 예에 따른 온라인 필기 인식용 시스템의 블록 다이어그램을 도시한다.
도 3a 는 본 발명의 시스템의 일 예에 따른 가능한 사용자 입력의 컴퓨팅 디바이스의 도면을 도시한다.
도 3b 는 본 발명의 시스템의 일 예에 따른 세그먼트화 그래프의 개략도를 도시한다.
도 4 는 본 발명의 시스템의 일 예에 따라 필기체 사용자 입력 중 가능한 사용자 입력의 개략도를 도시한다.
도 5 는 본 발명의 시스템의 일 예에 따라 필기체 사용자 입력의 세그먼트화의 개략적인 도면을 도시한다.
도 6 은 본 발명의 시스템의 일 예에 따른 인식 엑스퍼트의 개략적인 도면을 도시한다.
도 7 은 본 발명의 시스템의 일 예에 따른 언어적 오토머턴 (linguistic automaton) 의 개략적인 도면을 도시한다.

이하 상세한 설명에서, 다양한 특정 세부사항들이 관련된 교시들의 이해를 통해 제공하기 위해 예를 들어 설명된다. 그러나, 본 교시들은 그러한 세부사항들 없이 실시될 수 있음이 당업자에게 명백하여야 한다. 다른 예시들에서, 널리 알려진 방법들, 절차들, 컴포넌트들, 및/또는 회로는 본 발명의 교시들의 양태들을 불필요하게 모호하게 하는 것을 회피하기 위해 세부사항 없이 상대적으로 고 레벨로 설명되었다.

본원에 설명된 다양한 기술들은 일반적으로 온라인 필기 인식에 관한 것이고, 더 구체적으로 다양한 컴퓨팅 디바이스들 상의 중첩된 필기 인식을 위한 시스템들 및 방법들에 관한 것이다. 본원에 설명된 시스템 및 방법은 세그먼트화, 인식, 및 해석의 동시의 프로세스들을 통해 사용자의 자연스러운 필기 입력을 인식하여 최대 가능한 문자, 단어, 및 문장 후보들을 제공하는데 사용될 수도 있다.

도 1 은 컴퓨팅 디바이스 (100) 의 블록 다이어그램을 도시한다. 이러한 컴퓨팅 디바이스는 컴퓨터 데스크탑, 랩탑, 태블릿 PC, e-북 리더기, 모바일 전화, 스마트폰, 웨어러블 컴퓨터, 디지털 와치, 글로벌 포지셔닝 시스템 (GPS) 유닛, 기업형 디지털 보조장치 (EDA), 개인 디지털 보조장치 (PDA), 또는 게임 콘솔일 수 있다. 디바이스 (100) 는 메모리 및 입력 및/또는 출력 (I/O) 디바이들의 일부 형태로 적어도 하나의 프로세싱 엘리먼트를 포함한다. 컴포넌트들은 커넥터들, 라인들, 버스들, 케이블들, 버퍼들, 전자기 링크들, 네트워크들, 모뎀들, 트랜스듀서들, IR 포트들, 안테나들, 또는 당업자에게 알려진 것과 같은 다른 수단들과 같은 입력 및 출력 수단들을 통해 서로 통신한다.

디바이스 (100) 는 적어도 하나의 입력 표면 (104) 을 포함한다. 입력 표면 (104) 은 저항성, 표면 탄성파, 용량성, 적외선 그리드, 적외선 아크릴 프로젝션, 광학 이미징, 분산 신호 기술, 음향 펄스 인식, 또는 당업자에게 알려진 바와 같은 임의의 다른 적절한 기술과 같은 기술을 채용할 수도 있다. 입력 표면 (104) 은 그 경계들을 명확히 식별하는 영구적인 또는 비디오-생성된 경계에 의해 바운딩될 수도 있다.

입력 표면 (104) 에 부가하여, 디바이스 (100) 는 로컬 인터페이스를 통해 통신가능하게 커플링되는 하나 이상의 추가의 I/O 디바이스들 (또는 주변장치들) 을 포함할 수도 있다. 로컬 인터페이스는 통신들을 인에이블하기 위한 추가의 엘리먼트들, 예컨대 제어기들, 버퍼들 (캐시들), 드라이버들, 리피터들, 및 수신기들을 가질 수도 있고, 이들은 간략함을 위해 생략되지만, 당업자에게 공지된다. 추가로, 로컬 인터페이스는 다른 컴퓨터 컴포넌트들 중에서 적절한 통신들을 인에이블하기 위해 어드레스, 제어, 및/또는 데이터 접속들을 포함할 수도 있다.

하나의 그러한 I/O 디바이스는 이미지들, 텍스트, 및 비디오와 같은 컴퓨팅 디바이스로부터의 데이터를 출력하기 위한 적어도 하나의 디스플레이 (102) 일 수도 있다. 디스플레이 (102) 는 LCD, 플라즈마, CRT, 또는 당업자에게 알려진 것과 같은 임의의 다른 적합한 기술을 사용할 수도 있다. 디스플레이 (102) 의 적어도 일부는 입력 표면 (104) 과 공동 위치될 수 있다. 다른 추가의 I/O 디바이스들은 입력 디바이스들, 예컨대 키보드, 마우스, 스캐너, 마이크로폰, 터치패드들, 바코드 리더기들, 레이저 리더기들, 무선 주파수 디바이스 리더기들, 또는 당업자에게 알려진 것과 같은 임의의 다른 적합한 기술을 포함할 수도 있다. 추가로, I/O 디바이스들은 또한, 출력 디바이스들, 예컨대 프린터, 바코드 프린터들, 또는 당업자에게 알려진 것과 같은 임의의 다른 적합한 기술을 포함할 수도 있다. 결과적으로, I/O 디바이스들은 추가로, 입력들 및 출력들 양자를 통신하는 디바이스들, 예컨대 변조기/복조기 (모뎀; 다른 디바이스, 시스템, 또는 네트워크 액세스용), 무선 주파수 (RF) 또는 다른 트랜시버, 전화 인터페이스, 브릿지, 라우터, 또는 당업자에게 알려진 것과 같은 임의의 다른 적합한 기술을 포함할 수도 있다.

디바이스 (100) 는 또한, 소프트웨어, 특히 메모리 (108) 에 저장된 소프트웨어를 실행하기 위한 하드웨어 디바이스인 프로세서 (106) 를 포함한다. 프로세서는 임의의 맞춤 제작되거나 상업적으로 입수가능한 범용 프로세서, 중앙 프로세싱 유닛 (CPU), 반도체 기반 마이크로프로세서 (마이크로칩 또는 칩셋 형태), 매크로프로세서, 마이크로제어기, 디지털 신호 프로세서 (DSP), 주문형 집적회로 (ASIC), 필드 프로그램가능 게이트 어레이 (FPGA) 또는 다른 프로그램가능 로직 디바이스, 이산 게이트 또는 트랜지스터 로직, 별개의 하드웨어 컴포넌트들, 상태 머신, 또는 당업자에게 공지된 소프트웨어 명령들을 실행하기 위해 설계된 이들의 임의의 조합일 수 있다. 적절한 상업적으로 입수가능한 마이크로프로세서들의 예들은 다음과 같다: Hewlett-Packard Company 로부터의 PA-RISC 시리즈 마이크로프로세서, Intel Corporation 로부터의 80x86 또는 펜티엄 시리즈 마이크로프로세서, IBM 으로부터의 PowerPC 마이크로프로세서, Sun Microsystems, Inc. 로부터의 Sparc 마이크로프로세서, Motorola Corporation 로부터의 68xxx 시리즈 마이크로프로세서, DSP 마이크로프로세서들, 또는 ARM 마이크로프로세서들.

메모리 (108) 는 휘발성 메모리 엘리먼트들 (예컨대, 랜덤 액세스 메모리 (DRAM, SRAM, SDRAM, 등과 같은 RAM)) 및 비휘발성 메모리 엘리먼트들 (예컨대, ROM, EPROM, 플래시 PROM, EEPROM, 하드 드라이브, 자기 또는 광학 테이프, 메모리 레지스터들, CD-ROM, WORM, DVD, RAID (redundant array of inexpensive disks), 다른 DASD (direct access storage device), 등) 중 임의의 하나 또는 조합을 포함할 수 있다. 추가로, 메모리 (108) 는 전자의, 자기의, 광학의, 및/또는 다른 타입들의 저장 매체를 통합할 수도 있다. 메모리 (108) 는 다양한 컴포넌트들이 서로 떨어져서 위치되지만 프로세서 (106) 에 의해 또한 액세스될 수 있는 분산된 아키텍처를 가질 수 있다. 메모리 (108) 는 프로세서 (106) 에 커플링되고, 따라서 프로세서 (106) 는 메모리 (108) 로부터 정보를 판독하고, 정보를 메모리 (108) 에 기록할 수 있다. 대안에서, 메모리 (108) 는 프로세서 (106) 에 통합될 수도 있다. 다른 예에서, 프로세서 (106) 및 메모리 (108) 는 양자가 단일 ASIC 또는 다른 집적 회로에 상주할 수도 있다.

메모리 (108) 내의 소프트웨어는 각각이 논리 함수들을 구현하기 위한 실행가능한 명령들의 정렬된 리스트를 포함하는 하나 이상의 분리된 프로그램들을 포함할 수도 있는, 온라인 필기 컴퓨터 프로그램을 포함한다. 오퍼레이팅 시스템 (110) 은 온라인 필기 컴퓨터 프로그램의 실행을 제어한다. 오퍼레이팅 시스템 (110) 은 PALM®, WINDOWS®, MAC 및 IPHONE OS®, LINUX, ANDROID, 등과 같은, 전매 특허 오퍼레이팅 시스템 또는 상업적으로 입수가능한 오퍼레이팅 시스템일 수도 있다. 다른 오퍼레이팅 시스템들은 또한, 본원에 기재된 시스템 및 방법의 범위로부터 벗어남 없이 활용될 수도 있다.

메모리 (108) 는 본원에 개시된 것과 같은 필기 인식에 관련된 다른 애플리케이션 프로그램들 (112), 완전히 상이한 기능들, 또는 이들 양자를 포함할 수도 있다. 애플리케이션들 (112) 은 제조시 디바이스 (100) 에 제공된 프로그램들을 포함하고, 제조 이후에 디바이스 (100) 에 다운로드된 프로그램들을 추가로 포함할 수도 있다. 일부 예들은 텍스트 에디터, 전화 다이얼러, 접촉 디렉토리, 인스턴트 메세징 기능, 이메일 프로그램, 워드 프로세싱 프로그램, 웹 브라우저, 카메라, 등을 포함한다.

지원 및 준수 능력들을 갖는 온라인 필기 인식 컴퓨터 프로그램은 소스 프로그램, 실행가능 프로그램 (오브젝트 코드), 스크립트, 또는 수행될 명령들의 세트를 포함하는 임의의 다른 엔티티일 수도 있다. 소스 프로그램일 때, 그 프로그램은 오퍼레이팅 시스템과 연계하여 적절히 동작하도록, 메모리 내에 포함될 수도 있거나 포함되지 않을 수도 있는 컴파일러, 어셈블러, 인터프리터, 등을 통해 변환되어야만 한다. 추가로, 지원 및 준수 능력들을 갖는 온라인 필기 인식 컴퓨터 프로그램은 (a) 데이터 및 방법들의 클래스들을 갖는 오브젝트 지향 프로그래밍 언어, 또는 (b) 예를 들어 C, C++, Pascal, Basic, Fortran, Cobol, Perl, Java, 및 Ada 이지만 이에 제한되지 않는, 루틴들, 서브루틴들, 및/또는 기능들을 갖는 프로시저 프로그래밍 언어로서 기록될 수 있다.

시스템은, 프로세서 (106) 가 입력 표면 (104) 을 통해 사용자 입력된 스트로크를 검출할 때, 개시된다. 사용자는 손가락, 또는 펜 또는 스타일러스와 같은 임의의 기구로 스트로크를 입력할 수도 있다. 스트로크는, 적어도 스트로크 개시 위치, 스트로크 종료 위치, 및 사용자가 스트로크 개시 및 종료 위치들을 연결하는 경로를 특징으로 한다. 상이한 사용자들이 약간의 변형들을 갖는 동일한 글자를 자연스럽게 기록할 수도 있기 때문에, 본 발명의 시스템은 각각의 글자가 입력될 수도 있는 다양한 방식들을 수용한다.

도 2 는 본 발명의 시스템의 일 예에 따른 온라인 필기 인식용 시스템의 개략도이다. 적어도 하나의 입력 스트로크로 개시되자마자, 시스템은 스트로크들을 프리-프로세싱한다 (114). 프리-프로세싱 (114) 은 입력을 평활화하기 위해 B-스플라인 근사와 같은 방법들 및/또는 사이즈 정규화를 적용함으로써, 스트로크 개시 및 종료 위치들을 연결하는 경로를 정규화하는 것을 포함할 수도 있다. 그 후에, 입력 스트로크는 출력 후보들 (124) 을 문자, 단어, 및 문장 레벨로 생성하기 위해 동적 프로그래밍을 통해 협력하는 3 개의 엑스퍼트들 (세그먼트화 엑스퍼트 (116), 인식 엑스퍼트 (118), 및 언어 엑스퍼트 (120)) 로 전달된다.

세그먼트화 엑스퍼트 (116) 는 입력 스트로크들을 단어들 및 개별적인 문자 가설들로 세그먼트화하기 위한 상이한 방식들을 정의한다. 문자 가설들을 형성하기 위해, 세그먼트화 엑스퍼트 (116) 는 원래 입력의 연속하는 스트로크들을 그룹화한다. 이 결과, 각각의 노드가 적어도 하나의 문자 가설에 대응하고, 문자들 간의 인접성 제약들이 노드 접점들에 의해 핸들링되는, 세그먼트화 그래프를 발생한다. 노드들은, 대응하는 가설들이 어떤 공통의 스트로크도 가지지 않지만, 그 스트로크들이 원래의 입력에서 연속한다면, 인접하는 것으로 고려된다. 도 3a 는 본 발명의 시스템의 일 예에 따라 단어 BEAN 의 가능한 사용자 입력을 도시한다. 구체적으로, 도면은 멀티-스트로크 문자들을 갖는 중첩된 기록의 일 예를 디스플레이한다. 도 3b 는 본 발명의 시스템의 일 예에 따라 생성된 도 3a 의 입력의 가능한 세그먼트화 그래프를 도시한다.

중첩된 필기 인식 시스템들 및 방법들은 또한, 하나의 단어가 종료하고 다른 단어가 시작하는 위치를 결정해야만 한다. 본 발명의 시스템 및 방법은 단어 경계들을 취출하기 위해 다수의 실시형태들이 가능하다. 일 실시형태에서, 사용자는 각각의 단어 이후에 특정 제스처를 입력하도록 요구된다. 이 실시형태에서, 특정 제스처는 스페이스 문자로서 출력된다. 이 실시형태는 입력 스트로크들을 단어들 및 개별 문자 가설들로 세그먼트화하기 위한 상이한 방식들을 감소시키기 때문에, 세그먼트화 프로세스에 더 많은 강인성을 제공한다. 그러나, 이 실시형태는 사용자가 일부 사용자들이 잊어버릴 수도 있는, 각각의 단어의 종료를 표시하는 특정 제스처를 부가하게 한다.

대안적인 실시형태는 단어들을 구분하는 특정 제스처를 요구하지 않는다. 대신, 온라인 필기 인식 컴퓨터 프로그램은, 이하 상세히 설명되는 인식 엑스퍼트 (118) 및/또는 언어 엑스퍼트 (120) 의 도움으로 단어 경계들을 자동으로 검출한다. 예를 들어, 언어 엑스퍼트 (120) 는 다른 것들 중에서, N-그램 모델들, 통사 해독 (syntactic parsing), 시맨틱 분석 등과 같은 소정의 언어에서 연속하는 단어들의 시퀀스의 가능성을 모델링하는 기술들 및 어휘 지식에 기초하여 단어 경계들을 취출하기 위해 언어 정보 (130) 를 사용한다.

예를 들어, 사용자가 영어로부터 추출된 언어 정보 (130) 에 기초하여, 일 실시형태에서 중첩된 기록으로 문자 시퀀스 "whattimeisit?" 를 입력할 수도 있다. 이러한 대안적인 실시형태는 입력 스트로크들에 대한 포괄적인 의미를 형성하고, 언어 정보 (130) 에 기초하여 단어 경계들을 취출하여 단어 세그먼트화 "what time is it?" 를 출력할 것이다. 이러한 실시형태는 사용자가 각각의 단어 사이에 특정 제스처를 삽입하지 않고 단어들의 시퀀스를 입력하게 하는 장점을 갖는다.

다른 실시형태에서, 2 개의 이전의 방법들이 결합될 수 있다. 이 경우, 사용자는 단어 경계들을 검출하는데 더 많은 강인성을 얻기 위해, 각각의 단어 이후에 특정 제스처를 삽입할 수 있다. 그러나 사용자가 제스처를 삽입하는 것을 간과할 때마다, 필기 인식 시스템은 인식 엑스퍼트 (118) 및/또는 언어 엑스퍼트 (120) 의 도움으로 단어 경계들을 검출할 수 있다.

일 예에서, 세그먼트화 엑스퍼트는 도 3a 및 도 3b 에 도시된 것과 같이, 각각의 개별 문자가 펜-업으로 이웃하는 문자들로부터 구분되는 손자국 기록 입력에 제한되지 않는다. 본 발명의 시스템의 세그먼트화 엑스퍼트 (116) 는 또한, 추가되는 문자들이 다른 것보다 먼저 기록되는 흘림체를 프로세싱할 수 있다. 도 4 는 단어들 "be" 및 "an" 의 흘림체 사용자 입력을 도시한다. 흘림체 사용자 입력을 해석할 경우, 세그먼트화 엑스퍼트 (116) 는 스트로크를 그 구성 세그먼트들로 분해하기 위한 위치들을 정의하는 특정 지점들의 검출에 기초하여 각각의 스트로크를 세그먼트화한다. 도 5 는 흘림체 "an" 이 그 구성 세그먼트들로 분해되는 일 예를 도시한다. 스트로크를 그 구성 세그먼트들로 분해하는 특정 지점들은 교차 지점들, 스트로크 경로의 기울기 변화, 등에 의해 정의될 수도 있다. 이들 구성 세그먼트들은 세그먼트화 그래프를 구성하기 위해 사용된다.

인식 엑스퍼트 (118) 는 문자 후보들의 리스트를 세그먼트화 그래프의 각 노드에 대한 확률들 또는 인식 스코어들과 연관시킨다. 이들 확률들 또는 인식 스코어들은 언어 인식 정보 (122) 에 기초한다. 언어 인식 정보는 명시된 언어에 기반하여 알파벳의 기호들 및 상이한 문자들 모두를 정의한다. 이러한 정보는 언어에 종속적이고, 알파벳들에서의 일반적인 차이들뿐만 아니라, 알파벳들을 기입하는 다양한 개별 스타일들을 인식하는 능력을 포함한다. 예를 들어, 개인이 "7" 을 기록하는 방식은 그 개인이 미국, 프랑스, 또는 심지어 한국 출신인지 여부에 의존하여 매우 상이할 수 있다. 도 3a 및 도 3b 에서 제공된 예에서 계속하여, 도 6 은 2 개의 스테이지들을 포함하는 인식 엑스퍼트 (118) 의 일 실시형태를 도시한다. 인식 엑스퍼트 (118) 의 제 1 스테이지, 즉 특징 추출 (126) 은 동적 및 정적 특징들의 조합에 기초한다. 예를 들어, 동적 특징들은 입력 스트로크의 궤적으로부터 추출될 수 있고, 입력 스트로크의 위치, 방향 및 곡률과 같은 정보에 기초한다. 정적 특징들은 입력 스트로크의 비트맵 표현으로부터 추출될 수 있고, 예측들 및 히스토그램들에 기초할 수 있다.

본 발명의 실시형태의 인식 엑스퍼트 (118) 의 제 2 스테이지는 신경 네트워크들 (128) 과 같은 패턴 분류자에 의해 추출되는 특징들의 분류이다. 본 발명의 실시형태에서, 신경 네트워크들은 간단한 다중층 퍼셉트론 (perceptron) 들일 수 있다. 신경 네트워크들은 또한, 신경 네트워크가 불량하게 세그먼트화된 문자들에 대응하는 노드 가설들을 거부할 수 있게 하는 추가의 클래스를 포함할 수 있다. 인식 엑스퍼트 (118) 는 세그먼트화 그래프의 각 노드에 대한 확률들 또는 인식 스코어들을 갖는 문자 후보들의 리스트를 출력한다. 대안적인 실시형태는 다른 종류의 신경 네트워크, 예컨대 딥 (Deep) 신경 네트워크, 컨벌루션 신경 네트워크, 또는 반복 (Recurrent) 신경 네트워크를 사용할 수도 있다. 더 일반적으로, 임의의 종류의 패턴 분류기가 이러한 인식 작업 (예컨대, 지원 벡터 머신, 은닉 마르코브 모델) 을 어드레싱하는데 사용될 수 있다.

언어 엑스퍼트 (120) 는 세그먼트화 그래프에서 상이한 경로들에 대한 언어적 의미를 생성한다. 언어 엑스퍼트 (120) 는 사용가능한 언어 정보 (130) 에 따라 다른 엑스퍼트들에 의해 제안된 후보들을 검사한다. 이러한 언어 정보 (130) 는 어휘, 정규 표현, 등을 포함할 수 있다. 언어 엑스퍼트 (120) 는 최적 인식 경로를 발견하는 것을 목적으로 한다. 일 실시형태에서, 언어 엑스퍼트 (120) 는 언어 정보 (130) 의 내용을 나타내는 최종 상태 오토머턴 (결정론자 FSA) 과 같은 언어 모델을 조사함으로써 이를 실행한다. 도 3a, 도 3b 및 도 6 에서의 예들을 구축하는 도 7 은 오직 단어들 BEAN, BY, CAR, CAT, 및 COW 을 포함하는 어휘를 갖는 언어적 오토머턴을 도시한다. 추가로, 도 7 은 단어 경계를 정의하기 위해 사용자가 대시 (132) 를 삽입하는 것을 예측하는 언어 엑스퍼트의 일 실시예를 나타낸다.

어휘 제약에 부가하여, 언어 엑스퍼트 (120) 는 얼마나 자주 단어 또는 단어들의 소정 시퀀스가 명시된 언어에서 나타나는지 또는 특정 사용자에 의해 사용되는지에 대하여 통계 정보 모델링을 사용할 수도 있다. 예를 들어, 단어 트라이그램 (tri-gram) 언어 모델은 세그먼트화 그래프의 소정 경로의 해석의 언어적 가능성을 평가하는데 사용될 수도 있다.

세그먼트화 엑스퍼트 (116), 인식 엑스퍼트 (118), 및 언어 엑스퍼트 (120) 는 입력 스트로크들을 프로세싱하고 문자, 단어, 및 문장 레벨로 출력 후보들 (124) 을 생성하기 위해 동적 프로그래밍을 통해 협력하여 작업한다. 일 실시형태에서, 동적 프로그래밍은 세그먼트화 그래프와 언어 모델 양자에서 최적 경로에 대하여 탐색하는 빔 탐색 기술에 기초한다. 이 경우, 최적 경로는 최저 비용에 대응하는 경로이다. 최저 비용 경로는 다음의 합으로 정의될 수 있다:

● 세그먼트화 그래프 내로 대응하는 경로에서 만나는 모든 문자 후보들의 비용들. 이들 비용들은 세그먼트화 그래프에서 상기 경로에 속하는 각각의 노드의 인식 스코어들 또는 확률들로부터 추정될 수 있다. 일 실시형태에서, 비용들은 -로그 비선형 함수를 적용함으로써 신경 네트워크 확률들로부터 추정된다.

● 언어 모델의 대응하는 경로에서 만나는 모든 단어들의 비용들. 이들 비용들은 언어 엑스퍼트 (120) 로부터의 N-그램 확률들로부터 추정될 수 있다. 일 실시형태에서, 비용들은 -로그 비선형 함수를 적용함으로써 언어 엑스퍼트 (120) 로부터의 N-그램 확률들로부터 추정된다.

본 발명의 온라인 필기 인식 컴퓨터 프로그램의 전체 트레이닝을 위해, 분류기들 (예컨대, 신경 네트워크) (128) 의 모든 파라미터들 및 시스템의 임의의 메타-파라미터들의 자동 학습과 함께 텍스트 레벨의 글로벌 판별 트레이닝 방식이 사용될 수도 있지만, 다른 트레이닝 시스템들 및 방법들이 사용될 수도 있다. 본 발명의 온라인 중첩된 필기 인식 시스템 및 방법에도 불구하고, 사용자 입력 필기 인식을 위한 최적 결과들은 세그먼트화, 인식, 및 해석을 순차적으로 또는 계층적 속성으로 보다는 동시에 수행함으로써 제공된다.

앞에서 최적 모드 및/또는 다른 예들인 것으로 고려되는 것을 설명하였지만, 다양한 수정들이 본원에서 실행될 수도 있고, 본원에 개시된 주제가 다양한 형태들 및 예들로 구현될 수도 있으며, 이들이 오직 일부만이 본원에 설명된 다수의 다른 애플리케이션들, 조합들, 및 환경들에 적용될 수도 있음이 이해될 것이다. 개시된 양태들이 그 주제의 실제 범위 및 사상으로부터 벗어남 없이 변경되거나 수정될 수도 있음을 당업자는 인식할 것이다. 그러므로, 그 주제는 본 설명에서 특정 세부사항들, 전시들, 및 도시된 예들에 제한되지 않는다. 본원에 개시된 유리한 개념들의 실제 범위 내에 있는 임의의 및 모든 수정들 및 변경들을 보호하는 것이 의도된다.

Claims

컴퓨터 판독가능 프로그램 코드가 수록되는 컴퓨터 사용가능 매체를 포함하는 컴퓨터 프로그램 제품으로서,
상기 컴퓨터 판독가능 프로그램 코드는 중첩된 입력 스트로크에 대한 필기 인식을 제공하는 방법을 구현하기 위해 실행되도록 적응되며,
상기 방법은,
적어도 하나의 입력 스트로크에 기초하여 세그먼트화 그래프를 생성하는 단계로서, 상기 세그먼트화 그래프는 문자 가설들에 대응하는 노드들로 이루어지는, 상기 세그먼트화 그래프를 생성하는 단계;
패턴 분류기에 기초하여 상기 세그먼트화 그래프의 각각의 노드에 인식 스코어를 할당하는 단계;
상기 인식 스코어들 및 언어 모델에 기초하여 상기 입력 스트로크들의 언어적 의미를 생성하는 단계; 및
상기 세그먼트화 그래프, 상기 인식 스코어, 및 상기 언어 모델의 동시의 분석에 기초하여 출력을 제공하는 단계
를 포함하는, 컴퓨터 사용가능 매체를 포함하는 컴퓨터 프로그램 제품.
제 1 항에 있어서,
상기 입력 스트로크가 프리-프로세싱되고, 상기 프리-프로세싱은 적어도 상기 입력 스트로크의 정규화 및 평활화를 포함하는, 컴퓨터 사용가능 매체를 포함하는 컴퓨터 프로그램 제품.
제 2 항에 있어서,
상기 세그먼트화 그래프는 구성 세그먼트들로 분해된 연속하는 입력 스트로크들에 기초하는, 컴퓨터 사용가능 매체를 포함하는 컴퓨터 프로그램 제품.
제 2 항에 있어서,
상기 인식 스코어의 할당은 특징 추출 스테이지 및 신경 네트워크들에 의해 추출된 특징들의 분류를 포함하는, 컴퓨터 사용가능 매체를 포함하는 컴퓨터 프로그램 제품.
제 4 항에 있어서,
상기 특징 추출 스테이지는 적어도 하나의 동적 특징 및 적어도 하나의 정적 특징을 포함하는, 컴퓨터 사용가능 매체를 포함하는 컴퓨터 프로그램 제품.
제 4 항에 있어서,
상기 신경 네트워크들은 멀티계층 퍼셉트론들인, 컴퓨터 사용가능 매체를 포함하는 컴퓨터 프로그램 제품.
중첩된 입력 스트로크에 대한 필기 인식을 제공하는 방법으로서,
적어도 하나의 입력 스트로크에 기초하여 세그먼트화 그래프를 생성하는 단계로서, 상기 세그먼트화 그래프는 문자 가설들에 대응하는 노드들로 이루어지는, 상기 세그먼트화 그래프를 생성하는 단계;
패턴 분류기에 기초하여 상기 세그먼트화 그래프의 각각의 노드에 인식 스코어를 할당하는 단계;
상기 인식 스코어들 및 언어 모델에 기초하여 상기 입력 스트로크들의 언어적 의미를 생성하는 단계; 및
상기 세그먼트화 그래프, 상기 인식 스코어, 및 상기 언어 모델의 동시의 분석에 기초하여 출력을 제공하는 단계를 포함하는, 중첩된 입력 스트로크에 대한 필기 인식을 제공하는 방법.
제 7 항에 있어서,
상기 입력 스트로크가 프리-프로세싱되고, 상기 프리-프로세싱은 적어도 상기 입력 스트로크의 정규화 및 평활화를 포함하는, 중첩된 입력 스트로크에 대한 필기 인식을 제공하는 방법.
제 8 항에 있어서,
상기 세그먼트화 그래프는 구성 세그먼트들로 분해된 연속하는 입력 스트로크들에 기초하는, 중첩된 입력 스트로크에 대한 필기 인식을 제공하는 방법.
제 8 항에 있어서,
상기 인식 스코어의 할당은 특징 추출 스테이지 및 신경 네트워크들에 의해 추출된 특징들의 분류를 포함하는, 중첩된 입력 스트로크에 대한 필기 인식을 제공하는 방법.
제 10 항에 있어서,
상기 특징 추출 스테이지는 적어도 하나의 동적 특징 및 적어도 하나의 정적 특징을 포함하는, 중첩된 입력 스트로크에 대한 필기 인식을 제공하는 방법.
제 10 항에 있어서,
상기 신경 네트워크들은 멀티계층 퍼셉트론들인, 중첩된 입력 스트로크에 대한 필기 인식을 제공하는 방법.
컴퓨터 판독가능 프로그램 코드가 수록되는 컴퓨터 사용가능 매체를 포함하는 컴퓨터 프로그램 제품으로서,
상기 컴퓨터 판독가능 프로그램 코드는 중첩된 입력 스트로크에 대한 필기 인식을 제공하는 방법을 구현하기 위해 실행되도록 적응되며,
상기 방법은,
상기 입력 스트로크를 프리-프로세싱하는 단계로서, 적어도 상기 입력 스트로크의 정규화 및 평활화를 포함하는, 상기 프리-프로세싱하는 단계;
적어도 하나의 입력 스트로크에 기초하여 세그먼트화 그래프를 생성하는 단계로서, 상기 세그먼트화 그래프는 문자 가설들에 대응하는 노드들로 이루어지는, 상기 세그먼트화 그래프를 생성하는 단계;
패턴 분류기에 기초하여 상기 세그먼트화 그래프의 각각의 노드에 인식 스코어를 할당하는 단계;
상기 인식 스코어들 및 언어 모델에 기초하여 상기 입력 스트로크들의 언어적 의미를 생성하는 단계; 및
상기 세그먼트화 그래프, 상기 인식 스코어, 및 상기 언어 모델의 동시의 분석에 기초하여 출력을 제공하는 단계
를 포함하는, 컴퓨터 사용가능 매체를 포함하는 컴퓨터 프로그램 제품.
제 13 항에 있어서,
상기 세그먼트화 그래프는 구성 세그먼트들로 분해된 연속하는 입력 스트로크들에 기초하는, 컴퓨터 사용가능 매체를 포함하는 컴퓨터 프로그램 제품.
제 13 항에 있어서,
상기 인식 스코어의 할당은 특징 추출 스테이지 및 신경 네트워크들에 의해 추출된 특징들의 분류를 포함하는, 컴퓨터 사용가능 매체를 포함하는 컴퓨터 프로그램 제품.
제 15 항에 있어서,
상기 특징 추출 스테이지는 적어도 하나의 동적 특징 및 적어도 하나의 정적 특징을 포함하는, 컴퓨터 사용가능 매체를 포함하는 컴퓨터 프로그램 제품.
제 15 항에 있어서,
상기 신경 네트워크들은 멀티계층 퍼셉트론들인, 컴퓨터 사용가능 매체를 포함하는 컴퓨터 프로그램 제품.