KR20070098904A

KR20070098904A - 수동 입력된 불명확한 텍스트 입력을 해석하기 위해 음성입력을 활용하는 방법 및 장치

Info

Publication number: KR20070098904A
Application number: KR1020077018235A
Authority: KR
Inventors: 제임스 스테파닉; 리처드 에라우드; 존 케이 다비드; 핌 반 메우르스; 에단 브래드포드; 마이클 알. 론지
Original assignee: 테직 커뮤니케이션 인코포레이티드
Priority date: 2005-02-08
Filing date: 2006-02-08
Publication date: 2007-10-05
Also published as: JP2008537806A; US7720682B2; EP1849155A4; CA2596740A1; BRPI0607643A2; WO2006086511A8; WO2006086511A3; EP1849155A2; US20060190256A1; WO2006086511A2; JP4829901B2

Abstract

텍스트 입력 도구로부터, 디지털 데이터 처리 디바이스는 내재적으로 불명확한 사용자 입력을 수신한다. 임의의 다른 사용자 입력에 무관하게, 디바이스는 수신된 사용자 입력을 어휘에 대하여 해석하여, 단어(사용자 입력이 전체 단어 도는 어근, 어간, 음절, 접사와 같은 일부를 형성함) 또는 하나의 단어로서 사용자 입력을 갖는 어구와 같은 후보들을 산출한다. 디바이스는 후보들을 표시하고, 구두의 사용자 입력에 음성 인식을 적용한다. 인식된 음성이 후보들 중 하나를 구비하면, 그 후보가 선택된다. 인식된 음성이 후보의 확장형을 구성하면, 확장된 후보가 선택된다. 인식된 음성이 다른 입력을 구비하면, 다양한 다른 액션들이 취해진다.

Description

수동 입력된 불명확한 텍스트 입력을 해석하기 위해 음성 입력을 활용하는 방법 및 장치{METHOD AND APPARATUS UTILIZING VOICE INPUT TO RESOLVE AMBIGUOUS MANUALLY ENTERED TEXT INPUT}

본 발명은 디지털 데이터 처리 장치를 이용한 텍스트의 사용자 수동 입력에 관한 것이다. 특히, 본 발명은 본래 불명확한 사용자의 수동 텍스트 입력을 음성 입력으로 보충하여 사용자의 텍스트 입력의 가능한 상이한 해석들을 명확하게 하는 컴퓨터 구동 동작들에 관한 것이다.

다년간 이동식 컴퓨터들은 더욱더 작아져 왔다. 무선 산업의 비약적인 성장은 휴대전화, PDA, GPS 유닛, 등의 신뢰성 있고, 편리하며, 거의 일상적인 모바일장치들을 생산하였다. 실로 유용한 이동식 컴퓨터를 생산하는데 있어서, 주요한 사이즈 제한 성분은 키보드였다.

표준 키보드 없이 이동식 컴퓨터에 데이터를 입력하기 위하여, 사람들은 수많은 해결책들을 개발하였다. 그 하나의 접근법으로서, 더 적은 수의 키들을 갖는 키보드를 사용하는 것이 있었다("축소된 키의 키보드"). 감소한 일부 키보드들은 터치-톤 전화기의 레이아웃과 같이, 3 x 4 어레이의 키들을 사용하였다. 사이즈의 관점에서는 유익할지라도, 감소한 키의 키보드들은 몇몇 문제점을 가져온다. 예를 들어, 키의 어레이의 각각의 키는 다수의 문자들을 포함한다. 예를 들어, "2" 키는 "a" 및 "b" 및 "c"를 나타낸다. 따라서, 각 사용자가 입력한 시퀀스는 각각의 키스트로크가 하나의 숫자 또는 몇몇의 상이한 문자를 지시할 수 있기 때문에, 본래 불명확하다.

T9^® 텍스트 입력 기술은 구체적으로 전화 키패드 등의 감소된 키보드들에 대한 단어 수준의 명확화를 제공하는 것을 목적으로 한다. T9 텍스트 입력 기술은 U.S. 특허 제 5,818,437 등의 다양한 미국 특허 문서들에 기술되어 있다. 영어 및 다른 알파벳 기반의 단어들의 경우, 사용자는 T9 텍스트 입력을 다음과 같이 채용한다.

단어를 입력하는 경우, 사용자는 각각의 키가 다수의 문자들을 나타낸다는 사실을 무시하고 단어를 구성하는 문자들에 해당하는 키들을 누른다. 예를 들어, "a"를 입력하기 위해, "2" 키가 "b" 및 "c"를 나타낼 수도 있다는 사실을 무시하고, 사용자는 "2" 키를 입력한다. T9 텍스트 입력 기술은 사용자의 키 스트로크 입력으로 지시되는 모든 가능한 문자 조합들을 판정하고, 어느 것이 의미를 이루는지 알아보도록 이들을 알려진 단어들의 사전에 대조함으로써 의도된 단어를 해석한다.

기본적인 애플리케이션 이상으로, T9 텍스트 입력은 다수의 개선사항들을 거쳤다. 또한, 중국어 등의 알파벳 문자들과는 다른 표의문자를 갖는 언어들을 위한 감소된 키보드 장치들에 대하여도 T9 텍스트 입력 및 유사 제품들이 활용가능하다. T9 텍스트 입력은 모든 사용자가 요구하는 데이터 입력의 용이성과 완벽한 속도 레벨을 제공하지 못할 수도 있다.

완전히 상이한 접근법으로서, 일부 소형 장치들은 사용자의 육필(handwriting)을 수신하도록 디지타이징 표면을 채용한다. 이러한 접근법은 작은 영역에서도 이동식 컴퓨터의 크기에서 허용 되는대로 사용자들이 자연스럽게 필기하도록 한다. 디지타이징 표면과의 사용자 접촉에 기초하여, 육필 인식 알고리즘은 사용자 입력의 기하학적 특징들을 분석하여, 각각의 문자 또는 단어를 결정한다. 그러나, 현재의 육필 인식 솔루션들은 문제점을 갖는다. 하나로서, 육필은 일반적으로 타이핑보다 느리다. 또한, 육필 인식 정확성을 충분히 신뢰하기가 어렵다. 또한, 육필 인식 알고리즘이 사용자가 소정의 문자 스트로크 패턴과 순서를 관찰하는 것을 요구하는 경우, 일부 사용자들은 이를 수행하기가 귀찮고 학습하기에도 난해하다는 것을 발견한다.

풀-사이즈의 키보드 없이 소형 장치를 이용하여 데이터를 입력하기 위한 완전히 상이한 접근법은, 몇몇 유형의 키보드 오버레이가 프린트된 터치-검지 패널 또는 키보드 오버레이가 표시된 터치-검지 스크린을 이용하는 것이 있었다. 사용자는 소망하는 키 또는 문자와 관계된 영역에서 패널 또는 표시 화면과 상호작용하도록 손가락 또는 스타일러스를 채용한다. 이러한 키보드의 소형의 전체 사이즈로는, 개별 키들이 매우 작을 수 있다. 이는 평균적인 사용자가 정확하고 재빨리 타이핑하는 것을 어렵게 할 수 있다.

다수의 빌트-인 및 에드-온(add-on) 제품들은 터치 스크린 및 오버레이 키보드에 대하여 단어 예측을 제공한다. 사용자가 단어의 첫 번째 문자를 조심스럽게 탭핑한 후에, 이들 문자들로 시작되는 가장 근사한 완전한 단어들의 리스트를 예측 시스템이 표시된다. 너무 많은 선택이 있다면, 어쨌든 사용자는 소망하는 단어가 나타날 때까지 또는 사용자가 단어를 마무리할 때까지 타이핑을 계속해야 한다. 그러나, 사용자는 매번 문자 후에 터치 스크린 키보드와 완전한 단어들의 리스트 사이에서 시각적 포커스를 스위칭해야 하므로, 텍스트 입력은 가속되는 것이 아니라 느려진다. 따라서, 일부 사용자들은 터치 스크린과 오버레이 키보드가 다소 번거롭거나 오류가 생기기 쉽다는 것을 알 수 있다.

전술한 문제점들을 고려하면, 본 영역에서의 비약적인 기술적 발전에도 불구하고, 감소한 키의 키패드, 육필 디지타이저, 및 터치스크린/오버레이 키보드의 내재적인 제한으로 인하여, 사용자들은 여전히 수동으로 이동식 컴퓨터에 텍스트를 입력할 때 어려움과 오류에 부딪힐 수 있다.

도 1은 수동 입력된 불명확한 텍스트 입력을 해석하기 위해 음성 입력을 이용하는 일례의 시스템의 구성성분들의 일부를 나타낸 블록도.

도 2는 일례의 신호 저장 매체를 나타낸 블록도.

도 3은 상이한 예시적인 신호 저장 매체를 나타낸 블록도.

도 4는 예시적인 논리 회로의 사시도.

도 5는 예시적인 디지털 데이터 처리 장치의 블록도.

도 6은 수동 입력된 불명확한 텍스트 입력을 해석하기 위하여 사용자 음성 입력을 활용하는 컴퓨터 실행 시퀀스의 플로우차트.

도 7 내지 도 11은 사용자 입력을 수신하고 처리하는 다양한 예들을 나타낸 도.

도 12는 표의 문자의 수동 입력된 불명확한 입력을 해석하기 위하여 음성 입력을 이용하는 컴퓨터 실행의 시퀀스의 플로우차트.

텍스트 입력 도구에서부터, 디지털 데이터 처리장치는 본래 불명확한 사용자 입력을 수신한다. 임의의 다른 사용자 입력과는 독립적으로, 장치는 어휘에 대하여 수신된 사용자 입력을 해석하여, 단어(사용자 입력이 전체 단어 또는 어근, 어간, 음절, 접사 등의 일부를 형성하는) 또는 사용자 입력이 하나의 단어가 되도록 하는 어구와 같은 후보들을 산출한다. 장치는 후보들을 표시하고, 말로 한 사용자 입력에 대하여 음성 인식을 적용한다. 인식된 음성이 후보들 중 하나를 구비한다면, 그 후보가 선택된다. 인식된 음성이 후보의 확장형을 형성한다면, 확장된 후보가 선택된다. 인식된 후보가 다른 입력을 구비한다면, 다양한 다른 액션들이 취해진다.

개 요

본 개시의 일 양태는, 사용자 작동의 텍스트 입력을 제공하는 핸드헬드 모바일 장치에 관한 것이다. 본 장치는, 도 1에 묘사된 예와 같이 각종 하드웨어 성분과 연결배선들로 실시될 수 있다. 도 1의 핸드헬드 모바일 장치는 각종의 처리 서브컴포넌트들을 포함하며, 그 각각은 하나 이상의 하드웨어 디바이스, 소프트웨어 디바이스, 하드웨어 또는 소프트웨어 디바이스의 일부, 또는 상기의 조합으로서 구현될 수 있다. 이들 서브컴포넌트들의 구성은 일례의 디지털 데이터 처리 장치, 논리 회로, 및 신호 저장 매체를 참조하여 이하에서 더욱 상세하게 설명한다.

전체 구조

도 1은 수동 입력된 불명확한 텍스트 입력을 해석하기 위하여 음성 입력을 이용하는 일례의 시스템(100)을 나타낸다. 시스템(100)은 사용자의 텍스트 입력이 몇몇의 내재적인 불명료성을 포함하도록 감소한 사이즈의 키보드 또는 기타의 입력 기구를 갖는 PDA, 휴대 전화, AM/FM 라디오, MP3 플레이어, GPS, 자동차용 컴퓨터, 또는 가상적으로 임의의 다른 장치로서 구현될 수 있다. 완전함을 위하여, 사용자가 실제로는 시스템(100)의 일부를 구성하지는 않지만, 101로서 도시되어 있다. 사용자(101)는 단어, 어구, 문장, 또는 문단의 전체 또는 일부를 사용자 인터페이스(102)를 이용하여 입력한다. 데이터 입력은 각각의 사용자 입력이 상이한 문자, 디지트, 심볼 등을 나타내는 것이 가능하다는 점에서 본래 불명확하다.

사용자 인터페이스

사용자 인터페이스(102)는 프로세서(104)에 결합되며, 각종 성분들을 포함한다. 최소한으로서, 인터페이스(102)는 인터페이스(102)는 사용자 음성 입력, 사용자 수동 입력, 및 사용자에 대한 출력을 위한 디바이스들을 포함한다. 수동 사용자 입력을 수신하기 위하여, 인터페이스(102)는 하나 이상의 텍스트 입력 도구를 포함할 수 있다. 일례로서, 디지타이징 표면과 같은 육필 디지타이저(102a)가 있다. 텍스트 입력 도구의 다른 선택사항으로는, 전화 키패드, 사용자 구성가능한 버튼 셋트, 감소한 키셋의 키보드, 또는 감소한 사이즈의 키보드 등의 키 입력(102b)이 있다. 텍스트 입력 도구의 또 다른 예로는, 소프트 키보드, 즉, 디지타이저와 결합한 컴퓨터 발생의 키보드가 있으며, 일부 예로서는, 소프트 키보드, 터치스크린 키보드, 오버레이 키보드, 자동 수정 키보드 등이 있다. 키 입력(102b)의 또 다른 예로는, 마우스, 조이스틱, 또는 기타의 수동 텍스트 입력을 위한 넌-키(non-key) 디바이스들이 있으며, 이러한 의미에서 성분 명칭 "키 입력"은 임의의 의도된 제한없이 사용된다. 수동으로 텍스트를 입력하기 위하여 조이스틱을 이용하는 것은 이하의 참조에서 설명되며, 이는 미국 출원번호 10/775,663호(2004년 2월 9일자 Pim van Meurs 의 "System and Method for Chinese Input Using a Joystick")가 이에 대하여 본 명세서에 그 전체가 참조로서 포함된다. 키 입력(102b)은 전술한 성분들 중 하나 또는 그 조합을 포함할 수 있다.

본래, 전술한 텍스트 입력 도구들은 일부 불명료성을 포함한다. 예를 들어, 육필 입력 디바이스로 입력된 문자들을 식별하는 완전한 확실성은 존재하지 않는다. 마찬가지로, 감소한 키의 키보드로 입력된 영숫자(alphanumeric) 문자는, 통상 각각의 최상위 키들과 관련된 3개의 문자와 하나의 숫자가 존재하기 때문에, 불명료할 수 있다. 키보드는 문자들이 작거나 가깝게 위치하고 있고, 사용자에 에러에 취약하기 때문에 불명료할 수 있다.

사용자(101)에 대하여 출력을 제공하기 위하여, 인터페이스(102)는 하나 이상의 스피커 등의 오디오 출력(102d)을 포함한다. 사용자 출력의 다른 또는 부가의 선택사항으로는, LCD 화면, CRT, 플라즈마 디스플레이, 또는 사람이 판독가능한 영숫자, 표의 문자, 및/또는 그래픽을 나타내기 위한 기타의 디바이스가 있다.

프로세서

시스템(100)은 디지털 데이터 저장장치(150)와 사용자 인터페이스(102)에 결합된 프로세서(140)를 포함한다. 프로세서(140)는 이하에서 더욱 자세하게 설명하는 바와 같이 각종 엔진들과 기타의 처리 개체들을 포함한다. 저장장치(150)는 이하에서 더욱 자세하게 설명하는 바와 같이 디지털 데이터의 각종 성분들을 담고 있다. 처리 개체들 중 일부(후술하는 엔진(115) 등의)는 프로세서(140)와 함께 설명되는 반면, (프로그램(152) 등의) 다른 것들은 저장장치(150)와 함께 설명된다. 이는 단지 하나의 예이지만, 당업자라면 (프로세서(140)와 같이) 회로로 하드-코딩하거나, 또는 (저장장치(150)와 같이) 저장장치로부터 검색되어 실행될 수 있기 때문에, 임의의 주어진 처리 개체의 구현을 변경시킬 수 있다.

이하, 도시된 프로세서(140)와 저장장치(150)의 성분들을 설명한다.

디지타이저(105)는 사용자(101)로부터의 음성을 디지타이징하며, 예를 들어, 아날로그-디지털 컨버터를 구비한다. 선택적으로는, 디지타이저(105)는 음성-입력(voice-in) 부(192c)에 통합될 수도 있다. 디코더(109)는 어쿠스틱 모델(도시 생략)을 적용하여 디지타이저(105)부터의 디지타이징된 음성 신호들 및 소위 사용자의 발음을 음성학적인 데이터로 변환하기 위한 시설을 구비한다. 음소(phoneme) 인식 엔진(134)은 음성 입력의 음소들을 인식하도록 동작한다. 음소 인식 엔진은 당업계에 공지된 임의의 기술을 채용하여 예를 들어 후보들의 리스트 및 각각의 음소의 입력들에 대한 매칭의 관련된 확률을 제공할 수 있다. 인식 엔진(111)은 언어 데이터베이스(119) 내의 어휘목록(lexicon) 및/또는 언어 모델에 기초하여 디코더(109)로부터의 데이터를 분석하며, 이러한 분석은 선택적으로는 텍스트 버퍼(113) 등의 문맥(context)을 포함하여, 사용의 빈도 또는 근접도(recency)를 포함한다. 일 실시예에 있어서, 엔진(111)은 하나 이상의 N 개의 최선의 가설 리스트를 생성한다.

시스템(100)의 또 다른 성분은 디지타이저(107)이다. 디지타이저는 육필 입력(102a)에 기초하여 디지털 출력을 제공한다. 스트로크/문자 인식 엔진(130)은 디지타이저(107)에 의해 출력된 블록, 초서(cursive), 속기(shorthand), 표의 문자 또는 기타의 육필에 따라서 육필 인식을 수행하기 위한 모듈이다. 스트로크/문자 인식 엔진(130)은 후보들의 리스트 및 스트로크 및 문자에 대한 각각의 입력의 매칭의 관련 확률을 제공하기 위하여 당업계에 공지된 임의의 기술을 채용할 수도 있다.

프로세서(140)는 다양한 명확화 엔진(115)을 더 포함하며, 본 예에 있어서는, 단어 명확화 엔진(115a), 어구 명확화 엔진(115b), 문맥 명확화 엔진(115c), 및 멀티모달(multimodal) 명확화 엔진(115d)을 포함한다.

명확화 엔진(115)은 언어 데이터베이스(119)(후술함) 내의 언어 모델 및/또는 어휘목록에 기초하여, 선택적으로는, 사용의 빈도 및 근접도를 포함하여, 또한, 선택적으로는 텍스트 버퍼(113)의 주변의 문맥에 기초하여, 수동 및/또는 음성 입력의 가능한 해석본들을 판정한다. 일례로서, 엔진(115)은 디스플레이(102e)를 통해 사용자에게 표시하기 위하여 최선의 번역을 텍스트 버퍼(113)에 추가한다. 해석본의 전체는 추후의 선택과 수정을 위해 텍스트 버퍼(113)에 기억될 수 있으며, 디스플레이(102e)를 통해 확인을 위해 사용자(101)에 대하여 제공될 수도 있다.

멀티모달 명확화 엔진(115d)은 불명확한 입력 시퀀스 및/또는 해석본들을 인식 엔진(111)으로부터의 음성 인식의 최선의 또는 N 개의 최선의 해석본들과 비교하고, 인터페이스(102)를 통한 서로간의 확인을 위해 사용자(101)에 대하여 개정된 해석본을 제공한다. 대체 실시예에 있어서, 인식 엔진(111)은 명확화 엔진(115)에 통합되고, 더욱 변화되고 효율적인 알고리즘을 제공하기 위하여 각각의 양상(modality)으로부터 입력을 처리하는 내재적인 부분으로서 상호간의 명확화가 발생한다. 다른 실시예에 있어서, 엔진(115)의 기능은 인식 엔진(111)에 통합될 수도 있다. 여기서, 불명확한 입력과 벡터들 또는 음소는 연합된 가설 조사를 위해서 음성 인식 시스템으로 보내진다.

또 다른 실시예에 있어서, 인식 엔진(111)은 멀티모달 명확화 엔진(115d)으로부터의 불명확한 해석본들을 이용하여 언어 데이터베이스(119)로부터 어휘목록을 필터링하거나 발췌하며, 이로써 인식 엔진(111)은 하나 이상의 N개의 최선의 리스트들을 산출한다. 또 다른 실시예에서, 멀티모달 명확화 엔진(115d)은 N개의 최건의 리스트의 불명확한 해석본들 및/또는 단어들의 문자들(도안들)을 인식 엔진(111)에 의한 해석을 위하여 벡터 또는 음소들에 맵핑시킨다.

인식 엔진 및 명확화 엔진(111, 115)은 사용자(101)가 명시적으로 스펠링하였거나 혼합하였던 신규의 단어들 또는 어구들을 추가하고, 사용자(101)에 의해 입력 또는 수정된 단어 및 어구들의 사용의 빈도 또는 근접도를 반영하도록 언어 데이터베이스(119) 중 하나 이상을 갱신할 수 있다. 엔진(111 및 115)에 의한 이러한 액션은 자동으로 또는 특정 사용자 지시에 따라서 발생할 수 있다.

일 실시예에 있어서, 엔진(115)은 인식 및/또는 명확화 처리의 다른 부분들을 위하여 별도의 모듈을 포함하며, 본 예에 있어서는, 단어 기반의 명확화 엔진(115a), 어구 기반의 인식 또는 명확화 엔진(115b), 문맥 기반의 인식 또는 명확화 엔진(115c), 멀티모달 명확화 엔진(115d) 등을 포함한다. 일례에 있어서, 인식 및 명확화를 위한 성분들(115a 내지 115d)dml 일부 또는 전체는 음성 인식 및 감소된 키패드 입력의 상이한 입력 양상(modality) 사이에서 공유될 수 있다.

일 실시예에 있어서, 문맥 기반의 명확화 엔진(115c)은 사용자 액션들의 문맥상의 양태(aspect)들을 입력 명확화에 적용한다. 예를 들어, 다수의 어휘들(156)(후술함)이 존재하는 경우, 엔진(115c)은 선택된 사용자 위치에 따라서, 예컨대, 사용자가 작업장에 일하고 있는지 또는 집에 있는지 여부, 시각, 예컨대, 작업 시간 대 휴식 시간; 메시지 수신 등에 따라서, 어휘들(156) 중 하나의 선택을 조절한다.

저장 장치

저장 장치(150)는 애플리케이션 프로그램(152), 어휘(156), 언어 데이터베이스(119), 텍스트 버퍼(113), 및 운영 시스템(154)을 포함한다. 애플리케이션 프로그램의 예로는, 워드 프로세서, 메시징 클라이언트, 외국어 번역기, 음성 합성 소프트웨어 등이 있다.

텍스트 버퍼(113)는 하나 이상의 입력 필드의 콘텐츠를 구비하며, 애플리케이션 모두 또는 일부가 디바이스(100)에 의해 실행된다. 텍스트 버퍼(113)는 이미 입력된 문자들을 포함하며, 원래의 수동 입력 또는 소리 입력의 기록 등의 텍스트를 재편집하거나, 또는 문맥상의 예측 또는 문단 포맷팅을 위하여 필요한 임의의 지원 정보를 포함한다.

언어 데이터베이스(119)는 어휘목록, 언어 모델, 및 기타의 언어 정보 등의 정보를 포함한다. 각각의 어휘(156)는 다수의 소정의 단어들, 문자들, 어구들, 또는 디바이스(100)의 특정 애플리케이션에 적합한 기타의 언어 표현들을 포함하거나 생성할 수 있다. 어휘(156)의 하나의 특정예에서는, 단어 리스트(156a), 어구 리스트(156b), 및 발음/톤 테이블(156c)을 활용한다. 적절한 경우, 시스템(100)은 상이한 언어, 상이한 산업, 예컨대, 의학, 법학, 부품 번호, 등의 상이한 애플리케이션에 대한 어휘들을 포함할 수 있다. "단어(word)"는 하나의 단어, 단어 어간, 접두사 또는 접미사, 음절, 약어, 잡담 속어, 이모티콘, 사용자 ID 또는 데이터의 기타의 식별자, URL, 또는 표의 문자 시퀀스를 형성하는 하나 이상의 문자 또는 심볼들의 문자열 등의 임의의 언어 객체를 일컫는데 사용된다. 유사하게, "어구(phrase)"는 언어 또는 애플리케이션의 관례에 따라서 스페이스 또는 몇몇 다른 구획 문자에 의해 구분될 수 있는 단어들의 시퀀스를 일컫는데 사용된다. 이하에서 상세하게 설명하는 바와 같이, 단어들(156a)은 표의 언어 문자들을 포함할 수도 있으며, 이러한 경우, 어구들은 이러한 문자들의 논리 그룹에 의해 형성되는 어구들을 포함한다. 선택적으로는, 어휘 단어 및/또는 어구 리스트들은 데이터베이스(119)에 기억될 수 있으며, 데이터베이스(119)로부터 생성될 수도 있다.

일례에 있어서, 단어 리스트(156a)는 모든 양상들에 대하여 언어의 알려진 단어들의 리스트를 구비하여, 입력 양상들 사이의 어휘에 있어서의 차이점은 없게 된다. 단어 리스트(156a)는 언어의 해당 단어들에 대한 사용 빈도를 더 구비할 수 있다. 일 실시예에 있어서, 언어에 대한 단어 리스트(156a)에 없는 단어는 0의 빈도를 갖는 것으로 간주된다. 대안으로서, 미지의 또는 새롭게 추가된 단어에는 매우 작은 사용 빈도가 부여될 수 있다. 미지의 단어에 대한 가정된 사용 빈도를 이용하여, 실질적으로 동일한 방법으로 알려진 단어와 미지의 단어가 처리될 수 있다. 사용 근접도 또한 빈도를 산정하고 비교함에 있어서 하나의 인자가 될 수도 있다. 단어 리스트(156a)는 단어 기반의 인식 또는 명확화 엔진(115a)과 함께 사용되어, 패턴 인식 엔진, 예컨대, 스트로크/문자 인식 엔진(130), 또는 음소 인식 엔진(134) 등의 결과에 기초하여 판정된 단어 후보들을 랭크, 소거, 및/또는 선택하고, 사용자 입력의 일부분에 기초하여 단어 완성을 위한 단어들을 예측할 수 있다.

마찬가지로, 어구 리스트(156b)는 하나 이상의 단어들을 포함하는 어구들의 리스트, 및 어구 기반의 인식 또는 명확화 엔진(115b)에 의해 사용되어 어구 완성을 위해 단어들을 예측하는데 사용될 수 있는 사용 빈도 정보를 포함할 수 있다.

발음/톤 테이블(156c)은 표의적인 항목들에 대하여 상호 참조된 발음 정보의 각종 항목들을 열거한, 테이블, 링크된 리스트, 데이터베이스, 또는 임의의 기타의 데이터 구조를 구비한다. 표의적인 항목들은 표의 문자, 표의적인 어근, 표어적인(logographic) 문자, 기호문자의 심볼, 등을 포함하며, 예를 들어, 단어 리스트(156a)에 열거될 수 있다. 발음 정보의 각각의 항목은 관련된 표의적인 항목의 발음, 및/또는 하나 이상의 톤의 발음 등을 포함한다. 테이블(156c)은 선택사항이며, 시스템(100)이 영어 또는 기타의 비표의적 애플리케이션에 제한된다면 어휘(156)에서 생략될 수 있다.

일 실시예에 있어서, 프로세서(140)는 자동으로 어휘(156)를 갱신한다. 일례에 있어서, 선택 모듈(132)은 이하에서 더욱 상세히 설명하는 바와 같이, 선택되는 경우, 사용 근접도를 추적하거나, 정확한 탭 단어를 추가하도록 갱신을 실행/요청하는 동작 중에 어휘를 갱신할 수 있다. 보다 일반적인 예에서, 인스톨(install) 중에, 또는 텍스트 메시지 또는 기타의 데이터의 수신에 따라 계속적으로, 또는 또 다른 시간에서, 프로세서(140)는 자신의 어휘에 추가되어야 하는 단어들에 대한 정보 파일들(도시 생략)을 스캐닝한다. 이러한 정보 파일들을 스캐닝하는 방법들은 당업계에 공지되어 있다. 본 예에 있어서, 운영 체제(154) 또는 각각의 애플리케이션(152)은 텍스트 스캐닝 기능을 호출한다. 스캐닝 중에 새로운 단어들이 발견됨에 따라서, 이들은 낮은 빈도의 단어들로서 어휘 모듈에 추가되며, 따라서, 단어들이 관련되는 단어 리스트들의 마지막에 위치된다. 스캐닝 중에 주어진 새로운 단어가 검출되는 횟수에 따라서, 보다 높은 우선순위가 할당되며, 이를 관련 리스트 내에서 촉진시켜 정보 입력 중에 단어 선택 리스트에 나타나는 단어의 확률(likelihood)을 증가시킨다. 메시지 상의 XML 태그 또는 주변의 텍스트 등의 문맥에 따라서, 시스템은 적절한 언어를 결정하여 새로운 단어를 이와 관련시킬 수 있다. 현재의 또는 결정된 언어에 대한 표준 발음 규칙이 추후의 인식을 위해서 이들의 발음 형태에 맞도록 하기 위하여 새로운 단어들에 적용될 수 있다. 선택적으로는, 프로세서(140)는 추가의 어휘 단어들이 가능한 단어들의 리스트 내에서, 예컨대, 특별한 컬러화 또는 하이라이팅으로, 최초 또는 최후에 나타나게 하도록 사용자 구성 입력에 응답하거나, 시스템은 어느 어휘 모듈이 바로 앞에서 수용되거나 수정된 단어 또는 단어들을 공급하였는지에 기초하여 단어들의 점수 또는 순서를 자동으로 변경시킬 수 있다.

일 실시예에 있어서, 어휘(156)는 또한 일상적인 미스스펠링 및 키 입력 오류에 대한 대체 단어들을 포함한다. 어휘(156)는 디바이스(100)의 제조, 인스톨, 초기 구성, 재구성, 또는 기타의 경우에서 구성될 수 있다. 또한, 어휘(156)는 웹 접속, 다운로드, 확장 카드의 부착, 사용자 입력, 또는 기타의 이벤트를 통해 갱신된 정보를 검출하는 때에 자기 갱신될 수도 있다.

일례의 디지털 데이터 처리 장치

전술한 바와 같이, 본 개시에서 설명되는 데이터 처리 개체들은 다양한 형태로 구현될 수도 있다. 일례로서, 도 5의 디지털 데이터 처리 장치의 하드웨어 성분 및 연결배선에 예시된 바와 같이 디지털 데이터 처리 장치가 있다.

장치(500)는 디지털 데이터 저장장치(504)에 결합되는, 마이크로프로세서 등의 프로세서(502), 퍼스널 컴퓨터, 워크스테이션, 컨트롤러, 마이크로컨트롤러, 상태 머신, 또는 기타의 처리 머신을 포함한다. 본 예에 있어서, 저장장치(504)는 비휘발성 저장장치(508) 뿐만 아니라 고속-액세스 저장장치(506)를 포함한다. 고속-액세스 저장장치(506)는 RAM을 구비할 수도 있으며, 프로세서(502)에 의해 실행되는 프로그래밍 명령어들을 기억하는데 사용될 수도 있다. 비휘발성 저장장치(508)는 예를 들어 배터리 백업 RAM, EEPROM, 플래쉬 PROM1, 하드 드라이브, 탭 드라이브와 같은 하나 이상의 자기 데이터 기억 디스크 또는 임의의 기타의 적합한 기억 디바이스를 구비할 수도 있다. 장치(500)는 또한 라인, 버스, 케이블, 전자기 링크, 또는 프로세서(502)에 대하여 장치(500) 외부의 다른 하드웨어와 데이터를 교환하기 위한 기타의 수단 등의 입출력(510)을 포함한다.

상기 특정 설명에도 불구하고, 당업자(본 개시의 이익을 향유하는)는 본 발명의 범주를 일탈하지 않고서 상기 논의된 장치가 상이한 구조의 기계에서 구현될 수 있음을 인식할 수 있을 것이다. 특정한 예로서, 성분들(506 및 508) 중 하나는 제거될 수 있으며, 또한, 저장장치(504, 506, 및/또는 508)는 온-보드로서 프로세서(502)에 제공될 수 있으며, 또는 장치(500) 외부에 제공될 수도 있다.

신호 저장 매체

상기의 디지털 데이터 처리 장치와 대조하여, 본 개시의 다른 양태는 이러한 디지털 처리 장치에 의해 실행가능한 기계 판독가능한 명령어들의 프로그램을 확실하게 실시하는 하나 이상의 신호 저장 매체에 관한 것이다. 일례에 있어서, 기계 판독가능 명령어들은 이하에서 더욱 상세하게 설명하는 동작들과 같은, 본 개시와 관련된 각종 기능들을 실시하도록 실행가능하다. 또 다른 예에서, 실행시의 명령어들은 컴퓨터에 소프트웨어 프로그램을 인스톨하도록 동작하며, 이러한 소프트웨어 프로그램은 후술하는 동작들과 같은 본 개시와 관련된 다른 기능들을 수행하도록 독립적으로 실행가능하다.

어떠한 경우, 신호 저장 매체는 다양한 형태를 가질 수 있다. 도 5의 문맥에 있어서, 이러한 신호 저장 매체는 프로세서(502)에 의해 직간접적으로 액세스 가능한, 예를 들어, 저장장치(504) 또는 광학 저장 디스크(300)(도 3)와 같은 또 다른 신호 저장 매체를 구비할 수 있다. 저장장치(506), 디스크(300)이든지 어디에 포함되어 있던지, 명령어들은 다양한 기계 판독가능 데이터 저장 매체에 저장될 수 있다. 몇몇 예에서는, 직접 액세스 저장장치, 예컨대, 종래의 하드 드라이브, RAID(redundant array of inexpensive disks), 또는 또 다른 DASD(direct access storage device); 자기 또는 광학 테이프 등의 직렬 액세스 저장장치, 전자적인 비휘발성 메모리, 예컨대, ROM, EPROM, 플래시 PROM, 또는 EEPROM; 배터리 백업 RAM, 광학 저장장치, 예컨대, CD_ROM, WORM, DVD, 디지털 광학 테이프; 또는 기타의 적합한 신호 저장 매체를 포함한다. 일 실시예에 있어서, 기계 판독가능 명령어들은 어셈블리어, C, 등의 언어로 컴파일되는 소프트웨어 객체 코드를 구비할 수 있다.

논리 회로

전술한 신호 저장 매체 및 디지털 데이터 처리 장치와 비교하여, 본 개시의 다른 실시예에서는 본 개시의 처리 개체를 구현함에 있어서 컴퓨터 실행의 명령어를 대신하여 논리 회로를 사용한다. 속도, 가격, 취급 비용, 등의 영역에서의 어플리케이션의 특정 요구사항에 따라서, 이러한 논리 회로는 수천개의 미세한 집적 트랜지스터들을 갖는 ASIC(application-specific integrated circuit)을 구성함으로써 구현될 수 있다. 도 4는 회로(400)의 형태로 일례를 나타낸다. 이러한 ASIC은 CMOS, TTL, VLSI, 또는 다른 적합한 구성으로 구현될 수 있다. 다른 대안으로서는, DSP(digital signal processing chip), 이산 회로(저항, 커패시터, 다이오드, 인덕터, 트랜지스터 등), FPGA(field programmable gate array), PLA(programmable logic array), PLD(programmable logic device), 등을 포함한다.

동 작

본 개시의 구조적 특성을 설명하였지만, 이하에서는 본 개시의 동작의 양태를 설명한다. 전술한 바와 같이, 개시의 동작 양태는 일반적으로 핸드헬드 모바일 디바이스의 텍스트 입력 도구에 입력되는 불명확한 사용자 입력을 의도적으로 해석하기 위한 다양한 기법들을 포함한다.

동작 시퀀스

도 6은 본 개시의 방법 양태의 일례를 나타내기 위한 시퀀스(600)를 나타낸다. 하나의 애플리케이션에 있어서, 본 시퀀스는 핸드헬드 디지털 데이터 처리 디바이스의 텍스트 입력 도구에 입력되는 내재적으로 불명확한 사용자 입력을 해석하는 기능을 한다. 설명의 편리를 위해서, 의도적으로 제한하지 않고서, 도 6의 예는 전술한 바와 같이 도 1의 디바이스의 문맥에서 설명된다.

단계 602에서, 텍스트 입력 도구, 예컨대, 사용자 인터페이스(102)의 디바이스(102a 및/또는 102b)는 다수의 가능한 문자 조합을 나타내는 사용자 입력을 수신한다. 디바이스의 구조에 따라서, 단계 602의 몇몇 예들은, 각각의 키는 다수의 영숫자 문자에 해당하는 전화 키패드를 통해 사용자 입력을 수신하는 단계, 또는 육필 디지타이저를 통해 입력을 수신하는 단계, 또는 컴퓨터 디스플레이 및 함께 위치된 디지타이징 표면, 등을 통해 입력을 수신하는 단계를 포함한다.

단계 604에서, 임의의 다른 사용자 입력과는 무관하게, 디바이스는 수신된 사용자 입력을 어휘(156) 및/또는 언어 데이터베이스(119)에 대비하여 해석하여, 다수의 단어 후보들을 산출하며, 이는 "입력 시퀀스 해석" 또는 "선택 리스트 선택"으로 칭하기도 할 수 있다. 더욱 특정한 예로서, 단어 리스트(156a)가 사용될 수 있다.

일 실시예에 있어서, 엔진(130, 115a, 115b)들 중 하나는 사용자 입력을 처리하여(단계 604), 이제까지의 사용자 입력에 대한 가능한 해석본을 결정한다. 각각의 단어 후보는 다음의

(1) 그 사용자 입력이 어간, 어근, 접사, 또는 음절을 형성하는 단어;

(2) 그 사용자 입력이 하나 이상의 단어 또는 단어의 일부를 형성하는 어구;

(3) 사용자 입력에 의해 표시되는 완전한 단어 중 하나를 구비한다.

따라서, "단어 후보"에서 "단어"라는 용어는 기술적인 의미에서 "단어"를 반드시 제한하지 않고서 편리한 설명을 위하여 사용된다. 일부 실시예에 있어서, 고도의 고착형 언어들 및 주어와 목적어 및 기타의 관사들에 부가 또는 첨부하는 동사-중심의 어구 구조들을 갖는 언어와 같이, "어근" 단어만을 위한 사용자 입력(단계 602)이 필요하다. 또한, 해석본(604)은 (1) 각각의 후보가 사용자 입력에 해당하는 문자들로 시작하도록 (2) 각각의 후보가 사용자 입력에 해당하는 문자를 포함하도록 수행될 수 있으며, 문자들은 후보의 시작 단어와 말단 단어 사이에서 발생한다.

수동 키-입력(102b)이 터치 스크린 디바이스에 표시되는 자동 수정 키보드인 경우와 같은 다양한 실시예에 있어서, 해석본(604)은 사용자 입력의 최선의 해석본인, 소망하는 단어가 아직 언어 데이터베이스(119) 내에 있지 않다면 사용자가 선택할 수 있는(단계 614), 각각의 스타일러스 탭에 가장 근접한 문자와 같은, 각각의 문자를 포함하는 문자 시퀀스(명확한 해석본 또는 "정확한-탭" 시퀀스)를 포함한다. 수동 키-입력(102b)이 표준 전화 키패드와 같이 감소된 키보드인 경우와 같은 일부 실시예에 있어서, 명확한 해석본은 키 시퀀스의 2-키 또는 다수-탭 해석본이다. 일부 실시예에서, 사용자가 이러한 명확한 해석본을 선택한 후(아래의 단계 614), 디바이스는 자동적으로 또는 사용자 요청 또는 확인에 따라서, 선택 모듈(132)의 지시하에서 어휘에 명확한 해석본을 추가한다.

일례에 있어서, 해석 단계(604)에서는 사용자가 특징 마크가 필요함을 지시하지 않고서 모음의 악센트와 같은 특징을 각각의 단어의 적당한 문자에 위치시킨다.

단계 606에서, 하나 이상의 엔진들(115, 130, 115a, 115b)은 사용자 의도를 나타내는 확률에 따라서 후보 단어들을 랭크시킨다. 랭킹 동작(606)은, 후보 단어가 어휘(156)에 있는지 여부; 일반적인 사용에서의 후보 단어의 사용 빈도; 사용자에 의해 후보 단어의 사용 빈도 등의 기준을 이용할 수 있다. 랭킹 동작(606)을 위한 사용 빈도 및 기타의 이러한 데이터는 어휘 모듈(156) 및/또는 언어 데이터베이스(119)로부터 취득될 수 있다. 단계 606은 선택사항이며, 처리 수고, 시간, 메모리, 등의 보전을 위해 생략될 수 있다.

단계 608에서, 프로세서(140)는 사용자에 의한 보기를 위해 인터페이스(102)에서 후보들을 가시적으로 나타낸다. 후보들이 랭크되는(단계 606에 해당) 실시예에 있어서는, 단계 608의 프리젠테이션이 이러한 순서를 나타낼 수 있다. 선택적으로는, 단계 608에서는, 예를 들어, 표시된 커서 위치에 후보를 삽입하거나, 또는 굵은체, 하이라이트, 밑줄 등의 또 다른 기법을 활용하여 주의를 환기시키도록 최상위 랭크된 후보를 표시할 수 있다.

단계 610에서, 프로세서(140)는 디스플레이(102e) 또는 오디오-아웃(102d)을 이용하여 사용자가 입력을 말하도록 권고한다. 또한, 단계 610에서, 프로세서(140)는 음성 입력 디바이스(102c) 및 프론트-엔드 디지타이저(105)를 통해 사용자가 말한 입력을 수신한다. 일례에 있어서, 단계 610은 가청 프롬프트, 예컨대, "단어를 선택하세요"라고 말하는 합성 음성; 예컨대, "어구를 말하고 선택하세요"를 표시하는 가시적 메시지, 예컨대, 커서 표현의 변화 또는 LED를 점등시키는 등의 아이콘상의 메시지; 예컨대, 표시 주제, 컬러, 등의 변화와 같은 그래픽적 메시지; 또는 기타의 적합한 프롬프트를 구비한다. 일 실시예에 있어서, 단계 610'의 사용자 입력의 권고는 생략될 수 있으며, 이러한 경우 프롬프트가 수반된다.

일 실시예에 있어서, 디바이스(100)는 소수의 고유 입력을 나타내는 제한된 발성 어조의 셋트(감소된 키패드의 키 수만큼, 또는 스크립트 내의 고유 문자 형태의 수 또는 구두 언어의 자음과 모음의 수)를 권고 또는 허용한다. 그리 혼동되지 않는 경우는 작고 뚜렷한 어조가 선택되어, 높은 인식 정확도를 가져오며, 단어 기반 및/또는 어구 기반의 명확화 엔진을 이용하여 텍스트로 변환된다. 이러한 능력은 잡음이 많거나 개인적이지 않은 환경에서 특히 유용하며, 음성의 사용을 제한하는 임시 또는 영구적인 불능을 갖는 사람에게는 절대 불가결하다. 인식된 어조는 입 소리(mouth click) 및 기타의 비구두적인(non-verbal) 소리들을 포함할 수 있다.

단계 612에서, 언어 패턴 인식 엔진(111)은 단계 610으로부터의 사용자의 구두 입력을 나타내는 데이터에 대하여 음성 인식을 적용한다. 일례에서, 음성 인식(612)은 156a 및 156b에서 단어들 및/또는 어구들의 어휘를 이용한다. 또 다른 예에서, 음성 인식(612)은 (602로부터의) 초기 수동 입력과 매칭하는 가장 가능성 있는 해석본, 또는 단계 608에서 표시되는 후보들과 같은 제한된 어휘를 활용한다. 대안으로서, 초기 수동 입력과 매칭하는 가능한 단어 및/또는 어구들, 또는 가장 가능성 있는 해석본들은 음성 인식 단계의 어휘목록(lexicon)으로 기능한다. 이는 부정확하고 부적합한 구두 입력의 해석본들을 제거하는데 도움이 된다.

일 실시예에 있어서, 단계 612는 어쿠스틱 입력 신호를 그 문맥에 주어진 잠재적인 단음들(phones)에 매칭되는 디지털 벡터 시퀀스로 변환하는 디코더 등의 성분에 의해 수행된다. 디코더(109)는 음성적 형태를 어휘목록 및 언어 모델에 매칭시켜, 각각의 어조에 대하여 단어 및/또는 어구들의 N개의 최선의 리스트를 생성한다. 멀티모달 명확화 엔진(115d)은 이들을 수동 입력에 대하여 필터링하여, 양측 리스트에 나타나는 단어들만이 유지되도록 한다.

따라서, 각각의 전화 키에 맵핑되는 문자들("2" 상의 "A B C")은 통상 청각적으로 유사하지 않기 때문에, 사용자가 "7" 키("P Q R S"를 포함)가 아니라 "2" 키("A B C"를 포함)를 눌렀다면, 시스템은 다소 불명확한 파열음 [b] 또는 /p/ 등의 소리가 "p"를 구성할 가능성을 효율적으로 배제할 수 있다. 마찬가지로, 시스템은 해석중인 불명확한 문자가 "I O P"의 이웃이 아니라 "V B N"의 이웃에서 자동 수정 QWERTY 키보드를 눌러 이루지는 경우 "p"를 배제할 수 있다. 마찬가지로, 시스템은 불명확한 육필 문자가 "P" 또는 "R" 보다 "B" 또는 "3" 에 가까운 경우, "p"를 배제할 수 있다.

선택적으로는, 사용자가 스페이스와 같은 언어에 합당한 입력에 의해 구분되어, 하나 이상의 단어의 일부 또는 전부를 연속적으로 입력하면, 언어 패턴 인식 엔진(111) 또는 멀티모달 명확화 엔진(115d)은 그 정보를 가이드로 사용하여 사용자의 연속적인 발성을 분절화하고, 단어들 간의 경계를 찾는다. 예를 들어, 주변의 음소들의 해석본이 스페이스로 구분된 2개의 구분 입력과 매칭하면, 시스템은 연속적인 어조를 2개의 별도의 단어로 분리시킬 최선의 장소를 결정한다. 또 다른 실시예에서, "사운덱스(soundex)" 규칙은 사용자가 우발적으로 수동 입력 시퀀스에서 문자를 추가 또는 누락하는 것의 발생을 해결하는 등, 최고 점수의 음성 인식 해석본을 더욱 잘 매칭시키기 위하여 수동 입력 해석본을 수정 또는 무효(override)로 한다.

단계 614는 멀티모달 명확화 엔진(115d), 선택 모듈(132), 등의 성분에 의해 수행된다. 단계 614는 이하의 액션들 중 하나 이상을 수행한다. 일 실시예에 있어서, 후보들 중 하나와 매칭하는 어조를 형성하는 인식된 발성에 응답하여, 디바이스는 후보를 선택한다. 즉, 사용자가 표시된 후보들 중 하나를 말하여 이를 선택한다. 또 다른 실시예에서, 후보의 확장형을 형성하는 인식된 발성에 응답하여, 디바이스는 확장된 후보를 선택한다. 이의 한 예로서, 표시된 후보 리스트가 "national"을 포함하는 경우, 사용자는 "nationality"를 말하여, 디바이스가 "nationality"를 선택하도록 한다. 또 다른 실시예에서, 후보들 중 하나를 확장하도록 커맨드(command)를 형성하는 인식된 발성에 응답하여, 멀티모달 명확화 엔진(115d) 또는 성분들(115 및 132) 중 하나는 어휘(156) 또는 언어 데이터베이스(119)로부터 하부로서 후보를 포함하는 하나 이상의 단어 또는 어구들을 검색하고, 이들을 사용자가 선택하도록 가시적으로 제공한다. 확장형은 접두사, 접미사, 어근, 음절, 또는 기타의 서브컴포넌트로서 후보를 갖는 단어들을 포함할 수 있다.

선택적으로는, 음소 인식 엔진(134) 및 언어 패턴 인식 엔진(111)은 실제로 선택된 후속하는 단어 또는 어구 해석본들을 원래의 발음 데이터와 비교함으로써 인식 정확도를 개선하도록 공지된 음성 인식 기능을 채용할 수도 있다.

동 작 예

도 7 내지 도 11은 도 6을 확장하여 다양한 예시적인 시나리오들을 나타낸다. 도 7은 입력을 완료하기 위하여 문자들을 입력하기 위해 육필을 사용하고 음성을 사용하는 것을 나타내는, 디스플레이(701)의 컨텐츠를 나타낸다(102e의 예로서 기능함). 먼저, 단계 602에서, 디바이스는 이하의 사용자 입력을 수신한다. 디지타이저(700)에서 육필된 문자 "t e c". 디바이스(100)는 문자들을 해석하고(604) 랭크시켜(606), 랭크된 후보들의 가시 출력(702/704)을 제공한다. 화면 크기의 제한으로 인하여, 후보 전부가 리스트(702/704)에 제공되는 것은 아니다.

"tec"는 어휘에서 단어가 아닐지라도, 디바이스는 후보 단어들(704) 중 하나로 이를 포함한다(단계 604). 즉, "tec"는 "정확한-탭" 단어 선택으로서, 즉, 각각의 개별 문자의 최선의 해석으로서 나타난다. 디바이스(100)는 자동으로 최상위 랭크된 후보(702)를 다른 것들과는 구별되는 방식으로 나타낸다. 본 예에 있어서, 최상위 랭크된 후보 "the"는 리스트(700)의 첫 번째에 나타나 있다.

단계 610에서, 사용자는 시스템이 제안한 단어 "the"가 아니라, 단계 602에서 입력된 바와 같은 단어를 선택하기 위하여 /tek/ 를 말한다. 대안으로서, 사용자는 "second"를("tec"는 리스트(704)에서 두번째이므로) 발음할 수도 있으며, 또는 리스트(704)로부터 "tec"를 선택하기 위하여 또 다른 입력을 발음할 수도 있다. 디바이스(100)는 사용자의 선택으로서 단어를 수신하고(단계 614), 도 8에 도시된 바와 같이 커서에 "t-e-c"를 입력한다. 단계 614의 일부로서, 디바이스는 후보 리스트(704)의 프리젠테이션을 제거한다.

다른 실시예에 있어서, 도 7을 참조하면, 사용자는 "t", "e", "c"를 입력하였지만(단계 602), 전체 단어 "technology"를 입력하고 있는 중이다. 본 실시예에서, 디바이스는 랭크된 후보들의 시각적 출력(702/704)을 제공하며, 도 7에서와 같이 커서에 인접한 최상위 랭크된 후보(702에서)를 자동으로 입력한다. 그러나, 도 8과 비교하여, 그 후 사용자는 "tec"의 확장형으로서 이를 선택하기 위하여 /teknol[delta]je/를 발음한다(610). 리스트(702/704)에서 보이지는 않지만, 단어 "technology"는 후보의 리스트에는 포함되어 있으며, 리스트의 사용자 스크롤링으로 도달될 수도 있다. 여기서, 사용자는 스크롤링을 생략하고, /teknol[delta]je/를 발음하고, 이 지점에서 디바이스는 사용자 선택으로서 "technology"를 수신하고(단계 614), 도 9에 도시된 바와 같이 커서에서 "technology"를 입력한다. 단계 614의 일부로서, 디바이스는 후보 리스트(704)의 프리젠테이션을 제거한다. 도 10은 문자를 입력하기 위해 온-스크린 키보드를 사용하고 입력을 완료하기 위해 음성을 사용하는 것을 나타내는 상이한 예를 설명한다. 예를 들어, 온-스크린 키보드는 미국 특허 제6,081,190호에 교시된 바와 같이 구현될 수 있다. 도 10에 예에 있어서, 사용자는 스타일러스로 문자 T, "e", "c"의 시퀀스를 탭핑한다. 이에 응답하여, 디바이스는 단어 선택 리스트(1002), 즉, "rev, tec, technology, received, recent, record"를 나타낸다(단계 608). "technology"(리스트(1002) 내에서 볼 수 있음) 또는 "technical"(보이지는 않지만, 리스트(1002) 내에 존재)과 같은, 리스트(1002) 내의 단어의 사용자 발성(610)에 응답하여, 디바이스는 사용자의 의도 등을 접수하고(단계 614), 커서(1004)로 단어를 입력한다.

도 11은 문자를 입력하기 위해 감소한 키의 키보드를 사용하고(각각의 키는 다수의 영숫자 문자들에 해당함), 입력을 완료하기 위해 음성을 사용하는 것을 나타내는 다른 예를 설명한다. 본 예에 있어서, 사용자는 문자 "t", "e", "c"의 시퀀스를 나타내는 하드 키 8 3 2 를 입력한다(단계 602). 이에 응답하여, 디바이스는 단어 선택 리스트(1102)를 나타낸다(단계 608). "technology"(리스트(1102) 내에서 볼 수 있음) 또는 "teachers"(보이지는 않으나 리스트(1102) 내에 존재함) 등의 리스트(1102) 내의 단어의 사용자 발성(610)에 응답하여, 디바이스는 사용자의 의도 등을 수신하고(단계 614), 커서(1104)로 선택된 단어를 입력한다.

표의 언어에 대한 예

광범위하게, 본 개시의 많은 양태들은 감소된 키보드 또는 육필 디지타이저로 디바이스상에 표의 문자로 표기된 언어에 대한 텍스트 입력 시스템에 적용가능하다. 예를 들어, 표준 전화 키 "7"을 누르는 것은 음절 "qing" 또는 "ping"의 입력을 시작한다(여기서, 병음 문자 "P Q R S"는 "7" 키에 맵핑됨); 소망하는 음정 /tsing/을 말한 후에, 시스템은 첫 번째 음소(grapheme)는 실제로 "p"가 아니라 "q"인 것으로 즉시 판단할 수 있다. 마찬가지로, 스트로크 순서의 입력 시스템에서는, 사용자가 소망하는 문자에 대하여 첫 번째 스트로크 카테고리를 나타내는 하나 이상의 키들을 누른 후에, 음성 인식 엔진은 이러한 스트로크 카테고리로 시작하는 중국어 문자들 만의 발음에 대해서 매칭시킬 수 있으며, 양측 입력의 보다 나은 해석을 제공할 수 있다. 마찬가지로, 육필 표의 문자 인식 엔진을 이용하여 하나 이상의 문자를 표기하기 시작하는 것은, 음성 해석을 안내하거나 필터링할 수 있으며, 분석중인 어휘목록을 감소시킬 수 있다.

불명확한 스트로크 순서의 입력 시스템 또는 육필 인식 엔진이 어느 육필 스크로크가 의도된 것인지 확실하게 결정할 수 없지만, 스트로크 해석과 어쿠스틱 해석의 조합은 입력의 2개의 양상(modality)을 충분히 명확화한다. 본 개시의 일 실시예에 있어서, 음성 인식 단계는 표의 언어들에 대한 종래의 스트로크 순서의 입력 또는 육필 시스템의 입력 시퀀스에 기초하여 표시되는 것들로부터 문자, 단어, 또는 어구를 선택하는데 사용된다. 또 다른 실시예에 있어서, 음성 인식 단계는 표음 입력 시스템의 또 다른 불명확성에 대하여 음색 정보(tonal information)를 추가하는데 사용된다. 표의 언어에 관한 세부적인 구현은 이하에서 더욱 상세하게 설명한다.

도 12는 본 개시의 방법 양태의 또 다른 일례를 나타내기 위한 시퀀스(1200)를 나타낸다. 본 시퀀스는 표의 문자를 구비한 단어 및 어구의 사용자 입력을 돕기 위하여 내재적으로 불명확한 사용자 입력을 해석하도록 동작한다. 이러한 예들에서는 "표의(ideographic)"라는 용어가 사용되지만, 동작들(1200)은 많은 다른 표어(logographic), 표의, 일자 일어법(lexigraphic), 몰포-실러빅(morpho-syllabic), 또는 개별 단어들, 개념들, 음절들, 형태소들 등을 나타내기 위하여 문자를 이용하는 기타의 서체 시스템들로 구현될 수도 있다. 여기서 표의 문자라는 표현은 제한 없이 사용되며, 중국어 픽토그램(pictograms), 중국어 이디오그램(ideograms), 중국어 직설체(indicative), 중국어 소리-형태 병음(phonologograms), 일본어 문자(Kanji), 한국어 문자(Hanja) 및 기타의 시스템들을 포함할 것이다. 또한, 시스템(100)은 전통적인 중국 문자, 간략한 중국문자, 도는 또 다른 표준 등의 특정의 표준으로 구현될 수 있다. 용이한 설명을 위해, 그러나 어떠한 의도된 제한 없이, 도 12의 예는 전술한 바와 같이 도 1의 문맥에서 설명된다.

단계 1202에서, 입력 디바이스(102a/102b) 중 하나는 하나 이상의 의도된 표의 문자 또는 서브컴포넌트들을 식별하기 위해 사용되는 사용자 입력을 수신한다. 사용자 입력은 육필 스트로크, 육필 스트로크의 카테고리, 발음 스펠링, 음색 입력, 등을 지정할 수 있다. 디바이스(100)의 구조에 따라서, 본 행동은 상이한 방법으로 실행될 수 있다. 일례는 전화 키패드(102b)를 통해 사용자 입력을 수신하는 것을 포함하며, 여기서, 각각의 키가 스트로크 카테고리에 해당한다. 예를 들어, 특정의 키는 모든 하향 경사의 스트로크를 나타낼 수도 있다. 또 다른 예는 육필 디지타이저(102a) 또는 조이스틱 같은 방향성 입력 디바이스(102)를 통해 사용자 입력을 수신하는 것을 포함하며, 여기서 각각의 제스쳐는 스트로크 카테고리에 맵핑된다. 일례에 있어서, 단계 1202는 소망하는 하나 이상의 표의 문자를 입력하기 위해 사용자가 작성한 육필 스트로크 입력을 인터페이스(102)가 수신하는 것을 포함한다. 또 다른 선택사항으로서, 단계 1202는 터치 감지 표면 또는 소형 기계 키들의 어레이를 위한 자동 수정 키보드 시스템(102b)에 의해 실행될 수도 있으며, 여기서, 사용자는 하나 이상의 표의 문자의 발음 스펠링, 성분, 또는 스트로크 중 대략 일부 또는 모두를 입력한다.

그 각각이 본 명세서에 참조로서 포함되는, 이하의 참조 문서들로 단계 1202에서 입력을 수신하기 위한 다양한 선택사항들을 설명한다. 미국 출원번호 제10/631,543호(2003년 7월 30일자 출원) "System and Method for Disambiguating Phonetic Input", 미국 출원번호 제10/803,255호(2004년 3월 17일자 출원) "Phonetic and Stroke Input Methods of Chinese Characters and Phrases", 미국 출원번호 제60/675,059호(2005년 4월 25일자 출원) "Word and Phrase Prediction System for Handwriting", 미국 출원번호 제10/775,483(2004년 2월 9일자 출원) "Keyboard System with Automatic Correction", 미국 출원번호 제10/775,663호(2004년 2월 9일자 출원) "System and Method for Chinese Input Using a Joystick".

또한, 단계 1202에서, 임의의 다른 사용자 입력에 무관하게, 디바이스는 첫 번째 어휘에 대하여 수신된 사용자 입력을 해석하여, 각각 적어도 하나의 표의 문자를 구비하는 다수의 후보들을 산출한다. 더 구체적으로, 디바이스는 어휘(156)(예컨대, 156a)로부터 열거되는 문자에 대하여 수신된 스트로크, 스트로크 카테고리, 스펠링, 음색, 또는 기타의 수동 사용자 입력을 해석하고, 사용자의 수동 입력에 맞는 어휘 내의 결과적인 후보들을 식별한다. 단계 1202에서는, 예컨대, 육필 입력에 대하여, 패턴 인식 및/또는 스트로크 필터링을 선택적으로 수행하여 이제까지의 사용자 입력을 나타낼 수 있는 그러한 후보 문자들을 식별할 수 있다.

선택사항인 단계 1204에서, 명확화 엔진(115)은 사용자가 입력으로 무엇을 의도하였는지를 표현하는 가능성에 기초하여 식별된 후보 문자들을 (1202로부터) 순서화한다. 이러한 랭킹은 (1) 다양한 육필 또는 육성 형태에서 각각의 문자의 일반적인 사용 빈도, (2) 사용자 자신의 사용 빈도 또는 근접도, (3) 전후 문자들에 의해 생성되는 문맥, (4) 기타의 인자들 등의 정보에 기초할 수 있다. 빈도 정보는 명시적으로 또는 암시적으로 언어 데이터베이스(119)에 기억될 수 있거나, 또는 필요에 따라 계산될 수 있다.

단계 1206에서, 프로세서(140)는 활용가능한 표시 공간의 사이즈 및 기타의 제약 조건들에 따라서 디스플레이(102e)가 (1202 또는 1204로부터) 후보들 중 전부 또는 일부를 가시적으로 표현하도록 한다. 선택적으로는, 디바이스(100)는 후보들을 스크롤링 리스트의 형태로 표현할 수도 있다.

일 실시예에 있어서, 단계 1206의 표시 동작은 각각의 새로운 사용자 입력 후에 반복되어(1204, 1206), 후보들의 표현된 셋트를 지속적으로 갱신하며(대부분의 경우, 좁힘), 사용자가 후보 문자를 선택하거나 입력을 계속하도록 허용한다(1202). 또 다른 실시예에 있어서, 시스템은 구성하는 문자들 중 어느 것이라도 표시되기 전에(1206) 전체 단어 또는 어구에 대한 입력이 이루어지도록 한다(1202).

일 실시예에 있어서, 단계 1202, 1204, 및 1206은 단일 문자 후보 및 다수 문자 후보 양측 모두를 수용할 수 있다. 여기서, 현재의 입력 시퀀스가 단어 또는 어구 내에서 하나 이상의 문자를 표현한다면, 단계 1202, 1204 및 1206에서는 단일 문자 후보가 아니라 다수 문자 후보들을 식별하고, 랭크시키고 표시한다. 본 실시예를 구현하기 위하여, 단계 1202에서는 사용자가 입력을 중단하고 다음 문자에 대하여 이들을 입력하기 시작하게 되는 예컨대 스트로크 등의 시스템에 대한 신호로서 소정의 구획 문자를 인식할 수 있다. 이러한 구획 문자는 (스페이스 또는 기타의 소정의 키와 같이) 특별히 입력될 수도 있으며, 또는 (상이한 표시 박스 또는 화면 영역에 상이한 문자를 입력하는 등으로) 사용자 입력의 환경으로부터 암시될 수도 있다.

(전술한) 음성 인식 기능을 호출하지 않고서, 사용자는 인터페이스(102)를 동작시키도록 진행하여(단계 1212) 단계 1206에서 표현된 선택들 중 하나를 수용할 수도 있다. 대안으로서, 사용자가 아무런 선택도 하지 않는다면(1212), 단계 1206은 자동적으로 단계 1208에 진행하여 음성 입력을 수신할 수도 있다. 또 다른 선택사항으로서, 단계 1206에서의 인터페이스(102)는 가청 프롬프트, 가시적인 메시지, 도안(iconic) 메시지, 그래픽 메시지, 또는 기타의 프롬프트로 사용자가 말하도록 자동으로 프롬프트할 수 있다. 사용자 발성에 따라서, 시퀀스(1200)는 1206으로부터 1208로 통과한다. 또 다른 대안으로서, 인터페이스(102)는 사용자가 "talk" 버튼을 누르도록 요구하거나(단계 1206), 또는 마이크로폰을 사용할 수 있도록 다른 동작을 취하고, 음성 인식 단계(1208)를 호출할 수 있다. 또 다른 실시예에서, 수동 입력 및 음성 입력은 거의 동시이거나 중첩하고 있다. 실제로, 사용자는 타이핑하는 것을 소리로 내고 있다.

단계 1208에서, 시스템은 프론트-엔드 디지타이저(105)를 통해 사용자의 구두 입력을 수신하고, 언어 패턴 인식 엔진(111)은 음성 인식을 사용자의 구두 입력을 표현하는 데이터에 적용한다. 일 실시예에 있어서, 언어 패턴 인식 엔진(111)은 발음 형태를 (언어 데이터베이스(119)에 기억된) 음절 및 단어의 어휘목록에 매칭시켜, 각각의 발성에 대한 음절, 단어, 및/또는 어구의 N개의 최선의 리스트를 생성한다. 이에 따라서, 명확화 엔진(115)은 N 개의 최선의 리스트를 이용하여 스트로크 입력으로부터의 단일 문자 혹은 다수 문자 후보들의 발음 스펠링을 매칭시켜, 그 발음 형태가 N 개의 최선의 리스트에 나타나는 후보들만이 유지된다(또는 단계 1210에서 최상위에 랭크된다). 또 다른 실시예에서, 시스템은 수동으로 입력된 발음 스펠링을 어휘목록과 언어 모델로 사용하여 구두 입력을 인식한다.

일 실시예에 있어서, 수동 입력 양상(modality)으로부터 입력 중 일부 또는 전부는 각각의 음절의 첫 번째 문자만을 또는 각각의 단어의 자음만을 표현한다. 시스템은 음절 또는 자음 마커를 이용하여 음성 입력을 인식하고 점수를 매기고, 단어 또는 어구에 대하여 적절한 수반하는 문자 또는 모음을 채운다. 일본어 텍스트의 입력을 위하여, 예를 들어, 각각의 키보드 키는 50개의 사운드 테이블 내의 자음 행에 맵핑되고, 음성 인식은 각각의 음절에 대하여 적절한 모음 또는 "단"을 결정하도록 돕는다. 또 다른 실시예에서, 수동 입력 양상으로부터의 입력 중 일부 또는 전부는 명확하다. 이는 도 1에서 단어 명확화 엔진(115a)의 필요를 줄이거나 제거할 수는 있지만, 여전히, 소망하는 완전한 단어 또는 상기 다른 모든 가능한 완성본에 우선 순위를 매기기 위하여 멀티모달 명확화 엔진(115d)가 음성 입력을 매칭시키거나, 개입 모음을 식별하도록 요구한다.

또한, 인도어와 같은 일부 언어에서는, 어휘 모듈이 유효한 하부단어(sub-word) 시퀀스의 템플릿을 채용하여, 앞의 입력들과 단어 후보들을 고려하여 어느 단어 성분 후보들이 가능한지를 결정한다. 다른 언어들에서, 성별에 기초한 발음 법칙은 소망하는 텍스트 형태를 더 명확화하고 인식하는 것을 돕는다.

단계 1208은 상이한 방법으로 수행될 수 있다. 하나의 선택사항에서, 인식된 음성이 1206에서부터 후보들 중 하나의 발음표기를 포함하는 발성을 형성한다면, 프로세서(102)는 그 후보를 선택한다. 다른 선택사항에서, 인식된 음성이 임의의 후보의 발음 형태의 발음표기를 포함하는 발성을 형성하는 경우, 프로세서는 디스플레이를 갱신하여 (1206으로부터), 그러한 후보와는 다른 문자들을 누락시킨다. 또 다른 선택사항에서, 인식된 음성이 후보들의 부분집합 중 어느 것을 잠재적으로 발음하는 발성이라면, 프로세서는 부분집합의 후보들과는 다른 것들을 누락시키도록 디스플레이를 갱신한다. 또 다른 선택사항에서, 인식된 음성이 하나 이상의 후보에 해당하는 하나 이상의 음색 특징을 포함하는 발성인 경우, 프로세서(102)는 디스플레이를 갱신하여 (1206으로부터), 그 후보와 다른 문자들을 누락시킨다.

단계 1208 이후, 단계 1210에서는, 잔여 후보들을 음성 입력 등의 인자들에 따라서 랭크시킨다. 예를 들어, 언어 패턴 인식 엔진(111)은, 스트로크 또는 다른 사용자 입력 및 음성 입력의 가장 확률이 높은 해석본이 각각의 문자, 단어, 또는 어구의 빈도 정보와 결합하여 가장 확률이 높은 후보들을 사용자에게 선택을 위해 제공하도록, 멀티모달 명확화 엔진(115d)에 확률 정보를 제공할 수도 있다. 추가 예로서, 랭킹(1210)은 각종의 육필 또는 구두의 형태에서 각 문자의 일반적인 사용 빈도, 사용자 만의 사용 빈도 또는 근접도, 전후 문자들에 의해 생성되는 문맥 등의 상이한 또는 추가의 인자들을 포함할 수 있다.

단계 1210 후, 단계 1210에서 마련된 문자/어구 후보들을 표시하기 위하여 단계 1206가 반복된다. 그 후, 단계 1212에서, 디바이스는, 스타일러스로 소망하는 후보를 탭핑하는 등의, 몇몇 입력 수단(102a/102c/102b)에 의해 지시되는 단일 문자 후보 또는 다수 문자 후보의 사용자 선택을 수신한다. 시스템은 사용자가 선택을 하거나, 전술한 바와 같이, 가시 수단, 가청 수단, 또는 기타 수단을 통해 추가의 스트로크 또는 음성을 입력하도록 프롬프트할 수 있다.

일 실시예에 있어서, 최상위 랭크된 후보는 사용자가 다음 문자에 대한 수동 입력 시퀀스를 시작하는 때에 자동으로 선택된다. 또 다른 실시예에서, 멀티모달 명확화 엔진(115d)이 단계 1210에서 다른 것들보다 상위의 하나의 후보를 식별하고 랭크시킨다면, 시스템(100)은 더 이상의 사용자 입력을 대기하지 않고 단계 1212에서 자동으로 그 후보를 선택하도록 진행할 수 있다. 일 실시예에 있어서, 선택된 표의 문자 또는 문자들은 현재의 애플리케이션의 텍스트 입력 필드의 삽입 지점에 추가되고, 입력 시퀀스는 클리어된다. 표시되는 후보들의 리스트는 그 후 가장 가능성 있는 문자들이 위치되어, 방금 선택된 문자들을 따를 수 있다.

다른 실시예들

상기 개시에서는 다수의 예시적인 실시예들을 나타내었지만, 다양한 변경예 또는 변형 예들이 청구범위에 첨부된 바와 같은 본 발명의 범주를 일탈하지 않고서 이루어질 수 있다는 것은 당업자에게 명백할 것이다. 또한, 본 발명의 구성 요소들이 단수로 설명 또는 청구될 수 있으나, 단수에 대한 제한이 명백히 설명되지 않는 한 복수가 계획될 수도 있다. 또한, 당업자는 설명과 청구범위 작성을 위해서 동작 시퀀스들이 특정한 몇몇 순서로 규정되어야 하지만, 본 발명은 이러한 특정 순서 외의 다양한 변화를 내포한다는 것을 알 수 있을 것이다.

또한, 당업자는 다양한 상이한 기술과 기법들을 이용하여 정보 및 신호들이 표현될 수 있다는 것을 이해할 것이다. 예를 들어, 본 명세서에서 참조된 임의의 데이터, 명령어, 커맨드, 정보, 신호, 비트, 심볼 및 칩들은 전압, 전류, 전자기파, 자기장, 또는 입자, 광학 필드 또는 입자, 기타의 항목 또는 상기의 조합으로 표현될 수 있다.

또한, 당업자는 본 명세서에서 설명한 임의의 예시적인 논리 블록, 모듈, 회로 및 처리 단계들은 전자 하드웨어, 컴퓨터 소프트웨어 또는 이들의 조합으로서 구현될 수 있다는 것을 이해할 것이다. 하드웨어와 소프트웨어의 이러한 상호교환성을 명백히 설명하기 위하여, 일반적으로 기능을 수단으로, 각종 예시적인 성분들, 블록들, 모듈들, 회로들 및 단계들이 상기에서 설명되었다. 이러한 기능이 하드웨어로 구현될지 소프트웨어로 구현될지는 특정 애플리케이션 및 전체 시스템에 부과되는 설계 제약사항에 의존한다. 당업자는 설명된 기능들을 각각의 특정 어플리케이션에 대하여 변화하는 방법으로 구현할 수 있으나, 이러한 구현 결정은 본 발명의 범주로부터의 일탈시키는 것으로 해석되지는 않아야 한다.

본 명세서에서 개시된 실시예들과 연계하여 설명된 각종의 예시적인 논리 블록들, 모듈들, 및 회로들은 본 명세서에서 설명된 기능들을 수행하도록 설계되는, 범용 프로세서, DSP, ASIC, FPGA, 또는 기타의 프로그래머블 논리 디바이스, 이산 게이트 또는 트랜지스터 논리, 이산 하드웨어 성분, 또는 임의의 이들의 조합으로 구현 또는 수행될 수 있다. 범용 프로세서는 마이크로프로세서일 수 있으나, 대안으로서, 프로세서는 임의의 종래의 프로세서, 컨트롤러, 마이크로컨트롤러, 또는 상태 머신일 수 있다. 프로세서는, 예컨대, DSP와 마이크로프로세서의 조합, 복수의 마이크로프로세서, DSP 코어와 연결된 하나 이상의 마이크로프로세서, 등의 컴퓨팅 디바이스의 조합, 또는 임의의 다른 이러한 구성으로서 구현될 수도 있다.

본 명세서에 개시된 실시예와 연계하여 설명된 방법 또는 알고리즘의 단계들은, 하드웨어에서, 프로세서에 의해 실행되는 소프트웨어 모듈에서, 또는 이 둘의 조합에서 직접적으로 실시될 수 있다. 소프트웨어 모듈은 RAM 메모리, 플래쉬 메모리, ROM 메모리에 상주할 수 있다. EPROM 메모리, EEPROM 메모리, 레지스터, 하드 디스크, 착탈식 디스크, CD-ROM, 또는 임의의 다른 유형의 기억 매체가 당업계에 알려져 있다. 일례의 기억 매체는 프로세서에 결합하여, 이러한 프로세서가 기억 매체에 정보를 판독 및 출력할 수 있도록 한다. 대안으로서, 기억 매체는 프로세서에 집적될 수도 있다. 프로세서 및 기억 매체는 ASIC 에 상주할 수도 있다. ASIC은 무선 통신 디바이스에 상주할 수도 있다. 대안으로서, 프로세서 및 기억 매체는 이산 성분으로서 무선 통신 디바이스에 상주할 수도 있다.

개시된 실시예들에 대한 앞의 설명은, 당업자 누구라도 본 발명을 이루거나 이용할 수 있도록 제공된다. 이들 실시예에 대한 다양한 변형 예는, 당업자에게 쉽게 명백할 것이며, 본 명세서에서 정의된 포괄적인 이론은 본 발명의 개념 또는 범주로부터 일탈하지 않고서 다른 실시예들에 적용될 수도 있다. 따라서, 본 발명은 본 명세서에 나타낸 실시예들을 제한하고자 의도한 것이 아니며, 본 명세서에 개시된 원리와 새로운 특성에 부합하는 가장 넓은 범위가 부여되어야 한다.

Claims

수동 텍스트 입력 도구를 통해 수신되는 내재적으로 불명확한 사용자 입력을 해석하는 동작들을 수행하도록 프로그래밍된 디지털 데이터 처리 디바이스로서,

상기 동작들은:

수동 텍스트 입력 도구를 통해, 다수의 상이한 텍스트의 가능한 조합들인 불명확한 사용자 입력을 수신하는 단계;

사용자의 다른 입력에 무관하게, (1) 사용자가 입력한 어근, 어간, 음절, 접사 중 하나로 형성되는 단어 (2) 사용자가 입력한 단어로 형성되는 어구 (3) 사용자가 입력한 단어 중 적어도 하나의 종류의 다수의 후보들을 산출하도록 어휘(vocabulary)에 대조해서 상기 수신된 사용자 입력을 해석하는 단계;

사용자가 볼 수 있도록 상기 후보들의 리스트를 가시적으로 나타내는 단계;

상기 디바이스가 구두의 사용자 입력을 수신함에 따라, 상기 구두의 사용자 입력에 대한 음성 인식을 수행하는 단계; 및

상기 후보들 중 하나의 발성을 구비하는 상기 인식된 음성에 응답하여, 상기 후보를 구비하는 출력을 제공하는 것을 포함하는 일군의 액션(action)들 중 하나 이상의 액션을 수행하는 단계를 포함하는

디지털 데이터 처리 디바이스.
제1항에 있어서,

상기 일군의 액션들은,

후보의 확장형을 구비하는 인식된 음성에 응답하여, 상기 후보의 확장형을 구비하는 출력을 제공하는 단계를 더 포함하는

디지털 데이터 처리 디바이스.
제1항에 있어서,

상기 일군의 액션들은,

상기 후보들 중 하나를 확장하기 위한 커맨드를 구비하는 상기 인식된 음성에 응답하여, 상기 후보를 하부 부분으로서 포함하는 입력들에 대한 어휘를 검색하여, 검색에 의해 발견된 하나 이상의 입력을 가시적으로 나타내는 단계;

확장 커맨드를 형성하는 인식된 음성에 응답하여, 단어 완성, 접사 추가, 어구 완성, 후보와 동일한 어근을 갖는 추가 단어들로 이루어진 리스트 내의 하나 이상의 후보들 중 적어도 하나를 가시적으로 나타내는 단계 중 적어도 하나를 더 포함하는

디지털 데이터 처리 디바이스.
제1항에 있어서,

상기 일군의 액션들은,

양측의 리스트에서 발생하는 임의의 후보들을 식별하기 위해 상기 후보들의 리스트를 음성 인식 동작으로부터의 가능한 산출물의 리스트와 비교하는 단계; 및

상기 식별된 후보들의 리스트를 가시적으로 나타내는 단계를 더 구비하는

디지털 데이터 처리 디바이스.
제1항에 있어서,

상기 일군의 액션들은,

임의의 후보들의 부분 집합을 잠재적으로 발음하는 발성을 구비하는 상기 인식된 음성에 응답하여, 상기 부분 집합의 후보들의 리스트를 가시적으로 나타내는 단계를 더 포함하는

디지털 데이터 처리 디바이스.
제1항에 있어서,

상기 음성 인식을 수행하는 동작은:

어휘를 활용하여 상기 구두의 사용자 입력의 음성 인식을 수행하는 단계;

상기 음성 인식 동작의 결과에 나타나지 않은 후보들을 생략하도록 상기 후보들을 재정의하는 단계; 및

재정의된 후보들의 리스트를 가시적으로 나타내는 단계를 포함하는

디지털 데이터 처리 디바이스.
제1항에 있어서,

상기 음성 인식을 수행하는 동작은,

상기 후보들에 실질적으로 제한되는 어휘를 활용하여 상기 구두의 사용자 입력의 음성 인식을 수행하는 단계를 포함하는

디지털 데이터 처리 디바이스.
제1항에 있어서,

각각의 후보가 상기 사용자 입력에 해당하는 문자들로 시작하도록 상기 해석하는 동작이 수행되는

디지털 데이터 처리 디바이스.
제1항에 있어서,

다수의 후보들이 상기 단어들의 시작과 끝 위치가 아닌 곳에 사용자 입력을 나타내는 문자를 포함하는 단어들이 되도록 상기 해석하는 동작이 수행되는

디지털 데이터 처리 디바이스.
제1항에 있어서,

상기 후보들의 종류로서 영숫자(alphanumeric) 텍스트의 문자열을 더 포함하도록 상기 해석하는 동작이 수행되는

디지털 데이터 처리 디바이스.
제1항에 있어서,

상기 종류가 표의 문자들, 표의 문자의 어구들 중 적어도 하나를 더 포함하도록 상기 해석하는 동작이 수행되는

디지털 데이터 처리 디바이스.
디지털 데이터 처리 디바이스로서,

수동 텍스트 입력을 위한 사용자 동작 수단;

컴퓨터 생성 이미지들을 가시적으로 나타내는 표시 수단; 및

동작을 수행하기 위한 처리 수단을 구비하고,

상기 동작은

상기 사용자 동작 수단을 통해, 다수의 상이한 가능한 텍스트의 조합들을 나타내는 불명확한 사용자 입력을 수신하는 단계,

사용자의 다른 입력에 무관하게, (1) 사용자가 입력한 어근, 어간, 음절, 접사 중 하나로 형성되는 단어 (2) 사용자가 입력한 단어로 형성되는 어구 (3) 사용자가 입력한 단어 중 적어도 하나의 종류의 다수의 후보들을 산출하도록 어휘(vocabulary)에 대조해서 상기 수신된 사용자 입력을 해석하는 단계;

사용자가 볼 수 있도록 상기 후보들의 리스트를 가시적으로 제공하도록 상기 표시 수단을 동작시키는 단계,

구두의 사용자 입력 수신에 응답하여, 상기 구두의 사용자 입력에 대한 음성 인식을 수행하는 단계,

상기 후보들 중 하나의 발성을 구비하는 상기 인식된 음성에 응답하여, 그 후보를 구비하는 출력을 제공하는 것을 포함하는 일군의 액션들 중 하나 이상의 액션을 수행하는 단계를 포함하는

디지털 데이터 처리 디바이스.
수동 텍스트 입력 도구를 통해 수신되는 내재적으로 불명확한 사용자 입력을 해석하는 동작들을 수행하기 위해 디지털 데이터 처리 디바이스를 동작시키도록 구성되는 다수의 상호연결된 전기 도전성 요소들의 회로로서,

상기 동작들은:

상기 수동 텍스트 입력 도구를 통해, 다수의 상이한 가능한 텍스트의 조합들인 불명확한 사용자 입력을 수신하는 단계;

사용자의 입력에 무관하게, (1) 사용자가 입력한 어근, 어간, 음절, 접사 중 하나로 형성되는 단어, (2) 사용자가 입력한 단어로 형성되는 어구, (3) 사용자가 입력한 단어 중 적어도 하나의 종류의 다수의 후보들을 산출하도록 어휘에 대조해서 상기 수신된 사용자 입력을 해석하는 단계;

사용자가 볼 수 있도록 상기 후보들의 리스트를 가시적으로 나타내는 단계;

구두의 사용자 입력 수신에 응답하여, 상기 구두의 사용자 입력에 대한 음성 인식을 수행하는 단계;

상기 후보들 중 하나의 발성을 구비하는 상기 인식된 음성에 응답하여, 상기 후보를 구비하는 출력을 제공하는 것을 포함하는 일군의 액션들 중 하나 이상의 액션을 수행하는 단계를 포함하는

다수의 상호연결된 전기 도전성 요소들의 회로.
수동 텍스트 입력 도구를 통해 수신되는 내재적으로 불명확한 사용자 입력을 해석하는 동작들을 수행하도록 프로그래밍된 디지털 데이터 처리 디바이스로서,

상기 동작들은:

수동 텍스트 입력 도구를 통해, 육필 스트로크, 육필 스트로크의 카테고리, 발음 스펠링, 음색 입력 중 적어도 하나를 나타내는 불명확한 사용자 입력을 수신하는 단계;

상기 사용자 입력에 의해 형성 가능한 다수의 후보들을 산출하기 위해(여기서, 상기 후보 각각은 하나 이상의 표의 문자, 하나 이상의 표의 문자의 표의 어근을 구비함) 상기 사용자 입력을 해석하는 단계;

사용자가 볼 수 있도록 상기 후보들의 리스트를 가시적으로 나타내는 ㄷ단계;

구두의 사용자 입력을 수신함에 따라, 상기 구두의 사용자 입력에 대한 음성 인식을 수행하는 단계;

상기 후보들 중 하나의 발음을 포함하는 발성을 구비하는 상기 인식된 음성에 응답하여, 그 후보를 구비하는 출력을 제공하는 것을 포함하는 일군의 액션들 중 하나 이상의 액션을 수행하는 단계를 포함하는

디지털 데이터 처리 디바이스.
제14항에 있어서,

상기 일군의 액션은,

후보의 확장형을 구비하는 상기 인식된 음성에 응답하여, 상기 후보의 확장형을 구비하는 출력을 제공하는 단계를 더 포함하는

디지털 데이터 처리 디바이스.
제14항에 있어서,

상기 일군의 액션은,

상기 후보들 중 하나를 확장하기 위한 커맨드를 구비하는 상기 인식된 음성에 응답하여, 하부 부분으로서 상기 후보를 포함하는 입력에 대한 어휘를 검색하는 단계; 및

상기 검색에 의해 발견된 하나 이상의 입력을 가시적으로 나타내는 단계를 더 포함하는

디지털 데이터 처리 디바이스.
제14항에 있어서,

상기 일군의 액션은,

상기 인식된 음성이, 다른 발성법(vocalization)과 함께 상기 후보들 중 하나를 포함하는 발성, 상기 후보들 중 하나의 확장형, 상기 후보들 중 하나의 변형 중 하나를 포함하는지를 판정하는 단계; 및

만일 그렇다면, 상기 후보들의 확장형, 상기 후보의 변형 중 적어도 하나의 해당하는 하나를 가시적으로 나타내는 단계를 더 포함하는

디지털 데이터 처리 디바이스.
제14항에 있어서,

상기 일군의 액션은,

양측 리스트에서 발생하는 임의의 후보들을 식별하기 위하여 상기 후보들의 리스트를 음성 인식의 가능한 산출물들의 리스트와 비교하는 단계; 및

상기 식별된 후보들의 리스트를 가시적으로 나타내는 단계를 더 포함하는

디지털 데이터 처리 디바이스.
제14항에 있어서,

상기 일군의 액션은,

상기 후보들의 부분 집합 중 임의의 것을 잠재적으로 발음하는 발성을 구비하는 인식된 음성에 응답하여, 상기 부분 집합의 후보들의 리스트를 가시적으로 나타내는 단계를 더 포함하는

디지털 데이터 처리 디바이스.
제14항에 있어서,

상기 일군의 액션은,

상기 후보들의 부분 집합에 배타적으로 대응하는 발음 입력(phonetic input)을 구비하는 인식된 음성에 응답하여, 상기 부분 집합의 후보들의 리스트를 가시적으로 나타내는 단계를 더 포함하는

디지털 데이터 처리 디바이스.
제14항에 있어서,

상기 디바이스는, 복수의 발음 정보 항목을 포함하며, 발음 정보 항목 각각을 하나 이상의 테이블의 항목과 상호 참조시키는, 적어도 하나의 데이터 구조를 갖는 디지털 데이터 저장장치를 더 포함하며, 상기 테이블의 항목 각각은, 하나 이상의 표의 문자, 하나 이상의 표의 어근 중 적어도 하나를 포함하며;

발음 정보 항목 각각은 하나 이상의 표의 항목의 발음표기, 하나 이상의 표의 항목과 관련되는 하나 이상의 음색의 발음표기 중 하나를 구비하며;

상기 구두의 사용자 입력의 음성 인식을 수행하는 동작은, 하나 이상의 상호 참조된 표의 항목을 식별하기 위하여, 인식된 음성의 발음 정보에 따라서 데이터 구조를 검색하는 단계를 더 포함하는

디지털 데이터 처리 디바이스.
제14항에 있어서,

상기 음성 인식을 수행하는 동작은,

상기 후보들에 실질적으로 제한되는 어휘를 활용하여 상기 구두의 사용자 입력의 음성 인식을 수행하는 것을 구비하는 디지털 데이터 처리 디바이스.
디지털 데이터 처리 장치로서,

수동 텍스트 입력을 위한 사용자 구동 수단;

컴퓨터 생성 이미지들을 가시적으로 나타내기 위한 표시 수단; 및

동작을 수행하기 위한 처리 수단을 포함하며,

상기 동작은

상기 사용자 구동 수단을 통해서, 육필 스트로크, 육필 스트로크의 카테고리, 발음 스펠링, 음색 입력 중 적어도 하나를 나타내는 불명확한 사용자 입력을 수신하는 단계;

상기 사용자 입력에 의해 형성될 수 있는 다수의 후보들을 산출하기 위하여(여기서, 각각의 후보는, 하나 이상의 표의 문자, 하나 이상의 표의 문자의 표의 어근을 구비함) 상기 사용자 입력을 해석하는 단계;

상기 표시 수단이 사용자가 볼 수 있도록 상기 후보들의 리스트를 나타내는 단계;

음성 입력 기기가 구두의 사용자 입력을 수신함에 따라, 상기 구두의 사용자 입력의 음성 인식을 수행하는 단계;

상기 후보들 중 하나의 발음표기를 포함하는 발성을 구비하는 인식된 음성에 응답하여, 그 후보를 구비하는 출력을 제공하는 것을 포함하는 일군의 액션 중 하나 이상의 액션을 수행하는 단계를 포함하는

디지털 데이터 처리 디바이스.
수동 텍스트 입력 도구를 통해 수신되는 내재적으로 불명확한 사용자 입력을 해석하기 위한 동작들을 수행하기 위해 디지털 데이터 처리 디바이스를 동작시키도록 구성되는 다수의 상호연결된 전기 도전성 요소들의 회로로서,

상기 동작들은:

상기 수동 텍스트 입력 도구를 통해, 육필 스트로크, 육필 스트로크의 카테고리, 발음 스펠링, 음색 입력 중 적어도 하나를 나타내는 불명확한 사용자 입력을 수신하는 단계;

상기 사용자 입력에 의해 형성될 수 있는 다수의 후보들을 산출하기 위하여(각 후보는 하나 이상의 표의 문자, 하나 이상의 표의 문자의 표의 어근 중 적어도 하나를 구비함) 사용자 입력을 해석하는 단계;

사용자가 볼 수 있도록 상기 후보들의 리스트를 가시적으로 나타내는 단계;

음성 입력 기기가 구두의 사용자 입력을 수신함에 따라, 상기 구두의 사용자 입력의 음성 인식을 수행하는 단계;

상기 후보들 중 하나의 발음표기를 포함하는 발성을 구비하는 인식된 음성에 응답하여, 그 후보를 구비하는 출력을 제공하는 것을 포함하는 일군의 액션들 중 하나 이상의 액션을 수행하는 단계를 포함하는

다수의 상호연결된 전기 도전성 요소들의 회로.