KR20070098904A - 수동 입력된 불명확한 텍스트 입력을 해석하기 위해 음성입력을 활용하는 방법 및 장치 - Google Patents

수동 입력된 불명확한 텍스트 입력을 해석하기 위해 음성입력을 활용하는 방법 및 장치 Download PDF

Info

Publication number
KR20070098904A
KR20070098904A KR1020077018235A KR20077018235A KR20070098904A KR 20070098904 A KR20070098904 A KR 20070098904A KR 1020077018235 A KR1020077018235 A KR 1020077018235A KR 20077018235 A KR20077018235 A KR 20077018235A KR 20070098904 A KR20070098904 A KR 20070098904A
Authority
KR
South Korea
Prior art keywords
candidates
user
user input
input
digital data
Prior art date
Application number
KR1020077018235A
Other languages
English (en)
Inventor
제임스 스테파닉
리처드 에라우드
존 케이 다비드
핌 반 메우르스
에단 브래드포드
마이클 알. 론지
Original Assignee
테직 커뮤니케이션 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US11/143,409 external-priority patent/US7881936B2/en
Application filed by 테직 커뮤니케이션 인코포레이티드 filed Critical 테직 커뮤니케이션 인코포레이티드
Publication of KR20070098904A publication Critical patent/KR20070098904A/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/274Converting codes to words; Guess-ahead of partial word inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/98Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
    • G06V10/987Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns with the intervention of an operator
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/142Image acquisition using hand-held instruments; Constructional details of the instruments
    • G06V30/1423Image acquisition using hand-held instruments; Constructional details of the instruments the instrument generating sequences of position coordinates corresponding to handwriting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Discrimination (AREA)
  • Document Processing Apparatus (AREA)
  • Input From Keyboards Or The Like (AREA)
  • Position Input By Displaying (AREA)
  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

텍스트 입력 도구로부터, 디지털 데이터 처리 디바이스는 내재적으로 불명확한 사용자 입력을 수신한다. 임의의 다른 사용자 입력에 무관하게, 디바이스는 수신된 사용자 입력을 어휘에 대하여 해석하여, 단어(사용자 입력이 전체 단어 도는 어근, 어간, 음절, 접사와 같은 일부를 형성함) 또는 하나의 단어로서 사용자 입력을 갖는 어구와 같은 후보들을 산출한다. 디바이스는 후보들을 표시하고, 구두의 사용자 입력에 음성 인식을 적용한다. 인식된 음성이 후보들 중 하나를 구비하면, 그 후보가 선택된다. 인식된 음성이 후보의 확장형을 구성하면, 확장된 후보가 선택된다. 인식된 음성이 다른 입력을 구비하면, 다양한 다른 액션들이 취해진다.

Description

수동 입력된 불명확한 텍스트 입력을 해석하기 위해 음성 입력을 활용하는 방법 및 장치{METHOD AND APPARATUS UTILIZING VOICE INPUT TO RESOLVE AMBIGUOUS MANUALLY ENTERED TEXT INPUT}
본 발명은 디지털 데이터 처리 장치를 이용한 텍스트의 사용자 수동 입력에 관한 것이다. 특히, 본 발명은 본래 불명확한 사용자의 수동 텍스트 입력을 음성 입력으로 보충하여 사용자의 텍스트 입력의 가능한 상이한 해석들을 명확하게 하는 컴퓨터 구동 동작들에 관한 것이다.
다년간 이동식 컴퓨터들은 더욱더 작아져 왔다. 무선 산업의 비약적인 성장은 휴대전화, PDA, GPS 유닛, 등의 신뢰성 있고, 편리하며, 거의 일상적인 모바일장치들을 생산하였다. 실로 유용한 이동식 컴퓨터를 생산하는데 있어서, 주요한 사이즈 제한 성분은 키보드였다.
표준 키보드 없이 이동식 컴퓨터에 데이터를 입력하기 위하여, 사람들은 수많은 해결책들을 개발하였다. 그 하나의 접근법으로서, 더 적은 수의 키들을 갖는 키보드를 사용하는 것이 있었다("축소된 키의 키보드"). 감소한 일부 키보드들은 터치-톤 전화기의 레이아웃과 같이, 3 x 4 어레이의 키들을 사용하였다. 사이즈의 관점에서는 유익할지라도, 감소한 키의 키보드들은 몇몇 문제점을 가져온다. 예를 들어, 키의 어레이의 각각의 키는 다수의 문자들을 포함한다. 예를 들어, "2" 키는 "a" 및 "b" 및 "c"를 나타낸다. 따라서, 각 사용자가 입력한 시퀀스는 각각의 키스트로크가 하나의 숫자 또는 몇몇의 상이한 문자를 지시할 수 있기 때문에, 본래 불명확하다.
T9® 텍스트 입력 기술은 구체적으로 전화 키패드 등의 감소된 키보드들에 대한 단어 수준의 명확화를 제공하는 것을 목적으로 한다. T9 텍스트 입력 기술은 U.S. 특허 제 5,818,437 등의 다양한 미국 특허 문서들에 기술되어 있다. 영어 및 다른 알파벳 기반의 단어들의 경우, 사용자는 T9 텍스트 입력을 다음과 같이 채용한다.
단어를 입력하는 경우, 사용자는 각각의 키가 다수의 문자들을 나타낸다는 사실을 무시하고 단어를 구성하는 문자들에 해당하는 키들을 누른다. 예를 들어, "a"를 입력하기 위해, "2" 키가 "b" 및 "c"를 나타낼 수도 있다는 사실을 무시하고, 사용자는 "2" 키를 입력한다. T9 텍스트 입력 기술은 사용자의 키 스트로크 입력으로 지시되는 모든 가능한 문자 조합들을 판정하고, 어느 것이 의미를 이루는지 알아보도록 이들을 알려진 단어들의 사전에 대조함으로써 의도된 단어를 해석한다.
기본적인 애플리케이션 이상으로, T9 텍스트 입력은 다수의 개선사항들을 거쳤다. 또한, 중국어 등의 알파벳 문자들과는 다른 표의문자를 갖는 언어들을 위한 감소된 키보드 장치들에 대하여도 T9 텍스트 입력 및 유사 제품들이 활용가능하다. T9 텍스트 입력은 모든 사용자가 요구하는 데이터 입력의 용이성과 완벽한 속도 레벨을 제공하지 못할 수도 있다.
완전히 상이한 접근법으로서, 일부 소형 장치들은 사용자의 육필(handwriting)을 수신하도록 디지타이징 표면을 채용한다. 이러한 접근법은 작은 영역에서도 이동식 컴퓨터의 크기에서 허용 되는대로 사용자들이 자연스럽게 필기하도록 한다. 디지타이징 표면과의 사용자 접촉에 기초하여, 육필 인식 알고리즘은 사용자 입력의 기하학적 특징들을 분석하여, 각각의 문자 또는 단어를 결정한다. 그러나, 현재의 육필 인식 솔루션들은 문제점을 갖는다. 하나로서, 육필은 일반적으로 타이핑보다 느리다. 또한, 육필 인식 정확성을 충분히 신뢰하기가 어렵다. 또한, 육필 인식 알고리즘이 사용자가 소정의 문자 스트로크 패턴과 순서를 관찰하는 것을 요구하는 경우, 일부 사용자들은 이를 수행하기가 귀찮고 학습하기에도 난해하다는 것을 발견한다.
풀-사이즈의 키보드 없이 소형 장치를 이용하여 데이터를 입력하기 위한 완전히 상이한 접근법은, 몇몇 유형의 키보드 오버레이가 프린트된 터치-검지 패널 또는 키보드 오버레이가 표시된 터치-검지 스크린을 이용하는 것이 있었다. 사용자는 소망하는 키 또는 문자와 관계된 영역에서 패널 또는 표시 화면과 상호작용하도록 손가락 또는 스타일러스를 채용한다. 이러한 키보드의 소형의 전체 사이즈로는, 개별 키들이 매우 작을 수 있다. 이는 평균적인 사용자가 정확하고 재빨리 타이핑하는 것을 어렵게 할 수 있다.
다수의 빌트-인 및 에드-온(add-on) 제품들은 터치 스크린 및 오버레이 키보드에 대하여 단어 예측을 제공한다. 사용자가 단어의 첫 번째 문자를 조심스럽게 탭핑한 후에, 이들 문자들로 시작되는 가장 근사한 완전한 단어들의 리스트를 예측 시스템이 표시된다. 너무 많은 선택이 있다면, 어쨌든 사용자는 소망하는 단어가 나타날 때까지 또는 사용자가 단어를 마무리할 때까지 타이핑을 계속해야 한다. 그러나, 사용자는 매번 문자 후에 터치 스크린 키보드와 완전한 단어들의 리스트 사이에서 시각적 포커스를 스위칭해야 하므로, 텍스트 입력은 가속되는 것이 아니라 느려진다. 따라서, 일부 사용자들은 터치 스크린과 오버레이 키보드가 다소 번거롭거나 오류가 생기기 쉽다는 것을 알 수 있다.
전술한 문제점들을 고려하면, 본 영역에서의 비약적인 기술적 발전에도 불구하고, 감소한 키의 키패드, 육필 디지타이저, 및 터치스크린/오버레이 키보드의 내재적인 제한으로 인하여, 사용자들은 여전히 수동으로 이동식 컴퓨터에 텍스트를 입력할 때 어려움과 오류에 부딪힐 수 있다.
도 1은 수동 입력된 불명확한 텍스트 입력을 해석하기 위해 음성 입력을 이용하는 일례의 시스템의 구성성분들의 일부를 나타낸 블록도.
도 2는 일례의 신호 저장 매체를 나타낸 블록도.
도 3은 상이한 예시적인 신호 저장 매체를 나타낸 블록도.
도 4는 예시적인 논리 회로의 사시도.
도 5는 예시적인 디지털 데이터 처리 장치의 블록도.
도 6은 수동 입력된 불명확한 텍스트 입력을 해석하기 위하여 사용자 음성 입력을 활용하는 컴퓨터 실행 시퀀스의 플로우차트.
도 7 내지 도 11은 사용자 입력을 수신하고 처리하는 다양한 예들을 나타낸 도.
도 12는 표의 문자의 수동 입력된 불명확한 입력을 해석하기 위하여 음성 입력을 이용하는 컴퓨터 실행의 시퀀스의 플로우차트.
텍스트 입력 도구에서부터, 디지털 데이터 처리장치는 본래 불명확한 사용자 입력을 수신한다. 임의의 다른 사용자 입력과는 독립적으로, 장치는 어휘에 대하여 수신된 사용자 입력을 해석하여, 단어(사용자 입력이 전체 단어 또는 어근, 어간, 음절, 접사 등의 일부를 형성하는) 또는 사용자 입력이 하나의 단어가 되도록 하는 어구와 같은 후보들을 산출한다. 장치는 후보들을 표시하고, 말로 한 사용자 입력에 대하여 음성 인식을 적용한다. 인식된 음성이 후보들 중 하나를 구비한다면, 그 후보가 선택된다. 인식된 음성이 후보의 확장형을 형성한다면, 확장된 후보가 선택된다. 인식된 후보가 다른 입력을 구비한다면, 다양한 다른 액션들이 취해진다.
개 요
본 개시의 일 양태는, 사용자 작동의 텍스트 입력을 제공하는 핸드헬드 모바일 장치에 관한 것이다. 본 장치는, 도 1에 묘사된 예와 같이 각종 하드웨어 성분과 연결배선들로 실시될 수 있다. 도 1의 핸드헬드 모바일 장치는 각종의 처리 서브컴포넌트들을 포함하며, 그 각각은 하나 이상의 하드웨어 디바이스, 소프트웨어 디바이스, 하드웨어 또는 소프트웨어 디바이스의 일부, 또는 상기의 조합으로서 구현될 수 있다. 이들 서브컴포넌트들의 구성은 일례의 디지털 데이터 처리 장치, 논리 회로, 및 신호 저장 매체를 참조하여 이하에서 더욱 상세하게 설명한다.
전체 구조
도 1은 수동 입력된 불명확한 텍스트 입력을 해석하기 위하여 음성 입력을 이용하는 일례의 시스템(100)을 나타낸다. 시스템(100)은 사용자의 텍스트 입력이 몇몇의 내재적인 불명료성을 포함하도록 감소한 사이즈의 키보드 또는 기타의 입력 기구를 갖는 PDA, 휴대 전화, AM/FM 라디오, MP3 플레이어, GPS, 자동차용 컴퓨터, 또는 가상적으로 임의의 다른 장치로서 구현될 수 있다. 완전함을 위하여, 사용자가 실제로는 시스템(100)의 일부를 구성하지는 않지만, 101로서 도시되어 있다. 사용자(101)는 단어, 어구, 문장, 또는 문단의 전체 또는 일부를 사용자 인터페이스(102)를 이용하여 입력한다. 데이터 입력은 각각의 사용자 입력이 상이한 문자, 디지트, 심볼 등을 나타내는 것이 가능하다는 점에서 본래 불명확하다.
사용자 인터페이스
사용자 인터페이스(102)는 프로세서(104)에 결합되며, 각종 성분들을 포함한다. 최소한으로서, 인터페이스(102)는 인터페이스(102)는 사용자 음성 입력, 사용자 수동 입력, 및 사용자에 대한 출력을 위한 디바이스들을 포함한다. 수동 사용자 입력을 수신하기 위하여, 인터페이스(102)는 하나 이상의 텍스트 입력 도구를 포함할 수 있다. 일례로서, 디지타이징 표면과 같은 육필 디지타이저(102a)가 있다. 텍스트 입력 도구의 다른 선택사항으로는, 전화 키패드, 사용자 구성가능한 버튼 셋트, 감소한 키셋의 키보드, 또는 감소한 사이즈의 키보드 등의 키 입력(102b)이 있다. 텍스트 입력 도구의 또 다른 예로는, 소프트 키보드, 즉, 디지타이저와 결합한 컴퓨터 발생의 키보드가 있으며, 일부 예로서는, 소프트 키보드, 터치스크린 키보드, 오버레이 키보드, 자동 수정 키보드 등이 있다. 키 입력(102b)의 또 다른 예로는, 마우스, 조이스틱, 또는 기타의 수동 텍스트 입력을 위한 넌-키(non-key) 디바이스들이 있으며, 이러한 의미에서 성분 명칭 "키 입력"은 임의의 의도된 제한없이 사용된다. 수동으로 텍스트를 입력하기 위하여 조이스틱을 이용하는 것은 이하의 참조에서 설명되며, 이는 미국 출원번호 10/775,663호(2004년 2월 9일자 Pim van Meurs 의 "System and Method for Chinese Input Using a Joystick")가 이에 대하여 본 명세서에 그 전체가 참조로서 포함된다. 키 입력(102b)은 전술한 성분들 중 하나 또는 그 조합을 포함할 수 있다.
본래, 전술한 텍스트 입력 도구들은 일부 불명료성을 포함한다. 예를 들어, 육필 입력 디바이스로 입력된 문자들을 식별하는 완전한 확실성은 존재하지 않는다. 마찬가지로, 감소한 키의 키보드로 입력된 영숫자(alphanumeric) 문자는, 통상 각각의 최상위 키들과 관련된 3개의 문자와 하나의 숫자가 존재하기 때문에, 불명료할 수 있다. 키보드는 문자들이 작거나 가깝게 위치하고 있고, 사용자에 에러에 취약하기 때문에 불명료할 수 있다.
사용자(101)에 대하여 출력을 제공하기 위하여, 인터페이스(102)는 하나 이상의 스피커 등의 오디오 출력(102d)을 포함한다. 사용자 출력의 다른 또는 부가의 선택사항으로는, LCD 화면, CRT, 플라즈마 디스플레이, 또는 사람이 판독가능한 영숫자, 표의 문자, 및/또는 그래픽을 나타내기 위한 기타의 디바이스가 있다.
프로세서
시스템(100)은 디지털 데이터 저장장치(150)와 사용자 인터페이스(102)에 결합된 프로세서(140)를 포함한다. 프로세서(140)는 이하에서 더욱 자세하게 설명하는 바와 같이 각종 엔진들과 기타의 처리 개체들을 포함한다. 저장장치(150)는 이하에서 더욱 자세하게 설명하는 바와 같이 디지털 데이터의 각종 성분들을 담고 있다. 처리 개체들 중 일부(후술하는 엔진(115) 등의)는 프로세서(140)와 함께 설명되는 반면, (프로그램(152) 등의) 다른 것들은 저장장치(150)와 함께 설명된다. 이는 단지 하나의 예이지만, 당업자라면 (프로세서(140)와 같이) 회로로 하드-코딩하거나, 또는 (저장장치(150)와 같이) 저장장치로부터 검색되어 실행될 수 있기 때문에, 임의의 주어진 처리 개체의 구현을 변경시킬 수 있다.
이하, 도시된 프로세서(140)와 저장장치(150)의 성분들을 설명한다.
디지타이저(105)는 사용자(101)로부터의 음성을 디지타이징하며, 예를 들어, 아날로그-디지털 컨버터를 구비한다. 선택적으로는, 디지타이저(105)는 음성-입력(voice-in) 부(192c)에 통합될 수도 있다. 디코더(109)는 어쿠스틱 모델(도시 생략)을 적용하여 디지타이저(105)부터의 디지타이징된 음성 신호들 및 소위 사용자의 발음을 음성학적인 데이터로 변환하기 위한 시설을 구비한다. 음소(phoneme) 인식 엔진(134)은 음성 입력의 음소들을 인식하도록 동작한다. 음소 인식 엔진은 당업계에 공지된 임의의 기술을 채용하여 예를 들어 후보들의 리스트 및 각각의 음소의 입력들에 대한 매칭의 관련된 확률을 제공할 수 있다. 인식 엔진(111)은 언어 데이터베이스(119) 내의 어휘목록(lexicon) 및/또는 언어 모델에 기초하여 디코더(109)로부터의 데이터를 분석하며, 이러한 분석은 선택적으로는 텍스트 버퍼(113) 등의 문맥(context)을 포함하여, 사용의 빈도 또는 근접도(recency)를 포함한다. 일 실시예에 있어서, 엔진(111)은 하나 이상의 N 개의 최선의 가설 리스트를 생성한다.
시스템(100)의 또 다른 성분은 디지타이저(107)이다. 디지타이저는 육필 입력(102a)에 기초하여 디지털 출력을 제공한다. 스트로크/문자 인식 엔진(130)은 디지타이저(107)에 의해 출력된 블록, 초서(cursive), 속기(shorthand), 표의 문자 또는 기타의 육필에 따라서 육필 인식을 수행하기 위한 모듈이다. 스트로크/문자 인식 엔진(130)은 후보들의 리스트 및 스트로크 및 문자에 대한 각각의 입력의 매칭의 관련 확률을 제공하기 위하여 당업계에 공지된 임의의 기술을 채용할 수도 있다.
프로세서(140)는 다양한 명확화 엔진(115)을 더 포함하며, 본 예에 있어서는, 단어 명확화 엔진(115a), 어구 명확화 엔진(115b), 문맥 명확화 엔진(115c), 및 멀티모달(multimodal) 명확화 엔진(115d)을 포함한다.
명확화 엔진(115)은 언어 데이터베이스(119)(후술함) 내의 언어 모델 및/또는 어휘목록에 기초하여, 선택적으로는, 사용의 빈도 및 근접도를 포함하여, 또한, 선택적으로는 텍스트 버퍼(113)의 주변의 문맥에 기초하여, 수동 및/또는 음성 입력의 가능한 해석본들을 판정한다. 일례로서, 엔진(115)은 디스플레이(102e)를 통해 사용자에게 표시하기 위하여 최선의 번역을 텍스트 버퍼(113)에 추가한다. 해석본의 전체는 추후의 선택과 수정을 위해 텍스트 버퍼(113)에 기억될 수 있으며, 디스플레이(102e)를 통해 확인을 위해 사용자(101)에 대하여 제공될 수도 있다.
멀티모달 명확화 엔진(115d)은 불명확한 입력 시퀀스 및/또는 해석본들을 인식 엔진(111)으로부터의 음성 인식의 최선의 또는 N 개의 최선의 해석본들과 비교하고, 인터페이스(102)를 통한 서로간의 확인을 위해 사용자(101)에 대하여 개정된 해석본을 제공한다. 대체 실시예에 있어서, 인식 엔진(111)은 명확화 엔진(115)에 통합되고, 더욱 변화되고 효율적인 알고리즘을 제공하기 위하여 각각의 양상(modality)으로부터 입력을 처리하는 내재적인 부분으로서 상호간의 명확화가 발생한다. 다른 실시예에 있어서, 엔진(115)의 기능은 인식 엔진(111)에 통합될 수도 있다. 여기서, 불명확한 입력과 벡터들 또는 음소는 연합된 가설 조사를 위해서 음성 인식 시스템으로 보내진다.
또 다른 실시예에 있어서, 인식 엔진(111)은 멀티모달 명확화 엔진(115d)으로부터의 불명확한 해석본들을 이용하여 언어 데이터베이스(119)로부터 어휘목록을 필터링하거나 발췌하며, 이로써 인식 엔진(111)은 하나 이상의 N개의 최선의 리스트들을 산출한다. 또 다른 실시예에서, 멀티모달 명확화 엔진(115d)은 N개의 최건의 리스트의 불명확한 해석본들 및/또는 단어들의 문자들(도안들)을 인식 엔진(111)에 의한 해석을 위하여 벡터 또는 음소들에 맵핑시킨다.
인식 엔진 및 명확화 엔진(111, 115)은 사용자(101)가 명시적으로 스펠링하였거나 혼합하였던 신규의 단어들 또는 어구들을 추가하고, 사용자(101)에 의해 입력 또는 수정된 단어 및 어구들의 사용의 빈도 또는 근접도를 반영하도록 언어 데이터베이스(119) 중 하나 이상을 갱신할 수 있다. 엔진(111 및 115)에 의한 이러한 액션은 자동으로 또는 특정 사용자 지시에 따라서 발생할 수 있다.
일 실시예에 있어서, 엔진(115)은 인식 및/또는 명확화 처리의 다른 부분들을 위하여 별도의 모듈을 포함하며, 본 예에 있어서는, 단어 기반의 명확화 엔진(115a), 어구 기반의 인식 또는 명확화 엔진(115b), 문맥 기반의 인식 또는 명확화 엔진(115c), 멀티모달 명확화 엔진(115d) 등을 포함한다. 일례에 있어서, 인식 및 명확화를 위한 성분들(115a 내지 115d)dml 일부 또는 전체는 음성 인식 및 감소된 키패드 입력의 상이한 입력 양상(modality) 사이에서 공유될 수 있다.
일 실시예에 있어서, 문맥 기반의 명확화 엔진(115c)은 사용자 액션들의 문맥상의 양태(aspect)들을 입력 명확화에 적용한다. 예를 들어, 다수의 어휘들(156)(후술함)이 존재하는 경우, 엔진(115c)은 선택된 사용자 위치에 따라서, 예컨대, 사용자가 작업장에 일하고 있는지 또는 집에 있는지 여부, 시각, 예컨대, 작업 시간 대 휴식 시간; 메시지 수신 등에 따라서, 어휘들(156) 중 하나의 선택을 조절한다.
저장 장치
저장 장치(150)는 애플리케이션 프로그램(152), 어휘(156), 언어 데이터베이스(119), 텍스트 버퍼(113), 및 운영 시스템(154)을 포함한다. 애플리케이션 프로그램의 예로는, 워드 프로세서, 메시징 클라이언트, 외국어 번역기, 음성 합성 소프트웨어 등이 있다.
텍스트 버퍼(113)는 하나 이상의 입력 필드의 콘텐츠를 구비하며, 애플리케이션 모두 또는 일부가 디바이스(100)에 의해 실행된다. 텍스트 버퍼(113)는 이미 입력된 문자들을 포함하며, 원래의 수동 입력 또는 소리 입력의 기록 등의 텍스트를 재편집하거나, 또는 문맥상의 예측 또는 문단 포맷팅을 위하여 필요한 임의의 지원 정보를 포함한다.
언어 데이터베이스(119)는 어휘목록, 언어 모델, 및 기타의 언어 정보 등의 정보를 포함한다. 각각의 어휘(156)는 다수의 소정의 단어들, 문자들, 어구들, 또는 디바이스(100)의 특정 애플리케이션에 적합한 기타의 언어 표현들을 포함하거나 생성할 수 있다. 어휘(156)의 하나의 특정예에서는, 단어 리스트(156a), 어구 리스트(156b), 및 발음/톤 테이블(156c)을 활용한다. 적절한 경우, 시스템(100)은 상이한 언어, 상이한 산업, 예컨대, 의학, 법학, 부품 번호, 등의 상이한 애플리케이션에 대한 어휘들을 포함할 수 있다. "단어(word)"는 하나의 단어, 단어 어간, 접두사 또는 접미사, 음절, 약어, 잡담 속어, 이모티콘, 사용자 ID 또는 데이터의 기타의 식별자, URL, 또는 표의 문자 시퀀스를 형성하는 하나 이상의 문자 또는 심볼들의 문자열 등의 임의의 언어 객체를 일컫는데 사용된다. 유사하게, "어구(phrase)"는 언어 또는 애플리케이션의 관례에 따라서 스페이스 또는 몇몇 다른 구획 문자에 의해 구분될 수 있는 단어들의 시퀀스를 일컫는데 사용된다. 이하에서 상세하게 설명하는 바와 같이, 단어들(156a)은 표의 언어 문자들을 포함할 수도 있으며, 이러한 경우, 어구들은 이러한 문자들의 논리 그룹에 의해 형성되는 어구들을 포함한다. 선택적으로는, 어휘 단어 및/또는 어구 리스트들은 데이터베이스(119)에 기억될 수 있으며, 데이터베이스(119)로부터 생성될 수도 있다.
일례에 있어서, 단어 리스트(156a)는 모든 양상들에 대하여 언어의 알려진 단어들의 리스트를 구비하여, 입력 양상들 사이의 어휘에 있어서의 차이점은 없게 된다. 단어 리스트(156a)는 언어의 해당 단어들에 대한 사용 빈도를 더 구비할 수 있다. 일 실시예에 있어서, 언어에 대한 단어 리스트(156a)에 없는 단어는 0의 빈도를 갖는 것으로 간주된다. 대안으로서, 미지의 또는 새롭게 추가된 단어에는 매우 작은 사용 빈도가 부여될 수 있다. 미지의 단어에 대한 가정된 사용 빈도를 이용하여, 실질적으로 동일한 방법으로 알려진 단어와 미지의 단어가 처리될 수 있다. 사용 근접도 또한 빈도를 산정하고 비교함에 있어서 하나의 인자가 될 수도 있다. 단어 리스트(156a)는 단어 기반의 인식 또는 명확화 엔진(115a)과 함께 사용되어, 패턴 인식 엔진, 예컨대, 스트로크/문자 인식 엔진(130), 또는 음소 인식 엔진(134) 등의 결과에 기초하여 판정된 단어 후보들을 랭크, 소거, 및/또는 선택하고, 사용자 입력의 일부분에 기초하여 단어 완성을 위한 단어들을 예측할 수 있다.
마찬가지로, 어구 리스트(156b)는 하나 이상의 단어들을 포함하는 어구들의 리스트, 및 어구 기반의 인식 또는 명확화 엔진(115b)에 의해 사용되어 어구 완성을 위해 단어들을 예측하는데 사용될 수 있는 사용 빈도 정보를 포함할 수 있다.
발음/톤 테이블(156c)은 표의적인 항목들에 대하여 상호 참조된 발음 정보의 각종 항목들을 열거한, 테이블, 링크된 리스트, 데이터베이스, 또는 임의의 기타의 데이터 구조를 구비한다. 표의적인 항목들은 표의 문자, 표의적인 어근, 표어적인(logographic) 문자, 기호문자의 심볼, 등을 포함하며, 예를 들어, 단어 리스트(156a)에 열거될 수 있다. 발음 정보의 각각의 항목은 관련된 표의적인 항목의 발음, 및/또는 하나 이상의 톤의 발음 등을 포함한다. 테이블(156c)은 선택사항이며, 시스템(100)이 영어 또는 기타의 비표의적 애플리케이션에 제한된다면 어휘(156)에서 생략될 수 있다.
일 실시예에 있어서, 프로세서(140)는 자동으로 어휘(156)를 갱신한다. 일례에 있어서, 선택 모듈(132)은 이하에서 더욱 상세히 설명하는 바와 같이, 선택되는 경우, 사용 근접도를 추적하거나, 정확한 탭 단어를 추가하도록 갱신을 실행/요청하는 동작 중에 어휘를 갱신할 수 있다. 보다 일반적인 예에서, 인스톨(install) 중에, 또는 텍스트 메시지 또는 기타의 데이터의 수신에 따라 계속적으로, 또는 또 다른 시간에서, 프로세서(140)는 자신의 어휘에 추가되어야 하는 단어들에 대한 정보 파일들(도시 생략)을 스캐닝한다. 이러한 정보 파일들을 스캐닝하는 방법들은 당업계에 공지되어 있다. 본 예에 있어서, 운영 체제(154) 또는 각각의 애플리케이션(152)은 텍스트 스캐닝 기능을 호출한다. 스캐닝 중에 새로운 단어들이 발견됨에 따라서, 이들은 낮은 빈도의 단어들로서 어휘 모듈에 추가되며, 따라서, 단어들이 관련되는 단어 리스트들의 마지막에 위치된다. 스캐닝 중에 주어진 새로운 단어가 검출되는 횟수에 따라서, 보다 높은 우선순위가 할당되며, 이를 관련 리스트 내에서 촉진시켜 정보 입력 중에 단어 선택 리스트에 나타나는 단어의 확률(likelihood)을 증가시킨다. 메시지 상의 XML 태그 또는 주변의 텍스트 등의 문맥에 따라서, 시스템은 적절한 언어를 결정하여 새로운 단어를 이와 관련시킬 수 있다. 현재의 또는 결정된 언어에 대한 표준 발음 규칙이 추후의 인식을 위해서 이들의 발음 형태에 맞도록 하기 위하여 새로운 단어들에 적용될 수 있다. 선택적으로는, 프로세서(140)는 추가의 어휘 단어들이 가능한 단어들의 리스트 내에서, 예컨대, 특별한 컬러화 또는 하이라이팅으로, 최초 또는 최후에 나타나게 하도록 사용자 구성 입력에 응답하거나, 시스템은 어느 어휘 모듈이 바로 앞에서 수용되거나 수정된 단어 또는 단어들을 공급하였는지에 기초하여 단어들의 점수 또는 순서를 자동으로 변경시킬 수 있다.
일 실시예에 있어서, 어휘(156)는 또한 일상적인 미스스펠링 및 키 입력 오류에 대한 대체 단어들을 포함한다. 어휘(156)는 디바이스(100)의 제조, 인스톨, 초기 구성, 재구성, 또는 기타의 경우에서 구성될 수 있다. 또한, 어휘(156)는 웹 접속, 다운로드, 확장 카드의 부착, 사용자 입력, 또는 기타의 이벤트를 통해 갱신된 정보를 검출하는 때에 자기 갱신될 수도 있다.
일례의 디지털 데이터 처리 장치
전술한 바와 같이, 본 개시에서 설명되는 데이터 처리 개체들은 다양한 형태로 구현될 수도 있다. 일례로서, 도 5의 디지털 데이터 처리 장치의 하드웨어 성분 및 연결배선에 예시된 바와 같이 디지털 데이터 처리 장치가 있다.
장치(500)는 디지털 데이터 저장장치(504)에 결합되는, 마이크로프로세서 등의 프로세서(502), 퍼스널 컴퓨터, 워크스테이션, 컨트롤러, 마이크로컨트롤러, 상태 머신, 또는 기타의 처리 머신을 포함한다. 본 예에 있어서, 저장장치(504)는 비휘발성 저장장치(508) 뿐만 아니라 고속-액세스 저장장치(506)를 포함한다. 고속-액세스 저장장치(506)는 RAM을 구비할 수도 있으며, 프로세서(502)에 의해 실행되는 프로그래밍 명령어들을 기억하는데 사용될 수도 있다. 비휘발성 저장장치(508)는 예를 들어 배터리 백업 RAM, EEPROM, 플래쉬 PROM1, 하드 드라이브, 탭 드라이브와 같은 하나 이상의 자기 데이터 기억 디스크 또는 임의의 기타의 적합한 기억 디바이스를 구비할 수도 있다. 장치(500)는 또한 라인, 버스, 케이블, 전자기 링크, 또는 프로세서(502)에 대하여 장치(500) 외부의 다른 하드웨어와 데이터를 교환하기 위한 기타의 수단 등의 입출력(510)을 포함한다.
상기 특정 설명에도 불구하고, 당업자(본 개시의 이익을 향유하는)는 본 발명의 범주를 일탈하지 않고서 상기 논의된 장치가 상이한 구조의 기계에서 구현될 수 있음을 인식할 수 있을 것이다. 특정한 예로서, 성분들(506 및 508) 중 하나는 제거될 수 있으며, 또한, 저장장치(504, 506, 및/또는 508)는 온-보드로서 프로세서(502)에 제공될 수 있으며, 또는 장치(500) 외부에 제공될 수도 있다.
신호 저장 매체
상기의 디지털 데이터 처리 장치와 대조하여, 본 개시의 다른 양태는 이러한 디지털 처리 장치에 의해 실행가능한 기계 판독가능한 명령어들의 프로그램을 확실하게 실시하는 하나 이상의 신호 저장 매체에 관한 것이다. 일례에 있어서, 기계 판독가능 명령어들은 이하에서 더욱 상세하게 설명하는 동작들과 같은, 본 개시와 관련된 각종 기능들을 실시하도록 실행가능하다. 또 다른 예에서, 실행시의 명령어들은 컴퓨터에 소프트웨어 프로그램을 인스톨하도록 동작하며, 이러한 소프트웨어 프로그램은 후술하는 동작들과 같은 본 개시와 관련된 다른 기능들을 수행하도록 독립적으로 실행가능하다.
어떠한 경우, 신호 저장 매체는 다양한 형태를 가질 수 있다. 도 5의 문맥에 있어서, 이러한 신호 저장 매체는 프로세서(502)에 의해 직간접적으로 액세스 가능한, 예를 들어, 저장장치(504) 또는 광학 저장 디스크(300)(도 3)와 같은 또 다른 신호 저장 매체를 구비할 수 있다. 저장장치(506), 디스크(300)이든지 어디에 포함되어 있던지, 명령어들은 다양한 기계 판독가능 데이터 저장 매체에 저장될 수 있다. 몇몇 예에서는, 직접 액세스 저장장치, 예컨대, 종래의 하드 드라이브, RAID(redundant array of inexpensive disks), 또는 또 다른 DASD(direct access storage device); 자기 또는 광학 테이프 등의 직렬 액세스 저장장치, 전자적인 비휘발성 메모리, 예컨대, ROM, EPROM, 플래시 PROM, 또는 EEPROM; 배터리 백업 RAM, 광학 저장장치, 예컨대, CD_ROM, WORM, DVD, 디지털 광학 테이프; 또는 기타의 적합한 신호 저장 매체를 포함한다. 일 실시예에 있어서, 기계 판독가능 명령어들은 어셈블리어, C, 등의 언어로 컴파일되는 소프트웨어 객체 코드를 구비할 수 있다.
논리 회로
전술한 신호 저장 매체 및 디지털 데이터 처리 장치와 비교하여, 본 개시의 다른 실시예에서는 본 개시의 처리 개체를 구현함에 있어서 컴퓨터 실행의 명령어를 대신하여 논리 회로를 사용한다. 속도, 가격, 취급 비용, 등의 영역에서의 어플리케이션의 특정 요구사항에 따라서, 이러한 논리 회로는 수천개의 미세한 집적 트랜지스터들을 갖는 ASIC(application-specific integrated circuit)을 구성함으로써 구현될 수 있다. 도 4는 회로(400)의 형태로 일례를 나타낸다. 이러한 ASIC은 CMOS, TTL, VLSI, 또는 다른 적합한 구성으로 구현될 수 있다. 다른 대안으로서는, DSP(digital signal processing chip), 이산 회로(저항, 커패시터, 다이오드, 인덕터, 트랜지스터 등), FPGA(field programmable gate array), PLA(programmable logic array), PLD(programmable logic device), 등을 포함한다.
동 작
본 개시의 구조적 특성을 설명하였지만, 이하에서는 본 개시의 동작의 양태를 설명한다. 전술한 바와 같이, 개시의 동작 양태는 일반적으로 핸드헬드 모바일 디바이스의 텍스트 입력 도구에 입력되는 불명확한 사용자 입력을 의도적으로 해석하기 위한 다양한 기법들을 포함한다.
동작 시퀀스
도 6은 본 개시의 방법 양태의 일례를 나타내기 위한 시퀀스(600)를 나타낸다. 하나의 애플리케이션에 있어서, 본 시퀀스는 핸드헬드 디지털 데이터 처리 디바이스의 텍스트 입력 도구에 입력되는 내재적으로 불명확한 사용자 입력을 해석하는 기능을 한다. 설명의 편리를 위해서, 의도적으로 제한하지 않고서, 도 6의 예는 전술한 바와 같이 도 1의 디바이스의 문맥에서 설명된다.
단계 602에서, 텍스트 입력 도구, 예컨대, 사용자 인터페이스(102)의 디바이스(102a 및/또는 102b)는 다수의 가능한 문자 조합을 나타내는 사용자 입력을 수신한다. 디바이스의 구조에 따라서, 단계 602의 몇몇 예들은, 각각의 키는 다수의 영숫자 문자에 해당하는 전화 키패드를 통해 사용자 입력을 수신하는 단계, 또는 육필 디지타이저를 통해 입력을 수신하는 단계, 또는 컴퓨터 디스플레이 및 함께 위치된 디지타이징 표면, 등을 통해 입력을 수신하는 단계를 포함한다.
단계 604에서, 임의의 다른 사용자 입력과는 무관하게, 디바이스는 수신된 사용자 입력을 어휘(156) 및/또는 언어 데이터베이스(119)에 대비하여 해석하여, 다수의 단어 후보들을 산출하며, 이는 "입력 시퀀스 해석" 또는 "선택 리스트 선택"으로 칭하기도 할 수 있다. 더욱 특정한 예로서, 단어 리스트(156a)가 사용될 수 있다.
일 실시예에 있어서, 엔진(130, 115a, 115b)들 중 하나는 사용자 입력을 처리하여(단계 604), 이제까지의 사용자 입력에 대한 가능한 해석본을 결정한다. 각각의 단어 후보는 다음의
(1) 그 사용자 입력이 어간, 어근, 접사, 또는 음절을 형성하는 단어;
(2) 그 사용자 입력이 하나 이상의 단어 또는 단어의 일부를 형성하는 어구;
(3) 사용자 입력에 의해 표시되는 완전한 단어 중 하나를 구비한다.
따라서, "단어 후보"에서 "단어"라는 용어는 기술적인 의미에서 "단어"를 반드시 제한하지 않고서 편리한 설명을 위하여 사용된다. 일부 실시예에 있어서, 고도의 고착형 언어들 및 주어와 목적어 및 기타의 관사들에 부가 또는 첨부하는 동사-중심의 어구 구조들을 갖는 언어와 같이, "어근" 단어만을 위한 사용자 입력(단계 602)이 필요하다. 또한, 해석본(604)은 (1) 각각의 후보가 사용자 입력에 해당하는 문자들로 시작하도록 (2) 각각의 후보가 사용자 입력에 해당하는 문자를 포함하도록 수행될 수 있으며, 문자들은 후보의 시작 단어와 말단 단어 사이에서 발생한다.
수동 키-입력(102b)이 터치 스크린 디바이스에 표시되는 자동 수정 키보드인 경우와 같은 다양한 실시예에 있어서, 해석본(604)은 사용자 입력의 최선의 해석본인, 소망하는 단어가 아직 언어 데이터베이스(119) 내에 있지 않다면 사용자가 선택할 수 있는(단계 614), 각각의 스타일러스 탭에 가장 근접한 문자와 같은, 각각의 문자를 포함하는 문자 시퀀스(명확한 해석본 또는 "정확한-탭" 시퀀스)를 포함한다. 수동 키-입력(102b)이 표준 전화 키패드와 같이 감소된 키보드인 경우와 같은 일부 실시예에 있어서, 명확한 해석본은 키 시퀀스의 2-키 또는 다수-탭 해석본이다. 일부 실시예에서, 사용자가 이러한 명확한 해석본을 선택한 후(아래의 단계 614), 디바이스는 자동적으로 또는 사용자 요청 또는 확인에 따라서, 선택 모듈(132)의 지시하에서 어휘에 명확한 해석본을 추가한다.
일례에 있어서, 해석 단계(604)에서는 사용자가 특징 마크가 필요함을 지시하지 않고서 모음의 악센트와 같은 특징을 각각의 단어의 적당한 문자에 위치시킨다.
단계 606에서, 하나 이상의 엔진들(115, 130, 115a, 115b)은 사용자 의도를 나타내는 확률에 따라서 후보 단어들을 랭크시킨다. 랭킹 동작(606)은, 후보 단어가 어휘(156)에 있는지 여부; 일반적인 사용에서의 후보 단어의 사용 빈도; 사용자에 의해 후보 단어의 사용 빈도 등의 기준을 이용할 수 있다. 랭킹 동작(606)을 위한 사용 빈도 및 기타의 이러한 데이터는 어휘 모듈(156) 및/또는 언어 데이터베이스(119)로부터 취득될 수 있다. 단계 606은 선택사항이며, 처리 수고, 시간, 메모리, 등의 보전을 위해 생략될 수 있다.
단계 608에서, 프로세서(140)는 사용자에 의한 보기를 위해 인터페이스(102)에서 후보들을 가시적으로 나타낸다. 후보들이 랭크되는(단계 606에 해당) 실시예에 있어서는, 단계 608의 프리젠테이션이 이러한 순서를 나타낼 수 있다. 선택적으로는, 단계 608에서는, 예를 들어, 표시된 커서 위치에 후보를 삽입하거나, 또는 굵은체, 하이라이트, 밑줄 등의 또 다른 기법을 활용하여 주의를 환기시키도록 최상위 랭크된 후보를 표시할 수 있다.
단계 610에서, 프로세서(140)는 디스플레이(102e) 또는 오디오-아웃(102d)을 이용하여 사용자가 입력을 말하도록 권고한다. 또한, 단계 610에서, 프로세서(140)는 음성 입력 디바이스(102c) 및 프론트-엔드 디지타이저(105)를 통해 사용자가 말한 입력을 수신한다. 일례에 있어서, 단계 610은 가청 프롬프트, 예컨대, "단어를 선택하세요"라고 말하는 합성 음성; 예컨대, "어구를 말하고 선택하세요"를 표시하는 가시적 메시지, 예컨대, 커서 표현의 변화 또는 LED를 점등시키는 등의 아이콘상의 메시지; 예컨대, 표시 주제, 컬러, 등의 변화와 같은 그래픽적 메시지; 또는 기타의 적합한 프롬프트를 구비한다. 일 실시예에 있어서, 단계 610'의 사용자 입력의 권고는 생략될 수 있으며, 이러한 경우 프롬프트가 수반된다.
일 실시예에 있어서, 디바이스(100)는 소수의 고유 입력을 나타내는 제한된 발성 어조의 셋트(감소된 키패드의 키 수만큼, 또는 스크립트 내의 고유 문자 형태의 수 또는 구두 언어의 자음과 모음의 수)를 권고 또는 허용한다. 그리 혼동되지 않는 경우는 작고 뚜렷한 어조가 선택되어, 높은 인식 정확도를 가져오며, 단어 기반 및/또는 어구 기반의 명확화 엔진을 이용하여 텍스트로 변환된다. 이러한 능력은 잡음이 많거나 개인적이지 않은 환경에서 특히 유용하며, 음성의 사용을 제한하는 임시 또는 영구적인 불능을 갖는 사람에게는 절대 불가결하다. 인식된 어조는 입 소리(mouth click) 및 기타의 비구두적인(non-verbal) 소리들을 포함할 수 있다.
단계 612에서, 언어 패턴 인식 엔진(111)은 단계 610으로부터의 사용자의 구두 입력을 나타내는 데이터에 대하여 음성 인식을 적용한다. 일례에서, 음성 인식(612)은 156a 및 156b에서 단어들 및/또는 어구들의 어휘를 이용한다. 또 다른 예에서, 음성 인식(612)은 (602로부터의) 초기 수동 입력과 매칭하는 가장 가능성 있는 해석본, 또는 단계 608에서 표시되는 후보들과 같은 제한된 어휘를 활용한다. 대안으로서, 초기 수동 입력과 매칭하는 가능한 단어 및/또는 어구들, 또는 가장 가능성 있는 해석본들은 음성 인식 단계의 어휘목록(lexicon)으로 기능한다. 이는 부정확하고 부적합한 구두 입력의 해석본들을 제거하는데 도움이 된다.
일 실시예에 있어서, 단계 612는 어쿠스틱 입력 신호를 그 문맥에 주어진 잠재적인 단음들(phones)에 매칭되는 디지털 벡터 시퀀스로 변환하는 디코더 등의 성분에 의해 수행된다. 디코더(109)는 음성적 형태를 어휘목록 및 언어 모델에 매칭시켜, 각각의 어조에 대하여 단어 및/또는 어구들의 N개의 최선의 리스트를 생성한다. 멀티모달 명확화 엔진(115d)은 이들을 수동 입력에 대하여 필터링하여, 양측 리스트에 나타나는 단어들만이 유지되도록 한다.
따라서, 각각의 전화 키에 맵핑되는 문자들("2" 상의 "A B C")은 통상 청각적으로 유사하지 않기 때문에, 사용자가 "7" 키("P Q R S"를 포함)가 아니라 "2" 키("A B C"를 포함)를 눌렀다면, 시스템은 다소 불명확한 파열음 [b] 또는 /p/ 등의 소리가 "p"를 구성할 가능성을 효율적으로 배제할 수 있다. 마찬가지로, 시스템은 해석중인 불명확한 문자가 "I O P"의 이웃이 아니라 "V B N"의 이웃에서 자동 수정 QWERTY 키보드를 눌러 이루지는 경우 "p"를 배제할 수 있다. 마찬가지로, 시스템은 불명확한 육필 문자가 "P" 또는 "R" 보다 "B" 또는 "3" 에 가까운 경우, "p"를 배제할 수 있다.
선택적으로는, 사용자가 스페이스와 같은 언어에 합당한 입력에 의해 구분되어, 하나 이상의 단어의 일부 또는 전부를 연속적으로 입력하면, 언어 패턴 인식 엔진(111) 또는 멀티모달 명확화 엔진(115d)은 그 정보를 가이드로 사용하여 사용자의 연속적인 발성을 분절화하고, 단어들 간의 경계를 찾는다. 예를 들어, 주변의 음소들의 해석본이 스페이스로 구분된 2개의 구분 입력과 매칭하면, 시스템은 연속적인 어조를 2개의 별도의 단어로 분리시킬 최선의 장소를 결정한다. 또 다른 실시예에서, "사운덱스(soundex)" 규칙은 사용자가 우발적으로 수동 입력 시퀀스에서 문자를 추가 또는 누락하는 것의 발생을 해결하는 등, 최고 점수의 음성 인식 해석본을 더욱 잘 매칭시키기 위하여 수동 입력 해석본을 수정 또는 무효(override)로 한다.
단계 614는 멀티모달 명확화 엔진(115d), 선택 모듈(132), 등의 성분에 의해 수행된다. 단계 614는 이하의 액션들 중 하나 이상을 수행한다. 일 실시예에 있어서, 후보들 중 하나와 매칭하는 어조를 형성하는 인식된 발성에 응답하여, 디바이스는 후보를 선택한다. 즉, 사용자가 표시된 후보들 중 하나를 말하여 이를 선택한다. 또 다른 실시예에서, 후보의 확장형을 형성하는 인식된 발성에 응답하여, 디바이스는 확장된 후보를 선택한다. 이의 한 예로서, 표시된 후보 리스트가 "national"을 포함하는 경우, 사용자는 "nationality"를 말하여, 디바이스가 "nationality"를 선택하도록 한다. 또 다른 실시예에서, 후보들 중 하나를 확장하도록 커맨드(command)를 형성하는 인식된 발성에 응답하여, 멀티모달 명확화 엔진(115d) 또는 성분들(115 및 132) 중 하나는 어휘(156) 또는 언어 데이터베이스(119)로부터 하부로서 후보를 포함하는 하나 이상의 단어 또는 어구들을 검색하고, 이들을 사용자가 선택하도록 가시적으로 제공한다. 확장형은 접두사, 접미사, 어근, 음절, 또는 기타의 서브컴포넌트로서 후보를 갖는 단어들을 포함할 수 있다.
선택적으로는, 음소 인식 엔진(134) 및 언어 패턴 인식 엔진(111)은 실제로 선택된 후속하는 단어 또는 어구 해석본들을 원래의 발음 데이터와 비교함으로써 인식 정확도를 개선하도록 공지된 음성 인식 기능을 채용할 수도 있다.
동 작 예
도 7 내지 도 11은 도 6을 확장하여 다양한 예시적인 시나리오들을 나타낸다. 도 7은 입력을 완료하기 위하여 문자들을 입력하기 위해 육필을 사용하고 음성을 사용하는 것을 나타내는, 디스플레이(701)의 컨텐츠를 나타낸다(102e의 예로서 기능함). 먼저, 단계 602에서, 디바이스는 이하의 사용자 입력을 수신한다. 디지타이저(700)에서 육필된 문자 "t e c". 디바이스(100)는 문자들을 해석하고(604) 랭크시켜(606), 랭크된 후보들의 가시 출력(702/704)을 제공한다. 화면 크기의 제한으로 인하여, 후보 전부가 리스트(702/704)에 제공되는 것은 아니다.
"tec"는 어휘에서 단어가 아닐지라도, 디바이스는 후보 단어들(704) 중 하나로 이를 포함한다(단계 604). 즉, "tec"는 "정확한-탭" 단어 선택으로서, 즉, 각각의 개별 문자의 최선의 해석으로서 나타난다. 디바이스(100)는 자동으로 최상위 랭크된 후보(702)를 다른 것들과는 구별되는 방식으로 나타낸다. 본 예에 있어서, 최상위 랭크된 후보 "the"는 리스트(700)의 첫 번째에 나타나 있다.
단계 610에서, 사용자는 시스템이 제안한 단어 "the"가 아니라, 단계 602에서 입력된 바와 같은 단어를 선택하기 위하여 /tek/ 를 말한다. 대안으로서, 사용자는 "second"를("tec"는 리스트(704)에서 두번째이므로) 발음할 수도 있으며, 또는 리스트(704)로부터 "tec"를 선택하기 위하여 또 다른 입력을 발음할 수도 있다. 디바이스(100)는 사용자의 선택으로서 단어를 수신하고(단계 614), 도 8에 도시된 바와 같이 커서에 "t-e-c"를 입력한다. 단계 614의 일부로서, 디바이스는 후보 리스트(704)의 프리젠테이션을 제거한다.
다른 실시예에 있어서, 도 7을 참조하면, 사용자는 "t", "e", "c"를 입력하였지만(단계 602), 전체 단어 "technology"를 입력하고 있는 중이다. 본 실시예에서, 디바이스는 랭크된 후보들의 시각적 출력(702/704)을 제공하며, 도 7에서와 같이 커서에 인접한 최상위 랭크된 후보(702에서)를 자동으로 입력한다. 그러나, 도 8과 비교하여, 그 후 사용자는 "tec"의 확장형으로서 이를 선택하기 위하여 /teknol[delta]je/를 발음한다(610). 리스트(702/704)에서 보이지는 않지만, 단어 "technology"는 후보의 리스트에는 포함되어 있으며, 리스트의 사용자 스크롤링으로 도달될 수도 있다. 여기서, 사용자는 스크롤링을 생략하고, /teknol[delta]je/를 발음하고, 이 지점에서 디바이스는 사용자 선택으로서 "technology"를 수신하고(단계 614), 도 9에 도시된 바와 같이 커서에서 "technology"를 입력한다. 단계 614의 일부로서, 디바이스는 후보 리스트(704)의 프리젠테이션을 제거한다. 도 10은 문자를 입력하기 위해 온-스크린 키보드를 사용하고 입력을 완료하기 위해 음성을 사용하는 것을 나타내는 상이한 예를 설명한다. 예를 들어, 온-스크린 키보드는 미국 특허 제6,081,190호에 교시된 바와 같이 구현될 수 있다. 도 10에 예에 있어서, 사용자는 스타일러스로 문자 T, "e", "c"의 시퀀스를 탭핑한다. 이에 응답하여, 디바이스는 단어 선택 리스트(1002), 즉, "rev, tec, technology, received, recent, record"를 나타낸다(단계 608). "technology"(리스트(1002) 내에서 볼 수 있음) 또는 "technical"(보이지는 않지만, 리스트(1002) 내에 존재)과 같은, 리스트(1002) 내의 단어의 사용자 발성(610)에 응답하여, 디바이스는 사용자의 의도 등을 접수하고(단계 614), 커서(1004)로 단어를 입력한다.
도 11은 문자를 입력하기 위해 감소한 키의 키보드를 사용하고(각각의 키는 다수의 영숫자 문자들에 해당함), 입력을 완료하기 위해 음성을 사용하는 것을 나타내는 다른 예를 설명한다. 본 예에 있어서, 사용자는 문자 "t", "e", "c"의 시퀀스를 나타내는 하드 키 8 3 2 를 입력한다(단계 602). 이에 응답하여, 디바이스는 단어 선택 리스트(1102)를 나타낸다(단계 608). "technology"(리스트(1102) 내에서 볼 수 있음) 또는 "teachers"(보이지는 않으나 리스트(1102) 내에 존재함) 등의 리스트(1102) 내의 단어의 사용자 발성(610)에 응답하여, 디바이스는 사용자의 의도 등을 수신하고(단계 614), 커서(1104)로 선택된 단어를 입력한다.
표의 언어에 대한 예
광범위하게, 본 개시의 많은 양태들은 감소된 키보드 또는 육필 디지타이저로 디바이스상에 표의 문자로 표기된 언어에 대한 텍스트 입력 시스템에 적용가능하다. 예를 들어, 표준 전화 키 "7"을 누르는 것은 음절 "qing" 또는 "ping"의 입력을 시작한다(여기서, 병음 문자 "P Q R S"는 "7" 키에 맵핑됨); 소망하는 음정 /tsing/을 말한 후에, 시스템은 첫 번째 음소(grapheme)는 실제로 "p"가 아니라 "q"인 것으로 즉시 판단할 수 있다. 마찬가지로, 스트로크 순서의 입력 시스템에서는, 사용자가 소망하는 문자에 대하여 첫 번째 스트로크 카테고리를 나타내는 하나 이상의 키들을 누른 후에, 음성 인식 엔진은 이러한 스트로크 카테고리로 시작하는 중국어 문자들 만의 발음에 대해서 매칭시킬 수 있으며, 양측 입력의 보다 나은 해석을 제공할 수 있다. 마찬가지로, 육필 표의 문자 인식 엔진을 이용하여 하나 이상의 문자를 표기하기 시작하는 것은, 음성 해석을 안내하거나 필터링할 수 있으며, 분석중인 어휘목록을 감소시킬 수 있다.
불명확한 스트로크 순서의 입력 시스템 또는 육필 인식 엔진이 어느 육필 스크로크가 의도된 것인지 확실하게 결정할 수 없지만, 스트로크 해석과 어쿠스틱 해석의 조합은 입력의 2개의 양상(modality)을 충분히 명확화한다. 본 개시의 일 실시예에 있어서, 음성 인식 단계는 표의 언어들에 대한 종래의 스트로크 순서의 입력 또는 육필 시스템의 입력 시퀀스에 기초하여 표시되는 것들로부터 문자, 단어, 또는 어구를 선택하는데 사용된다. 또 다른 실시예에 있어서, 음성 인식 단계는 표음 입력 시스템의 또 다른 불명확성에 대하여 음색 정보(tonal information)를 추가하는데 사용된다. 표의 언어에 관한 세부적인 구현은 이하에서 더욱 상세하게 설명한다.
도 12는 본 개시의 방법 양태의 또 다른 일례를 나타내기 위한 시퀀스(1200)를 나타낸다. 본 시퀀스는 표의 문자를 구비한 단어 및 어구의 사용자 입력을 돕기 위하여 내재적으로 불명확한 사용자 입력을 해석하도록 동작한다. 이러한 예들에서는 "표의(ideographic)"라는 용어가 사용되지만, 동작들(1200)은 많은 다른 표어(logographic), 표의, 일자 일어법(lexigraphic), 몰포-실러빅(morpho-syllabic), 또는 개별 단어들, 개념들, 음절들, 형태소들 등을 나타내기 위하여 문자를 이용하는 기타의 서체 시스템들로 구현될 수도 있다. 여기서 표의 문자라는 표현은 제한 없이 사용되며, 중국어 픽토그램(pictograms), 중국어 이디오그램(ideograms), 중국어 직설체(indicative), 중국어 소리-형태 병음(phonologograms), 일본어 문자(Kanji), 한국어 문자(Hanja) 및 기타의 시스템들을 포함할 것이다. 또한, 시스템(100)은 전통적인 중국 문자, 간략한 중국문자, 도는 또 다른 표준 등의 특정의 표준으로 구현될 수 있다. 용이한 설명을 위해, 그러나 어떠한 의도된 제한 없이, 도 12의 예는 전술한 바와 같이 도 1의 문맥에서 설명된다.
단계 1202에서, 입력 디바이스(102a/102b) 중 하나는 하나 이상의 의도된 표의 문자 또는 서브컴포넌트들을 식별하기 위해 사용되는 사용자 입력을 수신한다. 사용자 입력은 육필 스트로크, 육필 스트로크의 카테고리, 발음 스펠링, 음색 입력, 등을 지정할 수 있다. 디바이스(100)의 구조에 따라서, 본 행동은 상이한 방법으로 실행될 수 있다. 일례는 전화 키패드(102b)를 통해 사용자 입력을 수신하는 것을 포함하며, 여기서, 각각의 키가 스트로크 카테고리에 해당한다. 예를 들어, 특정의 키는 모든 하향 경사의 스트로크를 나타낼 수도 있다. 또 다른 예는 육필 디지타이저(102a) 또는 조이스틱 같은 방향성 입력 디바이스(102)를 통해 사용자 입력을 수신하는 것을 포함하며, 여기서 각각의 제스쳐는 스트로크 카테고리에 맵핑된다. 일례에 있어서, 단계 1202는 소망하는 하나 이상의 표의 문자를 입력하기 위해 사용자가 작성한 육필 스트로크 입력을 인터페이스(102)가 수신하는 것을 포함한다. 또 다른 선택사항으로서, 단계 1202는 터치 감지 표면 또는 소형 기계 키들의 어레이를 위한 자동 수정 키보드 시스템(102b)에 의해 실행될 수도 있으며, 여기서, 사용자는 하나 이상의 표의 문자의 발음 스펠링, 성분, 또는 스트로크 중 대략 일부 또는 모두를 입력한다.
그 각각이 본 명세서에 참조로서 포함되는, 이하의 참조 문서들로 단계 1202에서 입력을 수신하기 위한 다양한 선택사항들을 설명한다. 미국 출원번호 제10/631,543호(2003년 7월 30일자 출원) "System and Method for Disambiguating Phonetic Input", 미국 출원번호 제10/803,255호(2004년 3월 17일자 출원) "Phonetic and Stroke Input Methods of Chinese Characters and Phrases", 미국 출원번호 제60/675,059호(2005년 4월 25일자 출원) "Word and Phrase Prediction System for Handwriting", 미국 출원번호 제10/775,483(2004년 2월 9일자 출원) "Keyboard System with Automatic Correction", 미국 출원번호 제10/775,663호(2004년 2월 9일자 출원) "System and Method for Chinese Input Using a Joystick".
또한, 단계 1202에서, 임의의 다른 사용자 입력에 무관하게, 디바이스는 첫 번째 어휘에 대하여 수신된 사용자 입력을 해석하여, 각각 적어도 하나의 표의 문자를 구비하는 다수의 후보들을 산출한다. 더 구체적으로, 디바이스는 어휘(156)(예컨대, 156a)로부터 열거되는 문자에 대하여 수신된 스트로크, 스트로크 카테고리, 스펠링, 음색, 또는 기타의 수동 사용자 입력을 해석하고, 사용자의 수동 입력에 맞는 어휘 내의 결과적인 후보들을 식별한다. 단계 1202에서는, 예컨대, 육필 입력에 대하여, 패턴 인식 및/또는 스트로크 필터링을 선택적으로 수행하여 이제까지의 사용자 입력을 나타낼 수 있는 그러한 후보 문자들을 식별할 수 있다.
선택사항인 단계 1204에서, 명확화 엔진(115)은 사용자가 입력으로 무엇을 의도하였는지를 표현하는 가능성에 기초하여 식별된 후보 문자들을 (1202로부터) 순서화한다. 이러한 랭킹은 (1) 다양한 육필 또는 육성 형태에서 각각의 문자의 일반적인 사용 빈도, (2) 사용자 자신의 사용 빈도 또는 근접도, (3) 전후 문자들에 의해 생성되는 문맥, (4) 기타의 인자들 등의 정보에 기초할 수 있다. 빈도 정보는 명시적으로 또는 암시적으로 언어 데이터베이스(119)에 기억될 수 있거나, 또는 필요에 따라 계산될 수 있다.
단계 1206에서, 프로세서(140)는 활용가능한 표시 공간의 사이즈 및 기타의 제약 조건들에 따라서 디스플레이(102e)가 (1202 또는 1204로부터) 후보들 중 전부 또는 일부를 가시적으로 표현하도록 한다. 선택적으로는, 디바이스(100)는 후보들을 스크롤링 리스트의 형태로 표현할 수도 있다.
일 실시예에 있어서, 단계 1206의 표시 동작은 각각의 새로운 사용자 입력 후에 반복되어(1204, 1206), 후보들의 표현된 셋트를 지속적으로 갱신하며(대부분의 경우, 좁힘), 사용자가 후보 문자를 선택하거나 입력을 계속하도록 허용한다(1202). 또 다른 실시예에 있어서, 시스템은 구성하는 문자들 중 어느 것이라도 표시되기 전에(1206) 전체 단어 또는 어구에 대한 입력이 이루어지도록 한다(1202).
일 실시예에 있어서, 단계 1202, 1204, 및 1206은 단일 문자 후보 및 다수 문자 후보 양측 모두를 수용할 수 있다. 여기서, 현재의 입력 시퀀스가 단어 또는 어구 내에서 하나 이상의 문자를 표현한다면, 단계 1202, 1204 및 1206에서는 단일 문자 후보가 아니라 다수 문자 후보들을 식별하고, 랭크시키고 표시한다. 본 실시예를 구현하기 위하여, 단계 1202에서는 사용자가 입력을 중단하고 다음 문자에 대하여 이들을 입력하기 시작하게 되는 예컨대 스트로크 등의 시스템에 대한 신호로서 소정의 구획 문자를 인식할 수 있다. 이러한 구획 문자는 (스페이스 또는 기타의 소정의 키와 같이) 특별히 입력될 수도 있으며, 또는 (상이한 표시 박스 또는 화면 영역에 상이한 문자를 입력하는 등으로) 사용자 입력의 환경으로부터 암시될 수도 있다.
(전술한) 음성 인식 기능을 호출하지 않고서, 사용자는 인터페이스(102)를 동작시키도록 진행하여(단계 1212) 단계 1206에서 표현된 선택들 중 하나를 수용할 수도 있다. 대안으로서, 사용자가 아무런 선택도 하지 않는다면(1212), 단계 1206은 자동적으로 단계 1208에 진행하여 음성 입력을 수신할 수도 있다. 또 다른 선택사항으로서, 단계 1206에서의 인터페이스(102)는 가청 프롬프트, 가시적인 메시지, 도안(iconic) 메시지, 그래픽 메시지, 또는 기타의 프롬프트로 사용자가 말하도록 자동으로 프롬프트할 수 있다. 사용자 발성에 따라서, 시퀀스(1200)는 1206으로부터 1208로 통과한다. 또 다른 대안으로서, 인터페이스(102)는 사용자가 "talk" 버튼을 누르도록 요구하거나(단계 1206), 또는 마이크로폰을 사용할 수 있도록 다른 동작을 취하고, 음성 인식 단계(1208)를 호출할 수 있다. 또 다른 실시예에서, 수동 입력 및 음성 입력은 거의 동시이거나 중첩하고 있다. 실제로, 사용자는 타이핑하는 것을 소리로 내고 있다.
단계 1208에서, 시스템은 프론트-엔드 디지타이저(105)를 통해 사용자의 구두 입력을 수신하고, 언어 패턴 인식 엔진(111)은 음성 인식을 사용자의 구두 입력을 표현하는 데이터에 적용한다. 일 실시예에 있어서, 언어 패턴 인식 엔진(111)은 발음 형태를 (언어 데이터베이스(119)에 기억된) 음절 및 단어의 어휘목록에 매칭시켜, 각각의 발성에 대한 음절, 단어, 및/또는 어구의 N개의 최선의 리스트를 생성한다. 이에 따라서, 명확화 엔진(115)은 N 개의 최선의 리스트를 이용하여 스트로크 입력으로부터의 단일 문자 혹은 다수 문자 후보들의 발음 스펠링을 매칭시켜, 그 발음 형태가 N 개의 최선의 리스트에 나타나는 후보들만이 유지된다(또는 단계 1210에서 최상위에 랭크된다). 또 다른 실시예에서, 시스템은 수동으로 입력된 발음 스펠링을 어휘목록과 언어 모델로 사용하여 구두 입력을 인식한다.
일 실시예에 있어서, 수동 입력 양상(modality)으로부터 입력 중 일부 또는 전부는 각각의 음절의 첫 번째 문자만을 또는 각각의 단어의 자음만을 표현한다. 시스템은 음절 또는 자음 마커를 이용하여 음성 입력을 인식하고 점수를 매기고, 단어 또는 어구에 대하여 적절한 수반하는 문자 또는 모음을 채운다. 일본어 텍스트의 입력을 위하여, 예를 들어, 각각의 키보드 키는 50개의 사운드 테이블 내의 자음 행에 맵핑되고, 음성 인식은 각각의 음절에 대하여 적절한 모음 또는 "단"을 결정하도록 돕는다. 또 다른 실시예에서, 수동 입력 양상으로부터의 입력 중 일부 또는 전부는 명확하다. 이는 도 1에서 단어 명확화 엔진(115a)의 필요를 줄이거나 제거할 수는 있지만, 여전히, 소망하는 완전한 단어 또는 상기 다른 모든 가능한 완성본에 우선 순위를 매기기 위하여 멀티모달 명확화 엔진(115d)가 음성 입력을 매칭시키거나, 개입 모음을 식별하도록 요구한다.
또한, 인도어와 같은 일부 언어에서는, 어휘 모듈이 유효한 하부단어(sub-word) 시퀀스의 템플릿을 채용하여, 앞의 입력들과 단어 후보들을 고려하여 어느 단어 성분 후보들이 가능한지를 결정한다. 다른 언어들에서, 성별에 기초한 발음 법칙은 소망하는 텍스트 형태를 더 명확화하고 인식하는 것을 돕는다.
단계 1208은 상이한 방법으로 수행될 수 있다. 하나의 선택사항에서, 인식된 음성이 1206에서부터 후보들 중 하나의 발음표기를 포함하는 발성을 형성한다면, 프로세서(102)는 그 후보를 선택한다. 다른 선택사항에서, 인식된 음성이 임의의 후보의 발음 형태의 발음표기를 포함하는 발성을 형성하는 경우, 프로세서는 디스플레이를 갱신하여 (1206으로부터), 그러한 후보와는 다른 문자들을 누락시킨다. 또 다른 선택사항에서, 인식된 음성이 후보들의 부분집합 중 어느 것을 잠재적으로 발음하는 발성이라면, 프로세서는 부분집합의 후보들과는 다른 것들을 누락시키도록 디스플레이를 갱신한다. 또 다른 선택사항에서, 인식된 음성이 하나 이상의 후보에 해당하는 하나 이상의 음색 특징을 포함하는 발성인 경우, 프로세서(102)는 디스플레이를 갱신하여 (1206으로부터), 그 후보와 다른 문자들을 누락시킨다.
단계 1208 이후, 단계 1210에서는, 잔여 후보들을 음성 입력 등의 인자들에 따라서 랭크시킨다. 예를 들어, 언어 패턴 인식 엔진(111)은, 스트로크 또는 다른 사용자 입력 및 음성 입력의 가장 확률이 높은 해석본이 각각의 문자, 단어, 또는 어구의 빈도 정보와 결합하여 가장 확률이 높은 후보들을 사용자에게 선택을 위해 제공하도록, 멀티모달 명확화 엔진(115d)에 확률 정보를 제공할 수도 있다. 추가 예로서, 랭킹(1210)은 각종의 육필 또는 구두의 형태에서 각 문자의 일반적인 사용 빈도, 사용자 만의 사용 빈도 또는 근접도, 전후 문자들에 의해 생성되는 문맥 등의 상이한 또는 추가의 인자들을 포함할 수 있다.
단계 1210 후, 단계 1210에서 마련된 문자/어구 후보들을 표시하기 위하여 단계 1206가 반복된다. 그 후, 단계 1212에서, 디바이스는, 스타일러스로 소망하는 후보를 탭핑하는 등의, 몇몇 입력 수단(102a/102c/102b)에 의해 지시되는 단일 문자 후보 또는 다수 문자 후보의 사용자 선택을 수신한다. 시스템은 사용자가 선택을 하거나, 전술한 바와 같이, 가시 수단, 가청 수단, 또는 기타 수단을 통해 추가의 스트로크 또는 음성을 입력하도록 프롬프트할 수 있다.
일 실시예에 있어서, 최상위 랭크된 후보는 사용자가 다음 문자에 대한 수동 입력 시퀀스를 시작하는 때에 자동으로 선택된다. 또 다른 실시예에서, 멀티모달 명확화 엔진(115d)이 단계 1210에서 다른 것들보다 상위의 하나의 후보를 식별하고 랭크시킨다면, 시스템(100)은 더 이상의 사용자 입력을 대기하지 않고 단계 1212에서 자동으로 그 후보를 선택하도록 진행할 수 있다. 일 실시예에 있어서, 선택된 표의 문자 또는 문자들은 현재의 애플리케이션의 텍스트 입력 필드의 삽입 지점에 추가되고, 입력 시퀀스는 클리어된다. 표시되는 후보들의 리스트는 그 후 가장 가능성 있는 문자들이 위치되어, 방금 선택된 문자들을 따를 수 있다.
다른 실시예들
상기 개시에서는 다수의 예시적인 실시예들을 나타내었지만, 다양한 변경예 또는 변형 예들이 청구범위에 첨부된 바와 같은 본 발명의 범주를 일탈하지 않고서 이루어질 수 있다는 것은 당업자에게 명백할 것이다. 또한, 본 발명의 구성 요소들이 단수로 설명 또는 청구될 수 있으나, 단수에 대한 제한이 명백히 설명되지 않는 한 복수가 계획될 수도 있다. 또한, 당업자는 설명과 청구범위 작성을 위해서 동작 시퀀스들이 특정한 몇몇 순서로 규정되어야 하지만, 본 발명은 이러한 특정 순서 외의 다양한 변화를 내포한다는 것을 알 수 있을 것이다.
또한, 당업자는 다양한 상이한 기술과 기법들을 이용하여 정보 및 신호들이 표현될 수 있다는 것을 이해할 것이다. 예를 들어, 본 명세서에서 참조된 임의의 데이터, 명령어, 커맨드, 정보, 신호, 비트, 심볼 및 칩들은 전압, 전류, 전자기파, 자기장, 또는 입자, 광학 필드 또는 입자, 기타의 항목 또는 상기의 조합으로 표현될 수 있다.
또한, 당업자는 본 명세서에서 설명한 임의의 예시적인 논리 블록, 모듈, 회로 및 처리 단계들은 전자 하드웨어, 컴퓨터 소프트웨어 또는 이들의 조합으로서 구현될 수 있다는 것을 이해할 것이다. 하드웨어와 소프트웨어의 이러한 상호교환성을 명백히 설명하기 위하여, 일반적으로 기능을 수단으로, 각종 예시적인 성분들, 블록들, 모듈들, 회로들 및 단계들이 상기에서 설명되었다. 이러한 기능이 하드웨어로 구현될지 소프트웨어로 구현될지는 특정 애플리케이션 및 전체 시스템에 부과되는 설계 제약사항에 의존한다. 당업자는 설명된 기능들을 각각의 특정 어플리케이션에 대하여 변화하는 방법으로 구현할 수 있으나, 이러한 구현 결정은 본 발명의 범주로부터의 일탈시키는 것으로 해석되지는 않아야 한다.
본 명세서에서 개시된 실시예들과 연계하여 설명된 각종의 예시적인 논리 블록들, 모듈들, 및 회로들은 본 명세서에서 설명된 기능들을 수행하도록 설계되는, 범용 프로세서, DSP, ASIC, FPGA, 또는 기타의 프로그래머블 논리 디바이스, 이산 게이트 또는 트랜지스터 논리, 이산 하드웨어 성분, 또는 임의의 이들의 조합으로 구현 또는 수행될 수 있다. 범용 프로세서는 마이크로프로세서일 수 있으나, 대안으로서, 프로세서는 임의의 종래의 프로세서, 컨트롤러, 마이크로컨트롤러, 또는 상태 머신일 수 있다. 프로세서는, 예컨대, DSP와 마이크로프로세서의 조합, 복수의 마이크로프로세서, DSP 코어와 연결된 하나 이상의 마이크로프로세서, 등의 컴퓨팅 디바이스의 조합, 또는 임의의 다른 이러한 구성으로서 구현될 수도 있다.
본 명세서에 개시된 실시예와 연계하여 설명된 방법 또는 알고리즘의 단계들은, 하드웨어에서, 프로세서에 의해 실행되는 소프트웨어 모듈에서, 또는 이 둘의 조합에서 직접적으로 실시될 수 있다. 소프트웨어 모듈은 RAM 메모리, 플래쉬 메모리, ROM 메모리에 상주할 수 있다. EPROM 메모리, EEPROM 메모리, 레지스터, 하드 디스크, 착탈식 디스크, CD-ROM, 또는 임의의 다른 유형의 기억 매체가 당업계에 알려져 있다. 일례의 기억 매체는 프로세서에 결합하여, 이러한 프로세서가 기억 매체에 정보를 판독 및 출력할 수 있도록 한다. 대안으로서, 기억 매체는 프로세서에 집적될 수도 있다. 프로세서 및 기억 매체는 ASIC 에 상주할 수도 있다. ASIC은 무선 통신 디바이스에 상주할 수도 있다. 대안으로서, 프로세서 및 기억 매체는 이산 성분으로서 무선 통신 디바이스에 상주할 수도 있다.
개시된 실시예들에 대한 앞의 설명은, 당업자 누구라도 본 발명을 이루거나 이용할 수 있도록 제공된다. 이들 실시예에 대한 다양한 변형 예는, 당업자에게 쉽게 명백할 것이며, 본 명세서에서 정의된 포괄적인 이론은 본 발명의 개념 또는 범주로부터 일탈하지 않고서 다른 실시예들에 적용될 수도 있다. 따라서, 본 발명은 본 명세서에 나타낸 실시예들을 제한하고자 의도한 것이 아니며, 본 명세서에 개시된 원리와 새로운 특성에 부합하는 가장 넓은 범위가 부여되어야 한다.

Claims (24)

  1. 수동 텍스트 입력 도구를 통해 수신되는 내재적으로 불명확한 사용자 입력을 해석하는 동작들을 수행하도록 프로그래밍된 디지털 데이터 처리 디바이스로서,
    상기 동작들은:
    수동 텍스트 입력 도구를 통해, 다수의 상이한 텍스트의 가능한 조합들인 불명확한 사용자 입력을 수신하는 단계;
    사용자의 다른 입력에 무관하게, (1) 사용자가 입력한 어근, 어간, 음절, 접사 중 하나로 형성되는 단어 (2) 사용자가 입력한 단어로 형성되는 어구 (3) 사용자가 입력한 단어 중 적어도 하나의 종류의 다수의 후보들을 산출하도록 어휘(vocabulary)에 대조해서 상기 수신된 사용자 입력을 해석하는 단계;
    사용자가 볼 수 있도록 상기 후보들의 리스트를 가시적으로 나타내는 단계;
    상기 디바이스가 구두의 사용자 입력을 수신함에 따라, 상기 구두의 사용자 입력에 대한 음성 인식을 수행하는 단계; 및
    상기 후보들 중 하나의 발성을 구비하는 상기 인식된 음성에 응답하여, 상기 후보를 구비하는 출력을 제공하는 것을 포함하는 일군의 액션(action)들 중 하나 이상의 액션을 수행하는 단계를 포함하는
    디지털 데이터 처리 디바이스.
  2. 제1항에 있어서,
    상기 일군의 액션들은,
    후보의 확장형을 구비하는 인식된 음성에 응답하여, 상기 후보의 확장형을 구비하는 출력을 제공하는 단계를 더 포함하는
    디지털 데이터 처리 디바이스.
  3. 제1항에 있어서,
    상기 일군의 액션들은,
    상기 후보들 중 하나를 확장하기 위한 커맨드를 구비하는 상기 인식된 음성에 응답하여, 상기 후보를 하부 부분으로서 포함하는 입력들에 대한 어휘를 검색하여, 검색에 의해 발견된 하나 이상의 입력을 가시적으로 나타내는 단계;
    확장 커맨드를 형성하는 인식된 음성에 응답하여, 단어 완성, 접사 추가, 어구 완성, 후보와 동일한 어근을 갖는 추가 단어들로 이루어진 리스트 내의 하나 이상의 후보들 중 적어도 하나를 가시적으로 나타내는 단계 중 적어도 하나를 더 포함하는
    디지털 데이터 처리 디바이스.
  4. 제1항에 있어서,
    상기 일군의 액션들은,
    양측의 리스트에서 발생하는 임의의 후보들을 식별하기 위해 상기 후보들의 리스트를 음성 인식 동작으로부터의 가능한 산출물의 리스트와 비교하는 단계; 및
    상기 식별된 후보들의 리스트를 가시적으로 나타내는 단계를 더 구비하는
    디지털 데이터 처리 디바이스.
  5. 제1항에 있어서,
    상기 일군의 액션들은,
    임의의 후보들의 부분 집합을 잠재적으로 발음하는 발성을 구비하는 상기 인식된 음성에 응답하여, 상기 부분 집합의 후보들의 리스트를 가시적으로 나타내는 단계를 더 포함하는
    디지털 데이터 처리 디바이스.
  6. 제1항에 있어서,
    상기 음성 인식을 수행하는 동작은:
    어휘를 활용하여 상기 구두의 사용자 입력의 음성 인식을 수행하는 단계;
    상기 음성 인식 동작의 결과에 나타나지 않은 후보들을 생략하도록 상기 후보들을 재정의하는 단계; 및
    재정의된 후보들의 리스트를 가시적으로 나타내는 단계를 포함하는
    디지털 데이터 처리 디바이스.
  7. 제1항에 있어서,
    상기 음성 인식을 수행하는 동작은,
    상기 후보들에 실질적으로 제한되는 어휘를 활용하여 상기 구두의 사용자 입력의 음성 인식을 수행하는 단계를 포함하는
    디지털 데이터 처리 디바이스.
  8. 제1항에 있어서,
    각각의 후보가 상기 사용자 입력에 해당하는 문자들로 시작하도록 상기 해석하는 동작이 수행되는
    디지털 데이터 처리 디바이스.
  9. 제1항에 있어서,
    다수의 후보들이 상기 단어들의 시작과 끝 위치가 아닌 곳에 사용자 입력을 나타내는 문자를 포함하는 단어들이 되도록 상기 해석하는 동작이 수행되는
    디지털 데이터 처리 디바이스.
  10. 제1항에 있어서,
    상기 후보들의 종류로서 영숫자(alphanumeric) 텍스트의 문자열을 더 포함하도록 상기 해석하는 동작이 수행되는
    디지털 데이터 처리 디바이스.
  11. 제1항에 있어서,
    상기 종류가 표의 문자들, 표의 문자의 어구들 중 적어도 하나를 더 포함하도록 상기 해석하는 동작이 수행되는
    디지털 데이터 처리 디바이스.
  12. 디지털 데이터 처리 디바이스로서,
    수동 텍스트 입력을 위한 사용자 동작 수단;
    컴퓨터 생성 이미지들을 가시적으로 나타내는 표시 수단; 및
    동작을 수행하기 위한 처리 수단을 구비하고,
    상기 동작은
    상기 사용자 동작 수단을 통해, 다수의 상이한 가능한 텍스트의 조합들을 나타내는 불명확한 사용자 입력을 수신하는 단계,
    사용자의 다른 입력에 무관하게, (1) 사용자가 입력한 어근, 어간, 음절, 접사 중 하나로 형성되는 단어 (2) 사용자가 입력한 단어로 형성되는 어구 (3) 사용자가 입력한 단어 중 적어도 하나의 종류의 다수의 후보들을 산출하도록 어휘(vocabulary)에 대조해서 상기 수신된 사용자 입력을 해석하는 단계;
    사용자가 볼 수 있도록 상기 후보들의 리스트를 가시적으로 제공하도록 상기 표시 수단을 동작시키는 단계,
    구두의 사용자 입력 수신에 응답하여, 상기 구두의 사용자 입력에 대한 음성 인식을 수행하는 단계,
    상기 후보들 중 하나의 발성을 구비하는 상기 인식된 음성에 응답하여, 그 후보를 구비하는 출력을 제공하는 것을 포함하는 일군의 액션들 중 하나 이상의 액션을 수행하는 단계를 포함하는
    디지털 데이터 처리 디바이스.
  13. 수동 텍스트 입력 도구를 통해 수신되는 내재적으로 불명확한 사용자 입력을 해석하는 동작들을 수행하기 위해 디지털 데이터 처리 디바이스를 동작시키도록 구성되는 다수의 상호연결된 전기 도전성 요소들의 회로로서,
    상기 동작들은:
    상기 수동 텍스트 입력 도구를 통해, 다수의 상이한 가능한 텍스트의 조합들인 불명확한 사용자 입력을 수신하는 단계;
    사용자의 입력에 무관하게, (1) 사용자가 입력한 어근, 어간, 음절, 접사 중 하나로 형성되는 단어, (2) 사용자가 입력한 단어로 형성되는 어구, (3) 사용자가 입력한 단어 중 적어도 하나의 종류의 다수의 후보들을 산출하도록 어휘에 대조해서 상기 수신된 사용자 입력을 해석하는 단계;
    사용자가 볼 수 있도록 상기 후보들의 리스트를 가시적으로 나타내는 단계;
    구두의 사용자 입력 수신에 응답하여, 상기 구두의 사용자 입력에 대한 음성 인식을 수행하는 단계;
    상기 후보들 중 하나의 발성을 구비하는 상기 인식된 음성에 응답하여, 상기 후보를 구비하는 출력을 제공하는 것을 포함하는 일군의 액션들 중 하나 이상의 액션을 수행하는 단계를 포함하는
    다수의 상호연결된 전기 도전성 요소들의 회로.
  14. 수동 텍스트 입력 도구를 통해 수신되는 내재적으로 불명확한 사용자 입력을 해석하는 동작들을 수행하도록 프로그래밍된 디지털 데이터 처리 디바이스로서,
    상기 동작들은:
    수동 텍스트 입력 도구를 통해, 육필 스트로크, 육필 스트로크의 카테고리, 발음 스펠링, 음색 입력 중 적어도 하나를 나타내는 불명확한 사용자 입력을 수신하는 단계;
    상기 사용자 입력에 의해 형성 가능한 다수의 후보들을 산출하기 위해(여기서, 상기 후보 각각은 하나 이상의 표의 문자, 하나 이상의 표의 문자의 표의 어근을 구비함) 상기 사용자 입력을 해석하는 단계;
    사용자가 볼 수 있도록 상기 후보들의 리스트를 가시적으로 나타내는 ㄷ단계;
    구두의 사용자 입력을 수신함에 따라, 상기 구두의 사용자 입력에 대한 음성 인식을 수행하는 단계;
    상기 후보들 중 하나의 발음을 포함하는 발성을 구비하는 상기 인식된 음성에 응답하여, 그 후보를 구비하는 출력을 제공하는 것을 포함하는 일군의 액션들 중 하나 이상의 액션을 수행하는 단계를 포함하는
    디지털 데이터 처리 디바이스.
  15. 제14항에 있어서,
    상기 일군의 액션은,
    후보의 확장형을 구비하는 상기 인식된 음성에 응답하여, 상기 후보의 확장형을 구비하는 출력을 제공하는 단계를 더 포함하는
    디지털 데이터 처리 디바이스.
  16. 제14항에 있어서,
    상기 일군의 액션은,
    상기 후보들 중 하나를 확장하기 위한 커맨드를 구비하는 상기 인식된 음성에 응답하여, 하부 부분으로서 상기 후보를 포함하는 입력에 대한 어휘를 검색하는 단계; 및
    상기 검색에 의해 발견된 하나 이상의 입력을 가시적으로 나타내는 단계를 더 포함하는
    디지털 데이터 처리 디바이스.
  17. 제14항에 있어서,
    상기 일군의 액션은,
    상기 인식된 음성이, 다른 발성법(vocalization)과 함께 상기 후보들 중 하나를 포함하는 발성, 상기 후보들 중 하나의 확장형, 상기 후보들 중 하나의 변형 중 하나를 포함하는지를 판정하는 단계; 및
    만일 그렇다면, 상기 후보들의 확장형, 상기 후보의 변형 중 적어도 하나의 해당하는 하나를 가시적으로 나타내는 단계를 더 포함하는
    디지털 데이터 처리 디바이스.
  18. 제14항에 있어서,
    상기 일군의 액션은,
    양측 리스트에서 발생하는 임의의 후보들을 식별하기 위하여 상기 후보들의 리스트를 음성 인식의 가능한 산출물들의 리스트와 비교하는 단계; 및
    상기 식별된 후보들의 리스트를 가시적으로 나타내는 단계를 더 포함하는
    디지털 데이터 처리 디바이스.
  19. 제14항에 있어서,
    상기 일군의 액션은,
    상기 후보들의 부분 집합 중 임의의 것을 잠재적으로 발음하는 발성을 구비하는 인식된 음성에 응답하여, 상기 부분 집합의 후보들의 리스트를 가시적으로 나타내는 단계를 더 포함하는
    디지털 데이터 처리 디바이스.
  20. 제14항에 있어서,
    상기 일군의 액션은,
    상기 후보들의 부분 집합에 배타적으로 대응하는 발음 입력(phonetic input)을 구비하는 인식된 음성에 응답하여, 상기 부분 집합의 후보들의 리스트를 가시적으로 나타내는 단계를 더 포함하는
    디지털 데이터 처리 디바이스.
  21. 제14항에 있어서,
    상기 디바이스는, 복수의 발음 정보 항목을 포함하며, 발음 정보 항목 각각을 하나 이상의 테이블의 항목과 상호 참조시키는, 적어도 하나의 데이터 구조를 갖는 디지털 데이터 저장장치를 더 포함하며, 상기 테이블의 항목 각각은, 하나 이상의 표의 문자, 하나 이상의 표의 어근 중 적어도 하나를 포함하며;
    발음 정보 항목 각각은 하나 이상의 표의 항목의 발음표기, 하나 이상의 표의 항목과 관련되는 하나 이상의 음색의 발음표기 중 하나를 구비하며;
    상기 구두의 사용자 입력의 음성 인식을 수행하는 동작은, 하나 이상의 상호 참조된 표의 항목을 식별하기 위하여, 인식된 음성의 발음 정보에 따라서 데이터 구조를 검색하는 단계를 더 포함하는
    디지털 데이터 처리 디바이스.
  22. 제14항에 있어서,
    상기 음성 인식을 수행하는 동작은,
    상기 후보들에 실질적으로 제한되는 어휘를 활용하여 상기 구두의 사용자 입력의 음성 인식을 수행하는 것을 구비하는 디지털 데이터 처리 디바이스.
  23. 디지털 데이터 처리 장치로서,
    수동 텍스트 입력을 위한 사용자 구동 수단;
    컴퓨터 생성 이미지들을 가시적으로 나타내기 위한 표시 수단; 및
    동작을 수행하기 위한 처리 수단을 포함하며,
    상기 동작은
    상기 사용자 구동 수단을 통해서, 육필 스트로크, 육필 스트로크의 카테고리, 발음 스펠링, 음색 입력 중 적어도 하나를 나타내는 불명확한 사용자 입력을 수신하는 단계;
    상기 사용자 입력에 의해 형성될 수 있는 다수의 후보들을 산출하기 위하여(여기서, 각각의 후보는, 하나 이상의 표의 문자, 하나 이상의 표의 문자의 표의 어근을 구비함) 상기 사용자 입력을 해석하는 단계;
    상기 표시 수단이 사용자가 볼 수 있도록 상기 후보들의 리스트를 나타내는 단계;
    음성 입력 기기가 구두의 사용자 입력을 수신함에 따라, 상기 구두의 사용자 입력의 음성 인식을 수행하는 단계;
    상기 후보들 중 하나의 발음표기를 포함하는 발성을 구비하는 인식된 음성에 응답하여, 그 후보를 구비하는 출력을 제공하는 것을 포함하는 일군의 액션 중 하나 이상의 액션을 수행하는 단계를 포함하는
    디지털 데이터 처리 디바이스.
  24. 수동 텍스트 입력 도구를 통해 수신되는 내재적으로 불명확한 사용자 입력을 해석하기 위한 동작들을 수행하기 위해 디지털 데이터 처리 디바이스를 동작시키도록 구성되는 다수의 상호연결된 전기 도전성 요소들의 회로로서,
    상기 동작들은:
    상기 수동 텍스트 입력 도구를 통해, 육필 스트로크, 육필 스트로크의 카테고리, 발음 스펠링, 음색 입력 중 적어도 하나를 나타내는 불명확한 사용자 입력을 수신하는 단계;
    상기 사용자 입력에 의해 형성될 수 있는 다수의 후보들을 산출하기 위하여(각 후보는 하나 이상의 표의 문자, 하나 이상의 표의 문자의 표의 어근 중 적어도 하나를 구비함) 사용자 입력을 해석하는 단계;
    사용자가 볼 수 있도록 상기 후보들의 리스트를 가시적으로 나타내는 단계;
    음성 입력 기기가 구두의 사용자 입력을 수신함에 따라, 상기 구두의 사용자 입력의 음성 인식을 수행하는 단계;
    상기 후보들 중 하나의 발음표기를 포함하는 발성을 구비하는 인식된 음성에 응답하여, 그 후보를 구비하는 출력을 제공하는 것을 포함하는 일군의 액션들 중 하나 이상의 액션을 수행하는 단계를 포함하는
    다수의 상호연결된 전기 도전성 요소들의 회로.
KR1020077018235A 2005-02-08 2006-02-08 수동 입력된 불명확한 텍스트 입력을 해석하기 위해 음성입력을 활용하는 방법 및 장치 KR20070098904A (ko)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
US65130205P 2005-02-08 2005-02-08
US60/651,302 2005-02-08
US11/143,409 US7881936B2 (en) 1998-12-04 2005-06-01 Multimodal disambiguation of speech recognition
US11/143,409 2005-06-01
US11/350,234 2006-02-07
US11/350,234 US7720682B2 (en) 1998-12-04 2006-02-07 Method and apparatus utilizing voice input to resolve ambiguous manually entered text input

Publications (1)

Publication Number Publication Date
KR20070098904A true KR20070098904A (ko) 2007-10-05

Family

ID=36793694

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020077018235A KR20070098904A (ko) 2005-02-08 2006-02-08 수동 입력된 불명확한 텍스트 입력을 해석하기 위해 음성입력을 활용하는 방법 및 장치

Country Status (7)

Country Link
US (1) US7720682B2 (ko)
EP (1) EP1849155A4 (ko)
JP (1) JP4829901B2 (ko)
KR (1) KR20070098904A (ko)
BR (1) BRPI0607643A2 (ko)
CA (1) CA2596740A1 (ko)
WO (1) WO2006086511A2 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010144732A3 (en) * 2009-06-10 2011-03-24 Microsoft Corporation Touch anywhere to speak
US9104312B2 (en) 2010-03-12 2015-08-11 Nuance Communications, Inc. Multimodal text input system, such as for use with touch screens on mobile phones
KR20190082294A (ko) * 2016-12-29 2019-07-09 구글 엘엘씨 모바일 디바이스들에서의 모달리티 학습

Families Citing this family (111)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7030863B2 (en) * 2000-05-26 2006-04-18 America Online, Incorporated Virtual keyboard system with automatic correction
US7821503B2 (en) 2003-04-09 2010-10-26 Tegic Communications, Inc. Touch screen and graphical user interface
US7286115B2 (en) 2000-05-26 2007-10-23 Tegic Communications, Inc. Directional input system with automatic correction
US7750891B2 (en) * 2003-04-09 2010-07-06 Tegic Communications, Inc. Selective input system based on tracking of motion parameters of an input device
EP2264896A3 (en) * 1999-10-27 2012-05-02 Systems Ltd Keyless Integrated keypad system
US20020095473A1 (en) * 2001-01-12 2002-07-18 Stuart Berkowitz Home-based client-side media computer
US7490296B2 (en) * 2003-01-31 2009-02-10 Microsoft Corporation Utility object for specialized data entry
US8200865B2 (en) * 2003-09-11 2012-06-12 Eatoni Ergonomics, Inc. Efficient method and apparatus for text entry based on trigger sequences
TWM253165U (en) * 2004-01-16 2004-12-11 Aviquest Technology Co Ltd Integrated multi-media micro computer
NZ582991A (en) * 2004-06-04 2011-04-29 Keyless Systems Ltd Using gliding stroke on touch screen and second input to choose character
US20060036438A1 (en) * 2004-07-13 2006-02-16 Microsoft Corporation Efficient multimodal method to provide input to a computing device
US8942985B2 (en) 2004-11-16 2015-01-27 Microsoft Corporation Centralized method and system for clarifying voice commands
US7778821B2 (en) * 2004-11-24 2010-08-17 Microsoft Corporation Controlled manipulation of characters
US7747437B2 (en) * 2004-12-16 2010-06-29 Nuance Communications, Inc. N-best list rescoring in speech recognition
US8275618B2 (en) * 2004-12-22 2012-09-25 Nuance Communications, Inc. Mobile dictation correction user interface
US9606634B2 (en) * 2005-05-18 2017-03-28 Nokia Technologies Oy Device incorporating improved text input mechanism
US8374846B2 (en) 2005-05-18 2013-02-12 Neuer Wall Treuhand Gmbh Text input device and method
US8036878B2 (en) 2005-05-18 2011-10-11 Never Wall Treuhand GmbH Device incorporating improved text input mechanism
US8117540B2 (en) * 2005-05-18 2012-02-14 Neuer Wall Treuhand Gmbh Method and device incorporating improved text input mechanism
EP2393204A3 (en) * 2005-06-16 2013-03-06 Systems Ltd Keyless Data entry system
JP4702936B2 (ja) * 2005-06-28 2011-06-15 キヤノン株式会社 情報処理装置及び制御方法、プログラム
CA2630683C (en) * 2005-11-23 2014-10-28 Anthony Scriffignano System and method for searching and matching data having ideogrammatic content
US8370125B2 (en) * 2006-01-13 2013-02-05 Research In Motion Limited Handheld electronic device and method for disambiguation of text input providing artificial variants comprised of characters in a core alphabet
US7925975B2 (en) 2006-03-10 2011-04-12 Microsoft Corporation Searching for commands to execute in applications
US8108204B2 (en) * 2006-06-16 2012-01-31 Evgeniy Gabrilovich Text categorization using external knowledge
US20080141125A1 (en) * 2006-06-23 2008-06-12 Firooz Ghassabian Combined data entry systems
US7665037B2 (en) * 2006-06-30 2010-02-16 Research In Motion Limited Method of learning character segments from received text, and associated handheld electronic device
US7565624B2 (en) * 2006-06-30 2009-07-21 Research In Motion Limited Method of learning character segments during text input, and associated handheld electronic device
US7747445B2 (en) * 2006-07-12 2010-06-29 Nuance Communications, Inc. Distinguishing among different types of abstractions consisting of plurality of commands specified by particular sequencing and or timing or no timing and sequencing using voice commands
US20080282154A1 (en) * 2006-09-11 2008-11-13 Nurmi Mikko A Method and apparatus for improved text input
US7793228B2 (en) * 2006-10-13 2010-09-07 Apple Inc. Method, system, and graphical user interface for text entry with partial word display
US8571862B2 (en) * 2006-11-30 2013-10-29 Ashwin P. Rao Multimodal interface for input of text
US9830912B2 (en) * 2006-11-30 2017-11-28 Ashwin P Rao Speak and touch auto correction interface
US20080153465A1 (en) * 2006-12-26 2008-06-26 Voice Signal Technologies, Inc. Voice search-enabled mobile device
US20080154612A1 (en) * 2006-12-26 2008-06-26 Voice Signal Technologies, Inc. Local storage and use of search results for voice-enabled mobile communications devices
US20080154608A1 (en) * 2006-12-26 2008-06-26 Voice Signal Technologies, Inc. On a mobile device tracking use of search results delivered to the mobile device
US20080154870A1 (en) * 2006-12-26 2008-06-26 Voice Signal Technologies, Inc. Collection and use of side information in voice-mediated mobile search
KR100897553B1 (ko) * 2007-01-04 2009-05-15 삼성전자주식회사 사용자의 기기 사용 패턴을 이용한 음성 인식 방법 및 장치
US8074172B2 (en) 2007-01-05 2011-12-06 Apple Inc. Method, system, and graphical user interface for providing word recommendations
US8225203B2 (en) * 2007-02-01 2012-07-17 Nuance Communications, Inc. Spell-check for a keyboard system with automatic correction
US8201087B2 (en) * 2007-02-01 2012-06-12 Tegic Communications, Inc. Spell-check for a keyboard system with automatic correction
US20080243281A1 (en) * 2007-03-02 2008-10-02 Neena Sujata Kadaba Portable device and associated software to enable voice-controlled navigation of a digital audio player
US9423996B2 (en) * 2007-05-03 2016-08-23 Ian Cummings Vehicle navigation user interface customization methods
TWI336048B (en) * 2007-05-11 2011-01-11 Delta Electronics Inc Input system for mobile search and method therefor
US20080294982A1 (en) * 2007-05-21 2008-11-27 Microsoft Corporation Providing relevant text auto-completions
US8782171B2 (en) * 2007-07-20 2014-07-15 Voice Enabling Systems Technology Inc. Voice-enabled web portal system
EP2031486A1 (en) * 2007-08-31 2009-03-04 Research In Motion Limited Handheld electric device and associated method providing advanced text editing function in a text disambiguation environment
IL188523A0 (en) * 2008-01-01 2008-11-03 Keyless Systems Ltd Data entry system
US8606562B2 (en) * 2007-10-25 2013-12-10 Blackberry Limited Disambiguated text message retype function
DE102008051756A1 (de) * 2007-11-12 2009-05-14 Volkswagen Ag Multimodale Benutzerschnittstelle eines Fahrerassistenzsystems zur Eingabe und Präsentation von Informationen
JP4503069B2 (ja) * 2007-12-27 2010-07-14 シャープ株式会社 文字入力装置、システム、及び文字入力制御方法
US8219407B1 (en) * 2007-12-27 2012-07-10 Great Northern Research, LLC Method for processing the output of a speech recognizer
US10544677B2 (en) * 2017-09-01 2020-01-28 United Technologies Corporation Turbine disk
US8232973B2 (en) 2008-01-09 2012-07-31 Apple Inc. Method, device, and graphical user interface providing word recommendations for text input
WO2009096761A2 (ko) * 2008-02-01 2009-08-06 문자열 예측 입력방법 및 그 방법이 구현되는 전자장치
DE102008009445A1 (de) * 2008-02-15 2009-08-20 Volkswagen Ag Verfahren zur Schrift- und Spracherkennung
US8224656B2 (en) * 2008-03-14 2012-07-17 Microsoft Corporation Speech recognition disambiguation on mobile devices
US20090287626A1 (en) * 2008-05-14 2009-11-19 Microsoft Corporation Multi-modal query generation
ATE501478T1 (de) * 2008-06-11 2011-03-15 Exb Asset Man Gmbh Vorrichtung und verfahren mit verbessertem texteingabemechanismus
US9922640B2 (en) 2008-10-17 2018-03-20 Ashwin P Rao System and method for multimodal utterance detection
EP2350779A4 (en) * 2008-11-25 2018-01-10 Jeffrey R. Spetalnick Methods and systems for improved data input, compression, recognition, correction, and translation through frequency-based language analysis
US8589157B2 (en) * 2008-12-05 2013-11-19 Microsoft Corporation Replying to text messages via automated voice search techniques
US9189472B2 (en) * 2009-03-30 2015-11-17 Touchtype Limited System and method for inputting text into small screen devices
US9519353B2 (en) * 2009-03-30 2016-12-13 Symbol Technologies, Llc Combined speech and touch input for observation symbol mappings
GB0917753D0 (en) 2009-10-09 2009-11-25 Touchtype Ltd System and method for inputting text into electronic devices
GB0905457D0 (en) 2009-03-30 2009-05-13 Touchtype Ltd System and method for inputting text into electronic devices
US10191654B2 (en) 2009-03-30 2019-01-29 Touchtype Limited System and method for inputting text into electronic devices
US9424246B2 (en) 2009-03-30 2016-08-23 Touchtype Ltd. System and method for inputting text into electronic devices
DE102009059792A1 (de) * 2009-12-21 2011-06-22 Continental Automotive GmbH, 30165 Verfahren und Vorrichtung zur Bedienung technischer Einrichtungen, insbesondere eines Kraftfahrzeugs
US8423351B2 (en) * 2010-02-19 2013-04-16 Google Inc. Speech correction for typed input
US8428936B2 (en) * 2010-03-05 2013-04-23 Motorola Mobility Llc Decoder for audio signal including generic audio and speech frames
US20150279354A1 (en) * 2010-05-19 2015-10-01 Google Inc. Personalization and Latency Reduction for Voice-Activated Commands
WO2012037200A2 (en) 2010-09-15 2012-03-22 Spetalnick Jeffrey R Methods of and systems for reducing keyboard data entry errors
US20120089400A1 (en) * 2010-10-06 2012-04-12 Caroline Gilles Henton Systems and methods for using homophone lexicons in english text-to-speech
SG184583A1 (en) * 2011-03-07 2012-10-30 Creative Tech Ltd A device for facilitating efficient learning and a processing method in association thereto
US9236045B2 (en) * 2011-05-23 2016-01-12 Nuance Communications, Inc. Methods and apparatus for proofing of a text input
US9164983B2 (en) 2011-05-27 2015-10-20 Robert Bosch Gmbh Broad-coverage normalization system for social media language
JP5642037B2 (ja) * 2011-09-22 2014-12-17 株式会社東芝 検索装置、検索方法およびプログラム
US8972263B2 (en) * 2011-11-18 2015-03-03 Soundhound, Inc. System and method for performing dual mode speech recognition
CN102521577A (zh) * 2011-12-20 2012-06-27 安徽科大讯飞信息科技股份有限公司 一种交互式多媒体设备的笔迹识别、合成和跟踪方法
US20130179148A1 (en) * 2012-01-09 2013-07-11 Research In Motion Limited Method and apparatus for database augmentation and multi-word substitution
US8996356B1 (en) * 2012-04-10 2015-03-31 Google Inc. Techniques for predictive input method editors
US10354650B2 (en) 2012-06-26 2019-07-16 Google Llc Recognizing speech with mixed speech recognition models to generate transcriptions
US9202298B2 (en) 2012-07-27 2015-12-01 Semantic Compaction Systems, Inc. System and method for effectively navigating polysemous symbols across a plurality of linked electronic screen overlays
US9135912B1 (en) * 2012-08-15 2015-09-15 Google Inc. Updating phonetic dictionaries
KR102150289B1 (ko) * 2012-08-30 2020-09-01 삼성전자주식회사 사용자 단말에서 사용자 인터페이스 장치 및 이를 지원하는 방법
US8498864B1 (en) 2012-09-27 2013-07-30 Google Inc. Methods and systems for predicting a text
US9570076B2 (en) * 2012-10-30 2017-02-14 Google Technology Holdings LLC Method and system for voice recognition employing multiple voice-recognition techniques
CN103077165A (zh) * 2012-12-31 2013-05-01 威盛电子股份有限公司 自然语言对话方法及其系统
US9330659B2 (en) 2013-02-25 2016-05-03 Microsoft Technology Licensing, Llc Facilitating development of a spoken natural language interface
CN104035551A (zh) * 2013-03-08 2014-09-10 联想(北京)有限公司 一种输入方法及电子设备
US9542947B2 (en) 2013-03-12 2017-01-10 Google Technology Holdings LLC Method and apparatus including parallell processes for voice recognition
JP6028658B2 (ja) * 2013-03-28 2016-11-16 富士通株式会社 端末装置、変換文字候補同期方法及び変換文字候補同期プログラム
US9058805B2 (en) 2013-05-13 2015-06-16 Google Inc. Multiple recognizer speech recognition
US20150025876A1 (en) * 2013-07-21 2015-01-22 Benjamin Firooz Ghassabian Integrated keypad system
CN104345875A (zh) * 2013-08-07 2015-02-11 联想(北京)有限公司 信息处理的方法及电子设备
US10255267B2 (en) 2014-05-30 2019-04-09 Apple Inc. Device, method, and graphical user interface for a predictive keyboard
US9583105B2 (en) * 2014-06-06 2017-02-28 Microsoft Technology Licensing, Llc Modification of visual content to facilitate improved speech recognition
US11429883B2 (en) 2015-11-13 2022-08-30 Microsoft Technology Licensing, Llc Enhanced computer experience from activity prediction
GB201610984D0 (en) 2016-06-23 2016-08-10 Microsoft Technology Licensing Llc Suppression of input images
JP6585112B2 (ja) * 2017-03-17 2019-10-02 株式会社東芝 音声キーワード検出装置および音声キーワード検出方法
US10410635B2 (en) 2017-06-09 2019-09-10 Soundhound, Inc. Dual mode speech recognition
US20190147858A1 (en) * 2017-11-16 2019-05-16 Honeywell International Inc. Methods, systems and apparatuses for improving speech recognition using touch-based predictive modeling
EP3506279A1 (en) * 2018-01-02 2019-07-03 Koninklijke Philips N.V. Automatic diagnosis report preparation
US11195530B1 (en) 2018-02-19 2021-12-07 State Farm Mutual Automobile Insurance Company Voice analysis systems and methods for processing digital sound data over a communications network
US10740381B2 (en) * 2018-07-18 2020-08-11 International Business Machines Corporation Dictionary editing system integrated with text mining
US11176466B2 (en) * 2019-01-08 2021-11-16 International Business Machines Corporation Enhanced conversational bots processing
US11194467B2 (en) 2019-06-01 2021-12-07 Apple Inc. Keyboard management user interfaces
US11817100B2 (en) * 2020-06-26 2023-11-14 International Business Machines Corporation System for voice-to-text tagging for rich transcription of human speech
US11429780B1 (en) 2021-01-11 2022-08-30 Suki AI, Inc. Systems and methods to briefly deviate from and resume back to amending a section of a note
CN113946230A (zh) * 2021-09-01 2022-01-18 北京新氧科技有限公司 一种文字与语音的混合输入方法、装置、电子设备及存储介质

Family Cites Families (200)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3967273A (en) * 1974-03-29 1976-06-29 Bell Telephone Laboratories, Incorporated Method and apparatus for using pushbutton telephone keys for generation of alpha-numeric information
US4164025A (en) * 1977-12-13 1979-08-07 Bell Telephone Laboratories, Incorporated Spelled word input directory information retrieval system with input word error corrective searching
US4191854A (en) * 1978-01-06 1980-03-04 Coles George A Telephone-coupled visual alphanumeric communication device for deaf persons
JPS6239467Y2 (ko) * 1978-11-20 1987-10-08
US4360892A (en) 1979-02-22 1982-11-23 Microwriter Limited Portable word-processor
US4464070A (en) * 1979-12-26 1984-08-07 International Business Machines Corporation Multi-character display controller for text recorder
JPS56143044A (en) * 1980-04-08 1981-11-07 Sony Corp Input device of english typewriter
US4442506A (en) * 1980-09-18 1984-04-10 Microwriter Limited Portable word-processor
JPS57109031A (en) 1980-12-26 1982-07-07 Sharp Corp Input equipment
US4427848B1 (en) * 1981-12-29 1994-03-29 Telephone Lottery Company Inc Telephonic alphanumeric data transmission system
JPS58134371A (ja) * 1982-02-03 1983-08-10 Nec Corp 日本語入力装置
JPS58175074A (ja) * 1982-04-07 1983-10-14 Toshiba Corp 構文分析方式
US5067103A (en) 1983-01-21 1991-11-19 The Laitram Corporation Hand held computers with alpha keystroke
US4891786A (en) * 1983-02-22 1990-01-02 Goldwasser Eric P Stroke typing system
USRE32773E (en) 1983-02-22 1988-10-25 Method of creating text using a computer
US4544276A (en) 1983-03-21 1985-10-01 Cornell Research Foundation, Inc. Method and apparatus for typing Japanese text using multiple systems
US5289394A (en) * 1983-05-11 1994-02-22 The Laitram Corporation Pocket computer for word processing
JPS60189070A (ja) * 1984-03-08 1985-09-26 Fujitsu Ltd 文字入力装置
US4649563A (en) * 1984-04-02 1987-03-10 R L Associates Method of and means for accessing computerized data bases utilizing a touch-tone telephone instrument
JPS619753A (ja) * 1984-06-26 1986-01-17 Hitachi Ltd 文書処理装置における頻発熟語の自動登録方法
US4791556A (en) 1984-08-29 1988-12-13 Vilkaitis John V Method for operating a computer which searches for operational symbols and executes functions corresponding to the operational symbols in response to user inputted signal
US4661916A (en) * 1984-10-15 1987-04-28 Baker Bruce R System for method for producing synthetic plural word messages
US4669901A (en) * 1985-09-03 1987-06-02 Feng I Ming Keyboard device for inputting oriental characters by touch
US4677659A (en) * 1985-09-03 1987-06-30 John Dargan Telephonic data access and transmission system
US4674112A (en) * 1985-09-06 1987-06-16 Board Of Regents, The University Of Texas System Character pattern recognition and communications apparatus
US4969097A (en) 1985-09-18 1990-11-06 Levin Leonid D Method of rapid entering of text into computer equipment
US4754474A (en) * 1985-10-21 1988-06-28 Feinson Roy W Interpretive tone telecommunication method and apparatus
US4807181A (en) * 1986-06-02 1989-02-21 Smith Corona Corporation Dictionary memory with visual scanning from a selectable starting point
US4817129A (en) * 1987-03-05 1989-03-28 Telac Corp. Method of and means for accessing computerized data bases utilizing a touch-tone telephone instrument
US4852173A (en) 1987-10-29 1989-07-25 International Business Machines Corporation Design and construction of a binary-tree system for language modelling
US4866759A (en) * 1987-11-30 1989-09-12 Riskin Bernard N Packet network telecommunication system having access nodes with word guessing capability
US5031206A (en) * 1987-11-30 1991-07-09 Fon-Ex, Inc. Method and apparatus for identifying words entered on DTMF pushbuttons
JPH01167898A (ja) * 1987-12-04 1989-07-03 Internatl Business Mach Corp <Ibm> 音声認識装置
US4872196A (en) 1988-07-18 1989-10-03 Motorola, Inc. Telephone keypad input technique
US5109352A (en) * 1988-08-09 1992-04-28 Dell Robert B O System for encoding a collection of ideographic characters
JPH02150899A (ja) * 1988-12-02 1990-06-11 Toshiba Corp 音声認識方式
US5255310A (en) 1989-08-11 1993-10-19 Korea Telecommunication Authority Method of approximately matching an input character string with a key word and vocally outputting data
US5163084A (en) 1989-08-11 1992-11-10 Korea Telecommunication Authority Voice information service system and method utilizing approximately matched input character string and key word
US5339358A (en) * 1990-03-28 1994-08-16 Danish International, Inc. Telephone keypad matrix
US5392338A (en) * 1990-03-28 1995-02-21 Danish International, Inc. Entry of alphabetical characters into a telephone system using a conventional telephone keypad
US5131045A (en) * 1990-05-10 1992-07-14 Roth Richard G Audio-augmented data keying
US5303299A (en) * 1990-05-15 1994-04-12 Vcs Industries, Inc. Method for continuous recognition of alphanumeric strings spoken over a telephone network
US5218538A (en) * 1990-06-29 1993-06-08 Wei Zhang High efficiency input processing apparatus for alphabetic writings
WO1992005517A1 (en) * 1990-09-26 1992-04-02 Roth Richard G Audio-augmented handwriting recognition
US5305205A (en) * 1990-10-23 1994-04-19 Weber Maria L Computer-assisted transcription apparatus
US5229936A (en) * 1991-01-04 1993-07-20 Franklin Electronic Publishers, Incorporated Device and method for the storage and retrieval of inflection information for electronic reference products
US5200988A (en) * 1991-03-11 1993-04-06 Fon-Ex, Inc. Method and means for telecommunications by deaf persons utilizing a small hand held communications device
US5141045A (en) * 1991-04-05 1992-08-25 Williams Johnie E Drapery bracket assembly and method of forming window treatment
US5258748A (en) 1991-08-28 1993-11-02 Hewlett-Packard Company Accessing and selecting multiple key functions with minimum keystrokes
US5528235A (en) 1991-09-03 1996-06-18 Edward D. Lin Multi-status multi-function data processing key and key array
US5963671A (en) 1991-11-27 1999-10-05 International Business Machines Corporation Enhancement of soft keyboard operations using trigram prediction
US5535421A (en) * 1993-03-16 1996-07-09 Weinreich; Michael Chord keyboard system using one chord to select a group from among several groups and another chord to select a character from the selected group
JPH0756957A (ja) * 1993-08-03 1995-03-03 Xerox Corp ユーザへの情報提供方法
US5388061A (en) * 1993-09-08 1995-02-07 Hankes; Elmer J. Portable computer for one-handed operation
GB2283598A (en) 1993-11-03 1995-05-10 Ibm Data entry workstation
CA2137981C (en) 1993-12-22 2001-04-17 Steven A. Shaiman Method and system for presenting alternatives for selection using adaptive learning
JPH07311656A (ja) * 1994-05-17 1995-11-28 Toshiba Corp マルチモーダル文字入力装置
US5847697A (en) 1995-01-31 1998-12-08 Fujitsu Limited Single-handed keyboard having keys with multiple characters and character ambiguity resolution logic
US5748512A (en) * 1995-02-28 1998-05-05 Microsoft Corporation Adjusting keyboard
US5786776A (en) 1995-03-13 1998-07-28 Kabushiki Kaisha Toshiba Character input terminal device and recording apparatus
US5559512A (en) * 1995-03-20 1996-09-24 Venturedyne, Ltd. Method and apparatus for entering alpha-numeric data
US6734881B1 (en) * 1995-04-18 2004-05-11 Craig Alexander Will Efficient entry of words by disambiguation
US6392640B1 (en) * 1995-04-18 2002-05-21 Cognitive Research & Design Corp. Entry of words with thumbwheel by disambiguation
US5825353A (en) 1995-04-18 1998-10-20 Will; Craig Alexander Control of miniature personal digital assistant using menu and thumbwheel
SE516771C2 (sv) * 1995-05-30 2002-02-26 Minec Systems Ab Alfanumeriskt tangentbord
US5680511A (en) 1995-06-07 1997-10-21 Dragon Systems, Inc. Systems and methods for word recognition
US5918240A (en) 1995-06-28 1999-06-29 Xerox Corporation Automatic method of extracting summarization using feature probabilities
US5828991A (en) 1995-06-30 1998-10-27 The Research Foundation Of The State University Of New York Sentence reconstruction using word ambiguity resolution
US5797098A (en) * 1995-07-19 1998-08-18 Pacific Communication Sciences, Inc. User interface for cellular telephone
US5818437A (en) 1995-07-26 1998-10-06 Tegic Communications, Inc. Reduced keyboard disambiguating computer
WO1997005541A1 (en) 1995-07-26 1997-02-13 King Martin T Reduced keyboard disambiguating system
US5917941A (en) * 1995-08-08 1999-06-29 Apple Computer, Inc. Character segmentation technique with integrated word search for handwriting recognition
US5855000A (en) 1995-09-08 1998-12-29 Carnegie Mellon University Method and apparatus for correcting and repairing machine-transcribed input using independent or cross-modal secondary input
WO1997012361A1 (en) * 1995-09-29 1997-04-03 At & T Corp. Telephone network service for converting speech to touch-tones
US5917890A (en) * 1995-12-29 1999-06-29 At&T Corp Disambiguation of alphabetic characters in an automated call processing environment
JP3825494B2 (ja) * 1996-01-22 2006-09-27 株式会社東芝 情報入力装置および自動取引装置
US6073101A (en) * 1996-02-02 2000-06-06 International Business Machines Corporation Text independent speaker recognition for transparent command ambiguity resolution and continuous access control
JP3113814B2 (ja) 1996-04-17 2000-12-04 インターナショナル・ビジネス・マシーンズ・コーポレ−ション 情報検索方法及び情報検索装置
TW490643B (en) 1996-05-21 2002-06-11 Hitachi Ltd Estimated recognition device for input character string
US5664896A (en) * 1996-08-29 1997-09-09 Blumberg; Marvin R. Speed typing apparatus and method
US5950160A (en) * 1996-10-31 1999-09-07 Microsoft Corporation Method and system for displaying a variable number of alternative words during speech recognition
US5926566A (en) * 1996-11-15 1999-07-20 Synaptics, Inc. Incremental ideographic character input method
US5952942A (en) * 1996-11-21 1999-09-14 Motorola, Inc. Method and device for input of text messages from a keypad
US5953541A (en) 1997-01-24 1999-09-14 Tegic Communications, Inc. Disambiguating system for disambiguating ambiguous input sequences by displaying objects associated with the generated input sequences in the order of decreasing frequency of use
US6009444A (en) 1997-02-24 1999-12-28 Motorola, Inc. Text input device and method
CN1227914C (zh) 1997-03-19 2005-11-16 西门子公司 具有用于文字和/或数字和/或特殊字符输入工具的设备
US5937422A (en) * 1997-04-15 1999-08-10 The United States Of America As Represented By The National Security Agency Automatically generating a topic description for text and searching and sorting text by topic using the same
US6054941A (en) * 1997-05-27 2000-04-25 Motorola, Inc. Apparatus and method for inputting ideographic characters
US5937380A (en) * 1997-06-27 1999-08-10 M.H. Segan Limited Partenship Keypad-assisted speech recognition for text or command input to concurrently-running computer application
US5936556A (en) * 1997-07-14 1999-08-10 Sakita; Masami Keyboard for inputting to computer means
US6044347A (en) * 1997-08-05 2000-03-28 Lucent Technologies Inc. Methods and apparatus object-oriented rule-based dialogue management
US6098086A (en) * 1997-08-11 2000-08-01 Webtv Networks, Inc. Japanese text input method using a limited roman character set
US5999950A (en) 1997-08-11 1999-12-07 Webtv Networks, Inc. Japanese text input method using a keyboard with only base kana characters
US6120297A (en) 1997-08-25 2000-09-19 Lyceum Communication, Inc. Vocabulary acquistion using structured inductive reasoning
US6738952B1 (en) * 1997-09-02 2004-05-18 Denso Corporation Navigational map data object selection and display system
ATE221222T1 (de) 1997-09-25 2002-08-15 Tegic Communications Inc System zur unterdrückung der vieldeutigkeit in einer verringerten tastatur
CA2219008C (en) * 1997-10-21 2002-11-19 Bell Canada A method and apparatus for improving the utility of speech recognition
US6005498A (en) 1997-10-29 1999-12-21 Motorola, Inc. Reduced keypad entry apparatus and method
US6377965B1 (en) * 1997-11-07 2002-04-23 Microsoft Corporation Automatic word completion system for partially entered data
US5896321A (en) * 1997-11-14 1999-04-20 Microsoft Corporation Text completion system for a miniature computer
US5945928A (en) * 1998-01-20 1999-08-31 Tegic Communication, Inc. Reduced keyboard disambiguating system for the Korean language
US7257528B1 (en) 1998-02-13 2007-08-14 Zi Corporation Of Canada, Inc. Method and apparatus for Chinese character text input
US6104317A (en) * 1998-02-27 2000-08-15 Motorola, Inc. Data entry device and method
US6574597B1 (en) * 1998-05-08 2003-06-03 At&T Corp. Fully expanded context-dependent networks for speech recognition
JP3191284B2 (ja) 1998-06-23 2001-07-23 日本電気株式会社 文字入力装置
US6169538B1 (en) 1998-08-13 2001-01-02 Motorola, Inc. Method and apparatus for implementing a graphical user interface keyboard and a text buffer on electronic devices
SE514377C2 (sv) 1998-08-26 2001-02-19 Gunnar Sparr Teckenigenkänning
US6178401B1 (en) * 1998-08-28 2001-01-23 International Business Machines Corporation Method for reducing search complexity in a speech recognition system
US6684185B1 (en) * 1998-09-04 2004-01-27 Matsushita Electric Industrial Co., Ltd. Small footprint language and vocabulary independent word recognizer using registration by word spelling
US6646573B1 (en) 1998-12-04 2003-11-11 America Online, Inc. Reduced keyboard text input system for the Japanese language
US6636162B1 (en) 1998-12-04 2003-10-21 America Online, Incorporated Reduced keyboard text input system for the Japanese language
US7679534B2 (en) * 1998-12-04 2010-03-16 Tegic Communications, Inc. Contextual prediction of user words and user actions
US6885317B1 (en) * 1998-12-10 2005-04-26 Eatoni Ergonomics, Inc. Touch-typable devices based on ambiguous codes and methods to design such devices
US6219731B1 (en) * 1998-12-10 2001-04-17 Eaton: Ergonomics, Inc. Method and apparatus for improved multi-tap text input
US6362752B1 (en) 1998-12-23 2002-03-26 Motorola, Inc. Keypad with strokes assigned to key for ideographic text input
US6801659B1 (en) 1999-01-04 2004-10-05 Zi Technology Corporation Ltd. Text input system for ideographic and nonideographic languages
GB2347240A (en) * 1999-02-22 2000-08-30 Nokia Mobile Phones Ltd Communication terminal having a predictive editor application
GB2388938B (en) 1999-02-22 2004-03-17 Nokia Corp A communication terminal having a predictive editor application
GB2347247A (en) 1999-02-22 2000-08-30 Nokia Mobile Phones Ltd Communication terminal with predictive editor
US6567075B1 (en) * 1999-03-19 2003-05-20 Avaya Technology Corp. Feature access control in a display-based terminal environment
US6204848B1 (en) * 1999-04-14 2001-03-20 Motorola, Inc. Data entry apparatus having a limited number of character keys and method
AU5299700A (en) * 1999-05-27 2000-12-18 America Online, Inc. Keyboard system with automatic correction
US6172625B1 (en) * 1999-07-06 2001-01-09 Motorola, Inc. Disambiguation method and apparatus, and dictionary data compression techniques
US6421672B1 (en) * 1999-07-27 2002-07-16 Verizon Services Corp. Apparatus for and method of disambiguation of directory listing searches utilizing multiple selectable secondary search keys
US6789231B1 (en) * 1999-10-05 2004-09-07 Microsoft Corporation Method and system for providing alternatives for text derived from stochastic input sources
US6424743B1 (en) 1999-11-05 2002-07-23 Motorola, Inc. Graphical handwriting recognition user interface
US6633846B1 (en) 1999-11-12 2003-10-14 Phoenix Solutions, Inc. Distributed realtime speech recognition system
US6304844B1 (en) 2000-03-30 2001-10-16 Verbaltek, Inc. Spelling speech recognition apparatus and method for communications
US6985933B1 (en) * 2000-05-30 2006-01-10 International Business Machines Corporation Method and system for increasing ease-of-use and bandwidth utilization in wireless devices
US7149970B1 (en) * 2000-06-23 2006-12-12 Microsoft Corporation Method and system for filtering and selecting from a candidate list generated by a stochastic input method
JP4105841B2 (ja) * 2000-07-11 2008-06-25 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識方法、音声認識装置、コンピュータ・システムおよび記憶媒体
US6686852B1 (en) 2000-09-15 2004-02-03 Motorola, Inc. Keypad layout for alphabetic character input
US6728348B2 (en) * 2000-11-30 2004-04-27 Comverse, Inc. System for storing voice recognizable identifiers using a limited input device such as a telephone key pad
US20020072395A1 (en) * 2000-12-08 2002-06-13 Ivan Miramontes Telephone with fold out keyboard
SE521911C2 (sv) 2001-01-15 2003-12-16 Decuma Ab Ideon Res Park Metod, anordning och datorprogram för igenkänning av ett handskrivet tecken
US7027976B1 (en) 2001-01-29 2006-04-11 Adobe Systems Incorporated Document based character ambiguity resolution
SE519014C2 (sv) 2001-03-07 2002-12-23 Decuma Ab Ideon Res Park Metod och anordning för igenkänning av ett handskrivet mönster
US6502118B1 (en) 2001-03-22 2002-12-31 Motorola, Inc. Fast system and method for producing a logarithmic signal approximation with variable precision
US6982658B2 (en) 2001-03-22 2006-01-03 Motorola, Inc. Keypad layout for alphabetic symbol input
US7103534B2 (en) 2001-03-31 2006-09-05 Microsoft Corporation Machine learning contextual approach to word determination for text input via reduced keypad keys
US7117144B2 (en) 2001-03-31 2006-10-03 Microsoft Corporation Spell checking for text input via reduced keypad keys
US7385591B2 (en) * 2001-03-31 2008-06-10 Microsoft Corporation Out-of-vocabulary word determination and user interface for text input via reduced keypad keys
US20020152075A1 (en) 2001-04-16 2002-10-17 Shao-Tsu Kung Composite input method
US20030023426A1 (en) 2001-06-22 2003-01-30 Zi Technology Corporation Ltd. Japanese language entry mechanism for small keypads
US20040169635A1 (en) 2001-07-12 2004-09-02 Ghassabian Benjamin Firooz Features to enhance data entry through a small data entry unit
US6947771B2 (en) 2001-08-06 2005-09-20 Motorola, Inc. User interface for a portable electronic device
US6757544B2 (en) 2001-08-15 2004-06-29 Motorola, Inc. System and method for determining a location relevant to a communication device and/or its associated user
US20030054830A1 (en) 2001-09-04 2003-03-20 Zi Corporation Navigation system for mobile communication devices
US7225130B2 (en) * 2001-09-05 2007-05-29 Voice Signal Technologies, Inc. Methods, systems, and programming for performing speech recognition
JP2003108472A (ja) * 2001-09-28 2003-04-11 Canon Inc 通信装置、その制御方法、情報機器、その制御方法、通信システム、及び制御プログラム
US7152213B2 (en) 2001-10-04 2006-12-19 Infogation Corporation System and method for dynamic key assignment in enhanced user interface
US7006820B1 (en) * 2001-10-05 2006-02-28 At Road, Inc. Method for determining preferred conditions for wireless programming of mobile devices
US6744423B2 (en) * 2001-11-19 2004-06-01 Nokia Corporation Communication terminal having a predictive character editor application
US7149550B2 (en) * 2001-11-27 2006-12-12 Nokia Corporation Communication terminal having a text editor application with a word completion feature
US7075520B2 (en) 2001-12-12 2006-07-11 Zi Technology Corporation Ltd Key press disambiguation using a keypad of multidirectional keys
GB2383459B (en) 2001-12-20 2005-05-18 Hewlett Packard Co Speech recognition system and method
US6934564B2 (en) * 2001-12-20 2005-08-23 Nokia Corporation Method and apparatus for providing Hindi input to a device using a numeric keypad
US20030119561A1 (en) 2001-12-21 2003-06-26 Richard Hatch Electronic device
US7111248B2 (en) 2002-01-15 2006-09-19 Openwave Systems Inc. Alphanumeric information input method
US7949513B2 (en) 2002-01-22 2011-05-24 Zi Corporation Of Canada, Inc. Language module and method for use with text processing devices
US6807529B2 (en) 2002-02-27 2004-10-19 Motorola, Inc. System and method for concurrent multimodal communication
US6912581B2 (en) 2002-02-27 2005-06-28 Motorola, Inc. System and method for concurrent multimodal communication session persistence
US6864809B2 (en) 2002-02-28 2005-03-08 Zi Technology Corporation Ltd Korean language predictive mechanism for text entry by a user
EP1347361A1 (en) 2002-03-22 2003-09-24 Sony Ericsson Mobile Communications AB Entering text into an electronic communications device
EP1347362B1 (en) 2002-03-22 2005-05-11 Sony Ericsson Mobile Communications AB Entering text into an electronic communications device
US7272564B2 (en) 2002-03-22 2007-09-18 Motorola, Inc. Method and apparatus for multimodal communication with user control of delivery modality
SG125895A1 (en) 2002-04-04 2006-10-30 Xrgomics Pte Ltd Reduced keyboard system that emulates qwerty-type mapping and typing
US7020849B1 (en) * 2002-05-31 2006-03-28 Openwave Systems Inc. Dynamic display for communication devices
US7061403B2 (en) * 2002-07-03 2006-06-13 Research In Motion Limited Apparatus and method for input of ideographic Korean syllables from reduced keyboard
JP2006515073A (ja) * 2002-09-06 2006-05-18 ヴォイス シグナル テクノロジーズ インコーポレーティッド 音声認識を実行するための方法、システム、及びプログラミング
FI20021759A0 (fi) * 2002-10-03 2002-10-03 Nokia Corp Menetelmä ja käyttöliittymä tekstin syöttämiseen
US7095403B2 (en) 2002-12-09 2006-08-22 Motorola, Inc. User interface of a keypad entry system for character input
US20040163032A1 (en) * 2002-12-17 2004-08-19 Jin Guo Ambiguity resolution for predictive text entry
US20040127198A1 (en) * 2002-12-30 2004-07-01 Roskind James A. Automatically changing a mobile device configuration based on environmental condition
US6927763B2 (en) * 2002-12-30 2005-08-09 Motorola, Inc. Method and system for providing a disambiguated keypad
US20040127197A1 (en) * 2002-12-30 2004-07-01 Roskind James A. Automatically changing a mobile device configuration
US20040153963A1 (en) 2003-02-05 2004-08-05 Simpson Todd G. Information entry mechanism for small keypads
US20040153975A1 (en) 2003-02-05 2004-08-05 Williams Roland E. Text entry mechanism for small keypads
US7256769B2 (en) 2003-02-24 2007-08-14 Zi Corporation Of Canada, Inc. System and method for text entry on a reduced keyboard
US7386279B2 (en) 2003-04-02 2008-06-10 Sun Microsystems, Inc. Context based main screen for mobile device
US6955602B2 (en) 2003-05-15 2005-10-18 Zi Technology Corporation Ltd Text entry within a video game
EP1634195A1 (en) 2003-06-18 2006-03-15 ZI Corporation Configurable information identification system and method
TWI319537B (en) 2003-06-18 2010-01-11 Zi Corp Canada Inc Text entry system and method
US7057607B2 (en) 2003-06-30 2006-06-06 Motorola, Inc. Application-independent text entry for touch-sensitive display
US7395203B2 (en) 2003-07-30 2008-07-01 Tegic Communications, Inc. System and method for disambiguating phonetic input
US7389235B2 (en) 2003-09-30 2008-06-17 Motorola, Inc. Method and system for unified speech and graphic user interfaces
US7831679B2 (en) * 2003-10-15 2010-11-09 Microsoft Corporation Guiding sensing and preferences for context-sensitive services
US6973332B2 (en) 2003-10-24 2005-12-06 Motorola, Inc. Apparatus and method for forming compound words
US8136050B2 (en) 2003-11-21 2012-03-13 Nuance Communications, Inc. Electronic device and user interface and input method therefor
US7890492B2 (en) 2004-11-15 2011-02-15 Zi Corporation Of Canada, Inc. Organizing pointers to objects in an array to improve the speed of object retrieval
US20060129928A1 (en) 2004-12-02 2006-06-15 Weigen Qiu Use of pointing device to identify ideographic characters
RU2007125666A (ru) 2004-12-07 2009-01-20 Зи Корпорейшн Оф Канада, Инк. (Ca) Пользовательский интерфейс с расширенными характеристиками поиска
US20060155536A1 (en) 2004-12-20 2006-07-13 Williams Roland E Method and device for displaying a telephone number
US7466859B2 (en) 2004-12-30 2008-12-16 Motorola, Inc. Candidate list enhancement for predictive text input in electronic devices
CN101128838B (zh) 2005-02-28 2011-11-16 Zi德库玛股份公司 辨认图
RU2007135946A (ru) 2005-02-28 2009-04-10 Зи Декума Аб (Se) Распознавание на основе сегментации
EP1952651A4 (en) 2005-11-21 2010-06-02 Zi Corp Canada Inc INFORMATION DISTRIBUTION SYSTEM AND METHOD FOR MOBILE DEVICES
US8018439B2 (en) 2006-03-22 2011-09-13 Zi Corporation Of Canada, Inc. Mobile appliance system and method enabling efficient entry
US8166418B2 (en) 2006-05-26 2012-04-24 Zi Corporation Of Canada, Inc. Device and method of conveying meaning
EP2097853A4 (en) 2006-12-01 2011-06-29 Zi Decuma Ab METHOD FOR RECOGNIZING CHARACTERS

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010144732A3 (en) * 2009-06-10 2011-03-24 Microsoft Corporation Touch anywhere to speak
US8412531B2 (en) 2009-06-10 2013-04-02 Microsoft Corporation Touch anywhere to speak
AU2010258675B2 (en) * 2009-06-10 2014-05-29 Microsoft Technology Licensing, Llc Touch anywhere to speak
US9104312B2 (en) 2010-03-12 2015-08-11 Nuance Communications, Inc. Multimodal text input system, such as for use with touch screens on mobile phones
KR20190082294A (ko) * 2016-12-29 2019-07-09 구글 엘엘씨 모바일 디바이스들에서의 모달리티 학습

Also Published As

Publication number Publication date
JP2008537806A (ja) 2008-09-25
US7720682B2 (en) 2010-05-18
EP1849155A4 (en) 2008-10-29
CA2596740A1 (en) 2006-08-17
BRPI0607643A2 (pt) 2009-09-22
WO2006086511A8 (en) 2007-03-01
WO2006086511A3 (en) 2007-09-07
EP1849155A2 (en) 2007-10-31
US20060190256A1 (en) 2006-08-24
WO2006086511A2 (en) 2006-08-17
JP4829901B2 (ja) 2011-12-07

Similar Documents

Publication Publication Date Title
JP4829901B2 (ja) マニュアルでエントリされた不確定なテキスト入力を音声入力を使用して確定する方法および装置
US8311829B2 (en) Multimodal disambiguation of speech recognition
US7881936B2 (en) Multimodal disambiguation of speech recognition
US7319957B2 (en) Handwriting and voice input with automatic correction
CA2556065C (en) Handwriting and voice input with automatic correction
JP5166255B2 (ja) データ入力システム
US6401065B1 (en) Intelligent keyboard interface with use of human language processing
US7719521B2 (en) Navigational interface providing auxiliary character support for mobile and wearable computers
CN101206528B (zh) 用多种词汇之一以及解析模态对简化用户输入文本的处理
US20050192802A1 (en) Handwriting and voice input with automatic correction
CN102272827B (zh) 利用语音输入解决模糊的手工输入文本输入的方法和装置
JP2005202917A (ja) 表音入力の曖昧さを除くためのシステムおよび方法
JP2003513389A (ja) 言語入力ユーザインタフェース
JP2007133884A5 (ko)
JP2008539477A (ja) すべてより少ない文字、もしくは、与えられた(1つ以上の)文字のすべてより少ないストローク、またはその両方を供給することによる、表意言語の句の省略された手書き入力

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
J201 Request for trial against refusal decision
AMND Amendment
B601 Maintenance of original decision after re-examination before a trial
J301 Trial decision

Free format text: TRIAL DECISION FOR APPEAL AGAINST DECISION TO DECLINE REFUSAL REQUESTED 20100201

Effective date: 20120723

J2X1 Appeal (before the patent court)

Free format text: APPEAL AGAINST DECISION TO DECLINE REFUSAL

J302 Written judgement (patent court)

Free format text: JUDGMENT (PATENT COURT) FOR APPEAL AGAINST DECISION TO DECLINE REFUSAL REQUESTED 20120921

Effective date: 20130410