KR100586286B1 - 구술 및 명령 구별을 향상하는 방법 - Google Patents

구술 및 명령 구별을 향상하는 방법 Download PDF

Info

Publication number
KR100586286B1
KR100586286B1 KR1020037003790A KR20037003790A KR100586286B1 KR 100586286 B1 KR100586286 B1 KR 100586286B1 KR 1020037003790 A KR1020037003790 A KR 1020037003790A KR 20037003790 A KR20037003790 A KR 20037003790A KR 100586286 B1 KR100586286 B1 KR 100586286B1
Authority
KR
South Korea
Prior art keywords
text
user interface
speech
peripheral area
voice
Prior art date
Application number
KR1020037003790A
Other languages
English (en)
Other versions
KR20030046453A (ko
Inventor
루이스제임스
오르테가케리
Original Assignee
인터내셔널 비지네스 머신즈 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인터내셔널 비지네스 머신즈 코포레이션 filed Critical 인터내셔널 비지네스 머신즈 코포레이션
Publication of KR20030046453A publication Critical patent/KR20030046453A/ko
Application granted granted Critical
Publication of KR100586286B1 publication Critical patent/KR100586286B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Abstract

음성 명령의 경우와 음성 구술의 경우 사이를 구별하는 방법은 사용자 인터페이스 내의 초점을 식별하는 단계; 상기 초점 주위의 주변 영역을 정의하는 단계; 상기 주변 영역 내의 사용자 인터페이스 객체들을 식별하는 단계; 상기 식별된 사용자 인터페이스 객체들 중에서, 음성 구술된 텍스트를 받도록 구성되는 사용자 인터페이스 객체들과, 음성 구술된 텍스트를 받도록 구성되지 않은 사용자 인터페이스 객체들을 더 식별하는 단계; 음성 구술된 텍스트를 받도록 구성되는 것으로 더 식별되었던 상기 사용자 인터페이스 객체들과, 음성 구술된 텍스트를 받도록 구성되지 않은 것으로 더 식별되었던 상기 사용자 인터페이스 객체들에 기초하여 확률을 계산하는 단계; 음성 입력을 수신하는 단계; 및 상기 계산된 확률에 기초하여 상기 음성 입력이 음성 명령인지 혹은 음성 구술인지의 판정을 바이어스하는 단계를 포함할 수 있다. 또한, 상기 방법은 상기 사용자 인터페이스 외측의 초점을 식별하는 단계; 및 디폴트 확률에 기초하여 상기 음성 입력이 음성 명령인지 혹은 음성 구술인지의 판정을 바이어스하는 단계를 포함할 수 있다.
전자 문서, 텍스트, 초점, 사용자 인터페이스, 저장 매체.

Description

구술 및 명령 구별을 향상하는 방법 {EYE GAZE FOR CONTEXTUAL SPEECH RECOGNITION}
본 발명은 음성 인식 분야에 관한 것으로, 보다 구체적으로는, 사용자 구술, 사용자 음성 명령, 및 텍스트 사이의 구별을 향상시키는 방법에 관한 것이다.
음성 인식은 마이크로폰에 의해 수신된 음향 신호가 컴퓨터에 의해 텍스트로 변환되는 프로세스이다. 그 후, 인식된 텍스트는 문서 준비, 데이터 엔트리, 그리고 명령 및 제어와 같은 목적들을 위한 다양한 컴퓨터 소프트웨어 애플리케이션들에 사용될 수 있다. 음성 인식 시스템들은 컴퓨터 시스템들을 조작하는 핸즈 프리 방법을 사용자들에게 더 제공한다.
전자 문서 준비에 관해서, 최근 사용 가능한 음성 구술 시스템들은 사용자로 하여금 전자 문서 내의 텍스트의 일부를 선택할 수 있게 하는 사용자 음성 명령들을 제공한다. 상기 사용자 음성 명령들은 통상적으로 "SELECT <text>"와 같은 문법을 채용하는데, 여기서 사용자 음성 명령 "SELECT" 신호들을 따르는 텍스트는 반드시 선택되거나 강조되어야 한다. 텍스트의 일부가 선택되어진 후, 사용자는 선택된 텍스트 상에 임의의 일련의 연속적인 조작들을 수행할 수 있다.
따라서, 만약 사용자가 "SELECT how are you"를 말한다면, 음성 인식 시스템 은 전자 문서 내의 텍스트의 바디 내에서 텍스트 구문 "how are you"를 검색할 것이다. 일단 텍스트의 바디 내에 위치하면, 상기 구문은 선택되거나 강조될 수 있다. 그 후, 사용자는 선택된 텍스트 상에 예컨대 삭제 조작, 볼드/이탤릭/밑줄 조작, 또는 정정 조작과 같은 조작을 수행할 수 있다. 더 기술하면, 일단 텍스트 "how are you"가 강조되면, 텍스트의 사용자 선택된 부분은 후속하는 사용자 언어로부터 추출된 다른 텍스트로 대체될 수 있다. 이 방식으로, 사용자들은 전자 문서의 핸즈 프리 정정을 수행할 수 있다.
최근, "SELECT" 명령의 공지된 수행들, 또는 텍스트 선택을 위한 다른 유사한 사용자 음성 명령들은 몇 가지 불이익을 겪고 있다. 상기 불이익 중 하나는 텍스트의 바디 내에서 사용자가 선택하고자 하는 구문이나 단어가 다수 출현할 수 있다는 것이다. 예컨대, 텍스트의 바디 내에서, 단어 "the"는 다수 출현할 가능성이 있다. 따라서, 만약 사용자가 "SELECT the"를 말한다면, 음성 인식 시스템은 단어 "the"의 어느 출현이 사용자가 선택하고자 하는지를 판정할 수 없을 것이다.
상기 문제를 해결하기 위해, 종래의 음성 구술 시스템들은 사용자 소망된 단어나 사용자가 선택하고자 하는 구문의 출현을 판정하는 규칙들의 시스템에 의존한다. 예컨대, 음성 구술 시스템은 활성 창의 맨 위에서 시작하여 단어나 구문의 최초 출현을 선택할 수 있다. 그러나, 만약 사용자가 단어나 구문의 최초 출현을 선택하기를 원하지 않는다면, 종래의 음성 구술 시스템은 상기 단어의 또 하나의 출현을 선택하는 능력을 사용자에게 제공할 수 있다. 특히, 일부 종래의 음성 구술 시스템들은 "NEXT" 또는 "PREVIOUS"와 같은 네비게이션 음성 명령들을 제공한다.
음성 명령 "NEXT"를 말함으로써, 사용자는 음성 구술 시스템에게 원하는 단어나 구문의 다음 출현을 배치 및 선택하는 것을 지시한다. 유사하게, 명령 "PREVIOUS"는 음성 구술 시스템에게 원하는 단어나 구문의 이전 출현을 배치 및 선택하는 것을 지시한다. 비록 상기 종래 시스템들이 사용자로 하여금 특정한 단어나 구문의 원하는 출현을 조종하는 것을 허여할지라도, 사용자들은 원하는 출현으로 조종하기 위한 전략들을 개발하여야 한다. 이로 인해, 특히 사용자가 음성 구술 시스템이 부정확하거나 비효율적인 것을 인지하는 경우에 시간 낭비와 사용자 불만이 유발된다.
종래의 음성 구술 시스템들에서 종래의 텍스트 선택 방법들의 또 하나의 불이익은, 사용자 특정된 단어나 구문을 검색할 때, 상기 음성 구술 시스템들이 통상적으로 사용자의 스크린 상에 나타난 텍스트의 바디의 전체 부분을 검색한다는 것이다. 사용자의 스크린 상에 나타나는 각 단어는 음성 구술 시스템 문법에서 활성화되고 음성 구술 시스템에 대해 동등하게 가능성 있는 후보로서 나타난다. 사용자가 한 개의 단어나 구문만을 원하기 때문에, 사용자의 스크린 상에 나타나는 텍스트의 바디의 전체 부분을 허용 및 검색하는 것은 비효율적일 수 있다. 더욱이, 상기 기술은 오인식이 발생할 가능성을 증대시킬 수 있다.
종래의 음성 구술 시스템에서 종래의 텍스트 선택 방법들의 또 하나의 기술적 불이익은, 음성 구술 시스템에게는 음성 구술이나 예컨대 드롭-다운 메뉴를 활성화하는 음성 명령과 같은 음성 명령 중에 사용자가 단어를 말했는지 여부가 종종 명확하지 않다는 것이다. 일 예로서, 만약 사용자가 단어 "File"을 말한다면, 상 황에 따라, 사용자는 메뉴 바 내의 파일 메뉴를 활성화하거나 전자 문서 내에 단어 "file"을 삽입하는 것 두 가지 중에 하나를 의도할 수 있다. 따라서, 종래의 음성 구술 시스템에 있어 사용자 언어가 음성 명령인지 혹은 음성 구술인지가 언제나 명확한 것은 아니다.
따라서, 비록 현재 이용 가능한 음성 구술 시스템들이 애플리케이션을 청각적으로 명령하고, 전자 문서 내에 음성 구술을 제공하고, 전자 문서 내의 텍스트를 선택하기 위해 컴퓨터와 상호 작용하는 방법을 제공하고 있지만, 사용자 음성 명령들, 사용자 구술들, 텍스트, 및 이들간의 결합을 구별하는 향상된 방법에 대한 요구는 여전히 남는다.
따라서, 여기서 개시된 본 발명은 음성 구술 시스템(speech dictation system)과 결합된 안구 추적 시스템(eye-tracking system)의 활용을 통해 전자 문서 내의 텍스트의 서로 다른 출현들 사이와 음성 명령의 경우와 음성 구술의 경우 사이를 구별하는 방법 및 장치를 제공한다. 본 발명의 방법 및 장치는 음성 구술 중에 사용자의 응시점의 초점을 판정하기 위해 음성 구술 시스템과 함께 사용되는 안구 추적 시스템(ETS)을 포함하는 것이 바람직하다. 특히, 음성 구술 시스템과 ETS의 협동 사용은 "SELECT" 사용자 음성 명령 기능이나, 음성 구술 시스템 내의 텍스트의 바디 내에서 텍스트의 일부를 선택하기 위한 다른 임의의 사용자 음성 명령의 정확성을 향상시킬 수 있다. 본 발명에서 ETS의 사용은 또한 사용자 구술과 음성 명령 사이의 구별을 촉진함으로써 시스템 성능을 향상시킬 수 있다.
따라서, 제1 양상에서, 본 발명은 전자 문서 내의 매칭 텍스트를 검색하는 방법을 제공하는데, 이 방법은 사용자 인터페이스 내의 초점을 식별하고 상기 초점 주변 영역을 정의하는 단계를 포함한다. 특히, 주변 영역은 음성 구술된 텍스트를 받도록 구성된 사용자 인터페이스 객체 내의 텍스트의 바디를 포함할 수 있다. 또한, 상기 방법은 전자 문서 내의 특정한 텍스트를 선택하는 음성 명령을 수신하고 상기 특정한 텍스트에 매칭하는 주변 영역 내에 포함되는 텍스트의 바디를 검색하는 단계를 포함할 수 있다. 특히, 검색은 주변 영역 내의 텍스트의 바디로 제한될 수 있다.
바람직하게, 전자 문서 내의 매칭 텍스트를 검색하는 방법은 만약 검색 단계에서 특정한 텍스트로의 매치가 텍스트의 바디 내에서 발견되지 않는다면 사용자 인터페이스의 추가 영역을 포함하도록 주변 영역을 확장하는 단계를 더 포함할 수 있다. 특히, 확장에 의해 포함된 추가 영역은 추가 텍스트를 포함할 수 있다. 따라서, 추가 텍스트는 특정한 텍스트로의 매칭을 위해 검색될 수 있다. 마지막으로, 전술한 바와 같이, 검색은 텍스트의 바디와 추가 텍스트로 제한될 수 있다.
바람직하게, 확장 단계는 주변 영역을 고정된 증분만큼 초점에서 외측으로 확장하는 단계를 포함할 수 있다. 선택적으로, 확장 단계는 텍스트의 바디에 인접한 텍스트의 고정된 양만큼 주변 영역을 확장하는 단계를 포함할 수 있다. 마지막으로, 확장 단계는 주변 영역을 가변 증분만큼 초점에서 외측으로 확장하는 단계를 포함할 수 있다.
따라서, 제2 양상에서, 본 발명은 음성 명령의 경우와 음성 구술의 경우 사이를 구별하는 방법을 제공하는데, 이 방법은 사용자 인터페이스 내의 초점을 식별하는 단계; 초점 주위의 주변 영역을 정의하는 단계; 주변 영역 내의 사용자 인터페이스 객체들을 식별하는 단계; 식별된 사용자 인터페이스 객체들 중에서, 음성 구술된 텍스트를 받도록 구성되는 사용자 인터페이스 객체들과 음성 구술된 텍스트를 받도록 구성되지 않은 사용자 인터페이스 객체들을 더 식별하는 단계; 음성 구술된 텍스트를 받도록 구성되는 것으로 더 식별된 사용자 인터페이스 객체들과 음성 구술된 텍스트를 받도록 구성되지 않은 것으로 더 식별된 사용자 인터페이스 객체들에 기초하여 확률을 계산하는 단계; 음성 입력을 수신하는 단계; 및 계산된 확률에 기초하여 음성 입력이 음성 명령인지 혹은 음성 구술인지의 판정을 바이어스하는 단계를 포함할 수 있다. 또한, 상기 방법은 사용자 인터페이스 외측의 초점을 식별하는 단계; 및 디폴트 확률에 기초하여 음성 입력이 음성 명령인지 혹은 음성 구술인지의 판정을 바이어스하는 단계를 포함할 수 있다.
따라서, 제3 양상에서, 본 발명은 전자 문서 내의 매칭 텍스트를 검색하는 컴퓨터 프로그램이 저장된 기계 판독 가능한 스토리지를 제공하는데, 상기 컴퓨터 프로그램은 기계에 의해 실행 가능한 복수의 코드 섹션들을 구비하여 기계가, 사용자 인터페이스 내의 초점을 식별하는 단계; 상기 초점 주위의 주변 영역을 정의하는 단계로서, 상기 주변 영역은 음성 구술된 텍스트를 받도록 구성된 사용자 인터페이스 객체 내의 텍스트 바디를 포함하는, 상기 주변 영역 정의 단계; 전자 문서 내의 특정한 텍스트를 선택하는 음성 명령을 수신하는 단계; 및 상기 특정한 텍스트에 매칭하는 주변 영역 내에 포함된 상기 텍스트의 바디를 검색하는 단계로서, 상기 검색은 상기 주변 영역 내의 상기 텍스트의 바디로 제한되는, 상기 텍스트 바디 검색 단계를 수행하게 한다.
따라서, 제4 양상에서, 본 발명은 음성 명령의 경우와 음성 구술의 경우 사이의 구별을 위한 컴퓨터 프로그램이 저장된 기계 판독 가능한 스토리지를 제공하는데, 상기 컴퓨터 프로그램은 기계에 의해 실행 가능한 복수의 코드 섹션들을 구비하여 기계가, 사용자 인터페이스 내의 초점을 식별하는 단계; 상기 초점 주위의 주변 영역을 정의하는 단계; 상기 주변 영역 내의 사용자 인터페이스 객체들을 식별하는 단계; 상기 사용자 인터페이스 객체들 중에서, 음성 구술된 텍스트를 받도록 구성되는 사용자 인터페이스 객체들과 음성 구술된 텍스트를 받도록 구성되지 않은 사용자 인터페이스 객체들을 더 식별하는 단계; 음성 구술된 텍스트를 받도록 구성된 것으로 더 식별된 사용자 인터페이스 객체들과 음성 구술된 텍스트를 받도록 구성되지 않는 것으로 더 식별된 사용자 인터페이스 객체들에 기초하여 확률을 계산하는 단계; 음성 입력을 수신하는 단계; 및 상기 계산된 확률에 기초하여 상기 음성 입력이 음성 명령인지 혹은 음성 구술인지 여부의 판정을 바이어스하는 단계를 수행하게 한다.
따라서, 제4 양상에서, 본 발명은 컴퓨터에 의해 실행될 때 전술한 방법을 수행하는 컴퓨터 판독 가능한 저장 매체에 저장된 컴퓨터 프로그램 코드를 포함하는 컴퓨터 프로그램 프로덕트를 제공한다.
본 발명은, 이하 도면들에 도시된 것처럼, 본 발명의 양호한 실시예들을 참 조한 예시를 통해 이제부터 기술될 것이다.
도1은 여기에 개시된 본 발명과 상호 작용하는 사용자를 전형적으로 묘사한 도면.
도2는 본 발명에 사용되기 적합한 컴퓨터 시스템을 도시한 블록도.
도3은 도1의 컴퓨터 시스템을 위한 전형적인 높은 레벨의 아키텍쳐를 도시한 블록도.
도4는 음성 인식 엔진을 포함하는 전형적인 구성 요소들을 도시한 블록도.
도5A 및 도5B는, 서로 결합되어, 음성 구술 시스템과 결합된 안구 추적 시스템의 활용을 통해, 전자 문서 내의 텍스트의 서로 다른 출현들 사이와, 음성 명령의 경우와 음성 구술의 경우 사이를 구별하는 방법을 도시한 흐름도.
음성 구술 시스템과 결합된 안구 추적 시스템(ETS)의 활용은 음성 구술 시스템의 성능을 향상시킬 수 있다. 특히, 본 발명의 장치들에 따르면, ETS는 음성 구술 시스템이 텍스트의 바디 내의 텍스트의 다수 출현들 사이를 구별하는 것을 도와준다. 또한, ETS는 음성 구술 시스템이 음성 입력을 분석하여 음성 명령과 음성 구술 사이를 구별하는 것을 도와준다. 상기 개선들은 ETS 내에서 사용자의 응시점의 초점의 스크린 위치를 검출함으로써 구현될 수 있다. 바람직하게는, 스크린 위치는 스크린 상이든지 밖이든지 간에 음성 구술 시스템으로 통신될 수 있다. 사용자 시선의 초점 위치에 기초하여 초점에 대한 영역("주변 영역"으로 지칭)이 정의되는데, 이 영역은 음성 입력이 음성 명령인지 혹은 음성 구술인지 여부를 판정하 는 것을 도와줄 수 있다. 또한, 주변 영역은 사용자에 의한 선택을 위해 특정된 텍스트의 특정한 출현을 식별하는데 사용될 수 있다.
도1은 본원에 개시된 본 발명과 상호 작용하는 사용자를 전형적으로 묘사한 도면이다. 도1에서, 사용자는 비디오 디스플레이 단말기(VDT) 상의 위치를 응시한다. 사용자 시선의 초점은 VDT(32)의 스크린 상에 위치한 별표로 표시되어 있다. 또한 머리에 탑재된 하드웨어 인터페이스(29)를 구비한 ETS도 도시되어 있다. ETS는 안구 추적 및 측정 분야에서 잘 알려져 있다. 현재 메사츄세츠 보스턴의 센소모토릭 인스트루먼트 인크(SensoMotoric Instrument, Inc.)에 의해 제조된 아이마우스(EYEMOUSE: "EyeMouse"는 센소모토릭 인스트루먼츠 인크의 상표) 및 아이링크(EYELINK: "EyeLInk"는 에스알 리써치 리미티드의 상표)는 물론, 버지니아 페어팍스의 엘씨 테크놀러지스 인크(LC Technologies, Inc.)에 의해 제조된 디 아이게이즈 디벨롭먼트 시스템(THE EYEGAZE DEVELOPMENT SYSTEM)은 상업적으로 이용할 수 있다.
ETS를 위한 구성은 안구 추적 하드웨어 인터페이스(29) 및 영상 처리 시스템(34)을 포함할 수 있다. 안구 추적 하드웨어 인터페이스(29)는 엘씨 테크놀러지스 인크로부터 이용 가능한 테이블상 탑재된 유닛일 수 있다. 전형적인 테이블상 탑재된 유닛은 도2에 도시되어 있다. 선택적으로, 안구 추적 하드웨어 인터페이스(29)는 센소모토릭 인스트루먼츠 인크로부터 이용 가능하고 도1에 도시된 머리에 탑재된 유닛일 수 있다. 테이블상 탑재된 유닛이나 머리에 탑재된 유닛의 경우, 안구 추적 하드웨어 인터페이스(29)는 사용자의 눈에 관한 정보를 영상 처리 시스템(34)으로 통신할 수 있다.
영상 처리 시스템은 독립형 영상 처리 시스템이 될 수 있고, 선택적으로 종래의 컴퓨터 내에 존재할 수 있다. 영상 처리 시스템이 종래의 컴퓨터 내에 존재하는 경우, 종래의 컴퓨터는 영상 처리 시스템의 기능을 수행하기 위해 영상 처리 회로와 영상 처리 소프트웨어의 결합을 이용할 수 있다. 본 발명이 선택된 ETS에 의해 제한되지 않는다는 사실은 본 기술 분야에서 숙련된 자들에게 이해될 것이다. 오히려, 사용자 시선의 초점 위치를 컴퓨터에 통신할 수 있는 임의의 적합한 ETS라도 채용될 수 있다.
도2는 영상 처리 시스템(34)이 종래의 컴퓨터 기반 영상 처리 시스템인 상황을 도시하고 있다. 특히, 영상 처리 시스템(34)은 중앙 처리 장치(CPU), 한 개 혹은 두 개의 메모리 장치 및 관련 회로를 포함하는 종래의 컴퓨터(20)를 포함할 수 있다. 종래의 컴퓨터(20)는 컴퓨터 메모리 디바이스들(27)을 포함할 수 있는데, 컴퓨터 메모리 디바이스들(27)은 전자 임의 접근 메모리(27A)와 자기 디스크 드라이브와 같은 벌크 데이터 저장 매체(27B)를 포함하는 것이 바람직하다. 마지막으로, 컴퓨터(20)는 예컨대 마우스와 같은 포인팅 디바이스(21)와, 이에 기능적으로 접속된 비디오 데이터 단말기(VDT)와 같은 적어도 한 개의 사용자 인터페이스 디스플레이 유닛(32)을 포함할 수 있다.
특히, 컴퓨터(20)는 텍스트-음성(TTS) 변환은 물론 음성 인식을 수행하도록 배열될 수 있다. 이와 같이, 컴퓨터(20)는 예컨대 마이크로폰과 같은 오디오 입력 디바이스(30)를 더 포함할 수 있다. 또한, 컴퓨터(20)는 예컨대 스피커와 같은 오 디오 출력 디바이스(23)를 포함할 수 있다. 오디오 입력 디바이스(30) 및 오디오 출력 디바이스(23)는 적절한 인터페이스 회로나 "사운드 보드"(도시 생략)를 통해 컴퓨터(20)에 기능적으로 접속될 수 있다. 이 같은 방식으로, 사용자 음성이 오디오 입력 디바이스(30)를 통해 컴퓨터(20)로 수신될 수 있고, 다른 오디오는 물론 합성된 음성이 오디오 출력 디바이스(23)를 통해 사용자에게 제공될 수 있다. 상술한 종래의 컴퓨터(20)에 대한 다양한 하드웨어 요구들은 상업적으로 이용 가능한 다수의 고속 멀티미디어 퍼스널 컴퓨터 중의 임의의 하나에 의해 일반적으로 충족될 수 있다.
본 발명에 따르면, 컴퓨터(20)는 안구 추적 하드웨어 인터페이스(29)를 더 포함할 수 있는데(여기서는 테이블 탑 변형이 도시됨), 안구 추적 하드웨어 인터페이스(29)는 컴퓨터(20)의 통신 포트를 통해 컴퓨터에 기능적으로 접속되어 있고 적절한 영상 처리 회로 및 소프트웨어를 통해 컴퓨터(20)에 통신 가능하게 링크되어 있다. 특히, 영상 처리 회로 및 소프트웨어는 사용자 시선의 초점 위치를 판정할 수 있고, 영상 처리 소프트웨어에 통신 가능하게 링크된 컴퓨터 애플리케이션에 정보를 통신할 수 있다. 본 발명에서, 음성 구술 시스템은 영상 처리 소프트웨어에 통신 가능하게 링크될 수 있고, 이로부터 음성 구술 시스템은 사용자 시선의 초점 위치를 표시하는 데이터를 수신할 수 있다.
도3은 ETS를 결합시킨 음성 활성된 컴퓨터 시스템에 대한 전형적인 아키텍쳐를 도시하고 있는데, 여기서 컴퓨터 시스템은 전자 문서 내의 텍스트의 서로 다른 출현들 사이와, 음성 명령의 경우와 음성 구술의 경우 사이를 구별하도록 구성되어 있다. 도3에 도시된 바와 같이, 컴퓨터 시스템(20)은 메모리 스토리지(27) 내에 동작 시스템(24), 음성 구술 시스템(26) 및 안구 추적 시스템(22)을 포함할 수 있다. 도시된 예시에서는, 음성 텍스트 프로세서 애플리케이션(28)도 제공된다. 그러나 본 발명은 이에 제한되지 않고, 음성 구술 시스템(26)이 음성 활성화될 임의의 다른 응용 프로그램과 함께 사용될 수 있다.
도2에서, 음성 구술 시스템(26), 음성 텍스트 프로세서(28) 및 안구 추적 시스템(22)은 별개의 응용 프로그램들로 도시되어 있다. 그러나, 본 발명은 이에 한정되지 않으며, 이들 다양한 응용 프로그램들이 하나의 보다 복잡한 응용 프로그램으로 실행될 수 있다는 것이 인지될 것이다. 예를 들어, 음성 구술 애플리케이션(26)은 음성 텍스트 프로세서 애플리케이션(28)과 결합되거나, 음성 구술 시스템과 결합되어 사용될 임의의 다른 애플리케이션과 결합될 수 있다. 또한, 안구 추적 시스템(22)은 컴퓨터(20) 내에 저장된 응용 프로그램으로, 혹은 선택적으로 데이터 링크를 통해 컴퓨터(20)와 통신할 수 있는 독립형 ETS 내에 존재할 수 있다. 상기 시스템은 다른 응용 프로그램들의 음성 동작을 위한 음성 구술 시스템의 동작을 조정하도록 음성 네비게이터 애플리케이션(도시 생략)을 또한 포함할 수 있지만, 여기에 기술된 본 발명의 동작을 위해 반드시 필요한 것은 아니다.
도4는 음성 구술 시스템(26) 내에서 음성 신호의 음성-텍스트 변환을 기술하는 전형적인 구성 요소들을 도시한 블록도이다. 통상적으로, 아날로그 음성 신호들은 도2에 도시된 오디오 입력 디바이스를 통해 수신되고, 오디오 회로에서 디지 털 음성 신호로 처리될 수 있다. 특히, 음성 신호는 음성 신호를 어떤 고정된 속도(통상적으로 매 10-20 msec)로 샘플링함으로써 데이터의 디지털화된 세트로 변환될 수 있다. 이에 따라, 오디오 회로는 디지털 음성 신호를 음성 구술 시스템(26)으로 통신할 수 있다.
표시 블록(35)은 디지털 음성 신호를 수신할 수 있고, 음성 신호의 부분이 특정한 음향학적 사건에 대응하는 확률을 판정하도록 음성 인식 프로세스의 후속 단계들에서 사용될 수 있는 디지털 음성 신호의 표시를 생성할 수 있다. 이 프로세스는 동작 시스템으로부터 수신된 음성 신호들의 지각적으로 중요한 화자 독립적 특성들을 강조하는 것을 의도한다.
모델링/분류 블록(36)에서, 알고리즘들은 화자 독립적 음향학적 모델들을 현재 화자의 그것들에 더 적응시키도록 음성 신호들을 처리할 수 있다. 마지막으로, 검색 블록(38)에서, 검색 알고리즘들은 검색 엔진을 음성 신호에 가장 유사하게 대응하는 단어들로 안내하는데 사용된다. 검색 블록(38) 내의 검색 프로세스는 음향학적 모델들(40), 사전적 모델들(42), 언어 모델들(44) 및 트레이닝 데이터(46)의 도움으로 발생된다.
바람직하게는, 본 발명은 전자 문서 내의 텍스트의 서로 다른 출현들 사이와, 음성 명령의 경우와 음성 구술의 경우 사이를 구별하는 방법 및 장치를 제공한다. 본 발명의 방법 및 장치는 음성 구술 시스템과 결합된 ETS의 협동 사용을 포함할 수 있다. 특히, 이 결합은 "SELECT" 사용자 음성 명령 기능이나, 음성 구술 시스템 내의 텍스트의 바디 내에서 텍스트의 부분을 선택하기 위한 임의의 다른 사 용자 음성 명령의 정확성을 향상시킬 수 있다. 이 결합은 또한 음성 구술이나 음성 명령과 같은 음성 입력을 해석함에 있어 음성 구술 시스템을 도와줌으로써 음성 구술 시스템 성능을 향상시킬 수도 있다.
음성 구술 시스템에 대한 상기 개선들은 사용자 시선의 검출된 초점에 기초하여 사용자의 시선에 일시적으로 근사한 음성 입력이 음성 구술 또는 음성 명령 중 하나가 되는 확률을 계산하는 것에 의해 달성될 수 있다. 계산된 확률은 음성 입력을 음성 구술 또는 음성 명령 중 하나로 해석하도록 음성 구술 시스템을 바이어스시키는데 사용될 수 있다. 특히, 음성 구술 시스템은 검출된 초점을 둘러싼 조정 가능한 스크린 영역("주변 영역")을 정의할 수 있고, 그 결과, 음성 구술 시스템은 주변 영역 내에 위치한 텍스트 및 객체들에 관한 정보를 연속적으로 캡쳐 및 업데이트할 수 있다.
음성 입력을 수신하면, 음성 구술 시스템은 주변 영역이 사용자 인터페이스 객체들 또는 텍스트 입력 필드를 1차적으로 포함하는지 여부를 판정할 수 있다. 만약 주변 영역이 텍스트 입력 필드를 1차적으로 포함한다면, 음성 구술 시스템은 음성 입력이 텍스트 입력 필드로의 삽입을 위한 음성 구술로 해석되어야 한다고 결론을 내릴 수 있다. 대조적으로, 만약 주변 영역이 사용자 인터페이스 객체들을 1차적으로 포함한다면, 음성 구술 시스템은 음성 입력을 음성 명령으로 해석할 수 있다. 마지막으로, 음성 입력이 텍스트 입력 필드 내의 텍스트의 바디 내에서 텍스트를 검색하기 위한 음성 명령으로 해석되면, 음성 구술 시스템은 텍스트 입력 필드 내의 텍스트 전체보다는 주변 영역 내의 텍스트에 기초하여 선택될 텍스트를 식별할 수 있다. 이와 같이, 음성 구술 시스템 자원들은 전자 문서 내의 텍스트의 전체 바디보다는 텍스트의 보다 작은 영역에 대해 보다 효율적으로 사용될 수 있다.
도5A 및 도5B는 상호 결합하여 전자 문서 내의 텍스트의 서로 다른 출현들 사이와, 음성 명령의 경우와 음성 구술의 경우 사이를 구별하는 방법을 기술하는 흐름도를 구성한다. 상기 방법은 음성 구술 시스템 및 ETS의 사용을 위해 구성된 컴퓨터 시스템과 결합되어 수행될 수 있다. 도5A는 단계 50부터 시작하는데, 여기서 사용자는 음성 입력을 음성 구술 시스템에 제공하는 동안 VDT(32) 상의 다양한 위치들을 자연스럽게 응시하거나(스크린 상) 또는 VDT(32)를 외면하게 된다(스크린 밖).
단계 55에서, ETS는 사용자 시선의 초점의 위치를 식별한다. ETS는 영상 처리 회로 및 소프트웨어의 도움으로 사용자 시선의 초점이 스크린 상 위치인지 혹은 스크린 밖 위치인지를 판정한다. 아무튼, ETS는 이 정보를 음성 구술 시스템으로 통신한다. 단계 60에서, 음성 구술 시스템은 ETS로부터 사용자의 초점의 위치를 수신하였다. 만약 사용자 시선의 초점 위치가 스크린 상이라면 시스템은 단계 70으로 진행한다. 만약 아니라면, 시스템은 단계 65로 계속한다.
만약 단계 60에서 초점의 위치가 스크린 상이라고 판정된다면, ETS는 사용자 시선의 초점의 스크린 상 위치를 식별할 것이다. 따라서, 단계 70에서, 주변 영역은 초점 주위에 정의될 수 있다. 대표적인 일 실시예에서, 주변 영역은 초점으로부터 외측으로 연장되는 특정한 반경에 따른 둘레에 의해 정의될 수 있다. 선택적 으로, 주변 영역은 소정의 기하학적 영역을 초점 상에 오버레이하는 것에 의해 정의될 수 있다.
여전히, 본 발명은 주변 영역을 계산하는 방법으로 제한되지 않는다. 오히려, 주변 영역을 계산하는 임의의 적절한 방법이라도 본 발명의 목적들을 충족할 수 있다. 더욱이, 본 기술 분야에 숙련된 자는, 주변 영역이 어떻게 판정되고 주변 영역의 결과적인 형태는 어떠한지와는 무관하게, 외측 둘레 내의 영역의 크기 또는 디폴트 영역이 사용자가 조정 가능한 값이라는 것을 이해할 것이다. 예를 들어, 사용자는 디폴트 영역을 특정할 수 있거나, 선택적으로, 사용자는 주변 영역이 초점으로부터 외측으로 연장하는 반경을 특정할 수 있다.
단계 75에서, 주변 영역을 정의한 후, 상기 영역 내의 텍스트 및 객체들에 관한 정보는, 음성 입력이 음성 구술 또는 음성 명령으로서 해석되어야 할지를 판정하고, 또한 전자 문서 내의 소정의 텍스트의 특정한 출현을 식별하는데 사용되도록 캡쳐될 수 있다. 특히, 캡쳐된 정보는 예컨대 음성 구술된 텍스트를 받는데 적합하지 않은 사용자 인터페이스 객체들을 디스플레이하는데 사용되는 화소들의 수와, 음성 구술 텍스트를 받는데 적합한 사용자 인터페이스 객체들을 디스플레이하는데 사용되는 화소들의 수를 포함할 수 있다. 음성 구술 시스템이 그것의 자원들을 사용할 수 있는 제한된 영역을 정의함으로써, 음성 구술 시스템은 매우 큰 효율성을 얻는다는 것은 이해될 것이다. 예를 들어, 음성 구술 시스템은 전체 음성 구술 문법보다는 주변 영역 내에서 발견되는 텍스트를 포함하는 음성 구술 문법의 활성화 부분들만을 필요로 한다.
단계 80에서, 확률은 어떤 음성 구술이 음성 명령 또는 음성 구술로 해석될 수 있는지에 기초하여 계산될 수 있다. 특히, 확률은 주변 영역의 총 영역에 대한 주변 영역의 구술 가능한 영역의 비율을 계산하는 것에 의해 계산될 수 있다. 예를 들어, 만약 주변 영역의 70%가 사용자 구술을 수신할 수 있다면, 확률은 70% 또는 0.70이 된다. 여전히, 본 발명은 확률이 계산되는 특정한 방식으로 제한되지 않는다. 사실, 확률의 다른 계산은 예컨대 사용자 음성 명령들에 대해 이용 가능한 주변 영역 내의 객체들의 수에 대한 주변 영역 내의 텍스트된 또는 구술된 단어들의 수에 기초하여 계산될 수 있다. 그럼에도 불구하고, 확률이 어떻게 계산되었는지와 무관하게, 확률이 0이거나, 후속하는 사용자 언어들이 사용자 구술 또는 사용자 음성 명령들이라는 완전한 확실성을 표시하는 1이 아닌 것이 바람직하다는 것은 이해될 것이다. 전술한 극단적인 확률 값들을 허용하지 않음으로써, 사용자가 스크린을 바라보지 않으면서 음성 구술 시스템으로 음성을 구술하는 것을 원하는 상황이 가능하게 된다.
만약 판정 단계 60에서 사용자 시선의 초점이 스크린 밖의 위치에 있는 것으로 판정된다면, 단계 65에서 시스템은 확률에 디폴트 값을 할당할 수 있다. 이 디폴트 값은 디폴트 확률로 알려져 있고, 사용자에 의해 미리 형성될 수 있다. 디폴트 확률은 사용자 시선이 스크린을 벗어날 때 후속 음성 입력이 음성 구술 또는 음성 명령 중 하나가 될 통계적 가능성을 표시한다. 따라서, 디폴트 확률에 기초한 통계적 분석은 사용자가 스크린 밖을 응시할 때 사용자가 의도한 음성 입력이 음성 구술로 해석될 가능성을 표시할 수 있다.
디폴트 확률은 영(0.00)에서 일(1.00)까지 범위의 조정 가능한 값을 가질 수 있다. 특히, 본 기술 분야의 숙련된 자는 디폴트 확률에 높은 값을 할당하는 것이 음성 구술 중에 사용자가 스크린을 응시하기를 원하지 않는다는 추측을 나타낸다는 알것이다. 그러나, 디폴트 확률은 사용자가 스크린을 응시하고 있지 않을 때 제공된 음성 입력이 음성 구술 또는 음성 명령으로 해석되어야 하는 완전한 확실성을 나타내지 않는 것이 바람직하다. 상기 확실한 확률은 음성 구술 시스템에 에러를 야기할 수 있다.
단계 85에서, 확률을 계산하거나 디폴트 확률을 따른 후, 음성 입력은 수신될 수 있다. ETS의 도움으로 유도된 확률에 기초하여, 음성 입력은 음성 입력이 음성 구술 또는 음성 명령으로 해석되어야 할지를 판정하도록 분석될 수 있다. 따라서, 상기 방법은 계속해서 음성 입력을 처리하여 점프 원 A를 통해 도5B의 단계 95로 이끌 수 있다.
판정 단계 95에서, 단계 85에서 수신된 음성 입력이 "SELECT" 음성 명령이나 전자 문서 내에서 텍스트를 선택하는 다른 유사한 음성 명령인지를 판정받을 수 있다. 만약 음성 입력이 SELECT 명령으로 해석되지 않는다면, 상기 방법은 두 개의 행동 중 하나가 발생할 수 있는 단계 97로 나아간다. 첫 째, 만약 SELECT 음성 명령이 아닌 음성 입력이 또 하나의 음성 명령으로 해석된다면, 음성 명령은 종래의 음성 활성화된 애플리케이션의 경우에서와 같이 실행될 수 있다. 둘 째, 만약 음성 입력이 음성 구술로 해석된다면, 음성 입력은 음성 인식 엔진에 의해 텍스트로 변환될 수 있다. 따라서, 변환된 텍스트는 변환된 텍스트를 받도록 구성된 사용자 인터페이스 객체 내에 삽입될 수 있다. 두 경우, 상기 방법은 점프 원 C를 통해 도5A의 단계 50으로 돌아갈 수 있고 프로세스는 반복될 수 있다.
판정 단계 95로 돌아가서, 만약 단계 85에서 수신된 음성 입력이 SELECT 음성 명령이거나 전자 문서 내에서 텍스트를 선택하기 위한 다른 유사한 음성 명령이었다면, 단계 100에서 SELECT 명령에 의해 특정된 텍스트가 주변 영역 내에 포함된 텍스트의 바디 내에 위치하는지 여부가 판정될 수 있다. 예를 들어, 만약 음성 입력이 "SELECT mouse"와 같은 SELECT 명령으로 해석되었다면, 주변 영역 내에 포함된 텍스트의 바디가 단어 "mouse"를 포함하는지 여부가 판정될 수 있다. 만약 단계 100에서 특정한 텍스트에 대한 매치가 발견된다면, 상기 방법은 단계 105로 진행할 수 있다. 다른 경우, 상기 방법은 단계 110으로 계속한다.
만약 단계 100에 따라 특정한 텍스트에 대한 매치가 발견된다면, 단계 105에서, 특정한 텍스트에 대한 최적의 매치가 선택될 수 있다. 더욱 구체적으로, 만약 주변 영역 내의 텍스트의 바디 내에 단지 한 개의 매치만이 있다면, 통상적으로 텍스트의 매칭된 출현을 강조하는 것에 의해, 텍스트의 단일 매칭된 경우가 선택될 수 있다. 대조적으로, 만약 주변 영역 내의 텍스트의 바디 내에서 매칭 텍스트의 다수 출현들이 존재한다면, 주변 영역 내의 텍스트의 바디 내의 특정한 텍스트의 어느 경우가 초점에 가장 가까운지가 판정될 수 있다. 따라서, 사용자 시선의 초점은 매칭 텍스트의 어느 경우가 선택되어야 할지를 판정하는데 사용될 수 있다. 여전히, 본 발명은 이 점에 있어서 제한되지 않으며, 매칭 텍스트의 다수 출현들 중에서 매칭 텍스트의 경우를 선택하기 위한 다른 적합한 방법들이면 충분할 수 있 다. 상기 선택적 방법들은 주변 영역 내의 텍스트의 바디 내의 매칭 텍스트의 제1 출현을 선택하는 단계를 포함할 수 있다.
일단 특정한 텍스트의 적절한 출현이 식별되었다면, 식별된 텍스트는 통상적으로 텍스트를 시각적으로 강조하는 것에 의해 선택될 수 있다. 특정한 텍스트의 부정확하거나 소망되지 않은 출현이 선택된 경우, "PREVIOUS" 또는 "NEXT"와 같은 종래의 음성 명령들이 주변 영역 내의 특정한 텍스트의 다른 출현들로 네비게이트하는데 사용될 수 있다는 것이 이해될 것이다. 아무튼, 상기 방법은 프로세스를 다시 시작하기 위해 점프 원 C를 통해 도5A의 단계 50으로 돌아갈 수 있다. 따라서, 프로세스를 반복함으로써, 상기 방법은 다시 주변 영역을 계산하고, 연속해서 수신된 음성 입력이 음성 구술 또는 음성 명령인 확률을 판정할 수 있다.
판정 단계 110으로 돌아가서, 만약 주변 영역 내의 텍스트의 바디 내에서 매치가 발견되지 않는다면, 주변 영역이 음성 구술을 받도록 구성되는 가시적인 사용자 인터페이스 전부를 포함하는지 여부가 판정될 수 있다. 만약 그렇다면, 스크린 상의 텍스트의 바디에 매치가 존재하지 않고 단계 115에서와 같이 사용자가 통보를 받을 수 있다고 추측될 수 있다. 도5B에 도시되지 않은 또 하나의 실시예에서, 스크린 상에 매치가 없으면, 시스템은 사용자 특정된 텍스트에 대한 검색을 계속하고 더 확장하는 추가적인 옵션들을 사용자에게 제공할 수 있다. 예를 들어, 사용자는 사용자가 현재 오픈된 전자 문서의 나머지 부분들을 검색하기를 원하는지 여부에 대해 질문을 받을 수 있다. 선택적으로, 소정의 또는 사용자 조정 가능한 수의 주변 영역 전후의 단어들 또는 구문들에 의해 주변 영역을 확장하는 것과 같은 목표로 정해진 더 많은 옵션들이 사용자에게 제시될 수 있다. 아무튼, 이에 따라, 상기 방법은 프로세스를 다시 시작하기 위해 점프 원 C를 통해 도5A의 단계 50으로 돌아갈 수 있다.
대조적으로, 만약 단계 100에서 주변 영역이 음성 구술을 받도록 구성된 가시적 사용자 인터페이스 전부를 포함하고 있지 않은 것으로 판정된다면, 스크린 상의 바디 내에는 매치가 존재하지 않는 것으로 추측될 수 없다. 따라서, 단계 120과 함께 계속하면, 주변 영역에 의해 커버된 영역은 더 이상의 텍스트를 포함하도록 확장될 수 있다. 주변 영역의 확장을 수행하는 어떤 적절한 방법이라도 충분하다. 예를 들어, 주변 영역의 외측 둘레는 소정의 또는 다이나믹하게 계산된 값만큼 사용자 초점으로부터 모든 방향으로 동일하게 외측으로 연장될 수 있다. 선택적으로, 주변 영역은 영역 치수를 나타내는 소정의 값만큼 초점으로부터 외측으로 연장될 수 있다.
본 발명의 일 실시예에서, 디폴트 소정의 값은 확장의 정도를 결정하는데 사용될 수 있다. 디폴트 값은 미세 동조 능력을 제공하기 위해 조정 가능하게 될 수 있다. 이와 같이, 사용자는 검색의 반복 중에 주변 영역이 얼마나 더 크게 성장해야 하는지를 특정할 수 있다. 이상의 예시를 참작하면, 만약 사용자 특정된 텍스트 "mouse"가 주변 영역 내의 텍스트의 바디 내에서 발견되지 않았다면, 주변 영역의 둘레는 초점으로부터 외측을 향해 모든 방향으로 1 센티미터씩 확장될 수 있다. 선택적으로, 주변 영역은 5 평방미터 또는 화소들의 특정 수의 소정 영역만큼 확장될 수 있다.
주변 영역의 확장에 후속하여, 단계 125에서, 새롭게 확장된 주변 영역 내의 객체들 및 텍스트에 관한 정보는 본 발명 방법의 장차 사용을 위해 계산, 수집 및 저장될 수 있다. 또한, 이제 새롭게 확장된 주변 영역 내의 텍스트의 새로운 바디는 음성 구술 시스템 문법 내에서 활성화될 수 있다. 또한, 새롭게 확장된 주변 영역 내에서 존재하는 객체들의 속성들은 식별될 수 있다. 새롭게 확장된 주변 영역 내의 텍스트 및 객체들을 식별한 후, 텍스트의 바디 내의 매칭 텍스트에 대한 검색은 점프 원 B를 통해 개시되어 단계 100 내에서 반복될 수 있다. 이와 같이, 상기 방법은 텍스트의 바디 내의 사용자 특정된 텍스트에 대한 검색을 텍스트의 바디의 스크린 부분 및 이를 넘어서까지 체계적 및 증가적으로 확장할 수 있다.
특히, 본 발명은 하드웨어, 소프트웨어, 또는 하드웨어와 소프트웨어의 결합으로 구현될 수 있다. 본 발명의 방법은 하나의 컴퓨터 시스템 내에서 중앙 집중적 방식으로 구현되거나, 서로 다른 구성 요소들이 상호 접속된 몇 개의 컴퓨터 시스템들을 가로질러 분산되는 분산 방식으로 구현될 수 있다. 여기에 기재된 방법들을 수행하도록 적응된 어떤 종류의 컴퓨터 시스템이나 다른 장치라도 적합하다. 하드웨어와 소프트웨어의 전형적인 결합은 로딩 및 실행될 때 여기에 기재된 방법들을 수행하도록 컴퓨터 시스템을 제어하는 컴퓨터 프로그램을 구비한 일반 목적의 컴퓨터 시스템일 수 있다.
본 발명은, 여기 기재된 방법들의 수행을 가능하게 하는 모든 특징들을 포함하고 컴퓨터 시스템에 로딩될 때 이 방법들을 수행할 수 있는 컴퓨터 프로그램 제품 내에 내장될 수도 있다. 본원의 컴퓨터 프로그램 수단 또는 컴퓨터 프로그램은 정보 처리 능력을 구비한 시스템으로 하여금 a) 다른 언어, 코드 또는 표시로의 변환, b) 상이한 자료 형태의 재생 중 하나 또는 양자 모두를 수행하게 하도록 고안된 명령들의 세트의 임의의 언어, 코드 또는 표시로 된 임의의 표현이다.
전술한 명세서는 본 발명의 양호한 실시예들을 묘사 및 기재하였지만, 본 발명은 여기에 개시된 바로 그 구조로 제한되지 않는다는 것이 이해될 것이다. 본 발명은 본질적인 특성들로부터 벗어남 없이 다른 특정한 형태들로 구현될 수 있다. 따라서, 전술한 명세서보다는 후술한 청구항들이 본 발명의 범위를 나타내는 것으로 참조되여야 한다.
따라서, 본원에 개시된 본 발명은 음성 구술 시스템과 결합된 안구 추적 시스템의 활용을 통해 전자 문서 내의 텍스트의 서로 다른 출현들 사이와 음성 명령의 경우와 음성 구술의 경우 사이를 구별하는 방법 및 장치를 제공한다. 본 발명의 방법 및 장치는 음성 구술 중에 사용자의 응시점의 초점을 판정하기 위해 음성 구술 시스템과 함께 사용되는 안구 추적 시스템(ETS)을 포함하는 것이 바람직하다. 특히, 음성 구술 시스템과 ETS의 협동 사용은 "SELECT" 사용자 음성 명령 기능이나, 음성 구술 시스템 내의 텍스트의 바디 내에서 텍스트의 일부를 선택하기 위한 다른 임의의 사용자 음성 명령의 정확성을 향상시킬 수 있다. 본 발명에서 ETS의 사용은 또한 사용자 구술과 음성 명령 사이의 구별을 촉진함으로써 시스템 성능을 향상시킬 수 있다.

Claims (15)

  1. 전자 문서 내의 매칭(matching) 텍스트를 검색하는 방법에 있어서,
    사용자 인터페이스 내의 초점을 식별하는 단계;
    상기 초점 주위의 주변 영역을 정의하는 단계로서, 상기 주변 영역은 음성 구술된 텍스트를 받도록 구성된 사용자 인터페이스 객체 내의 텍스트의 바디(body)를 포함하고, 상기 텍스트의 바디는 상기 전자 문서내에 포함되어 디스플레이되는 텍스트의 서브 세트인, 상기 주변 영역 정의 단계;
    상기 전자 문서 내의 특정한 텍스트를 선택하는 음성 명령을 수신하는 단계; 및
    상기 특정한 텍스트에 대한 매치를 위해 상기 주변 영역 내에 포함된 상기 텍스트의 바디를 검색하는 단계로서, 상기 검색은 상기 주변 영역 내의 상기 텍스트의 바디로 제한되는, 상기 텍스트 바디 검색 단계를 포함하는 매칭 텍스트 검색 방법.
  2. 제1항에 있어서, 만약 상기 검색 단계에서 상기 텍스트의 바디 내에서 상기 특정한 텍스트에 대한 매치가 발견되지 않는다면, 상기 사용자 인터페이스의 추가적인 영역을 포함하도록 상기 주변 영역을 확장하는 단계로서, 상기 추가적인 영역은 추가적인 텍스트를 포함하는, 상기 주변 영역 확장 단계; 및
    상기 특정한 텍스트에 대한 매치를 위해 상기 추가적인 텍스트를 검색하는 단계로서, 상기 검색은 상기 텍스트의 바디 및 상기 추가적인 텍스트로 제한되는, 상기 추가적인 텍스트 검색 단계를 더 포함하는 매칭 텍스트 검색 방법.
  3. 제2항에 있어서, 상기 확장 단계는 고정된 증분만큼 상기 초점으로부터 외측으로 상기 주변 영역을 확장하는 단계를 포함하는, 매칭 텍스트 검색 방법.
  4. 제2항에 있어서, 상기 확장 단계는 상기 텍스트의 바디에 인접한 텍스트의 고정된 양만큼 상기 주변 영역을 확장하는 단계를 포함하는, 매칭 텍스트 검색 방법.
  5. 제2항에 있어서, 상기 확장 단계는 가변 증분만큼 상기 초점으로부터 외측으로 상기 주변 영역을 확장하는 단계를 포함하는, 매칭 텍스트 검색 방법.
  6. 음성 명령의 경우와 음성 구술의 경우 사이를 구별하는 방법에 있어서,
    사용자 인터페이스 내의 초점을 식별하는 단계;
    상기 초점 주위의 주변 영역을 정의하는 단계;
    상기 주변 영역 내의 사용자 인터페이스 객체들을 식별하는 단계;
    상기 식별된 사용자 인터페이스 객체들 중에서, 음성 구술된 텍스트를 받도록 구성되는 사용자 인터페이스 객체들과, 음성 구술된 텍스트를 받도록 구성되지 않은 사용자 인터페이스 객체들을 더 식별하는 단계;
    음성 구술된 텍스트를 받도록 구성되는 것으로 더 식별되었던 상기 사용자 인터페이스 객체들과, 음성 구술된 텍스트를 받도록 구성되지 않은 것으로 더 식별되었던 상기 사용자 인터페이스 객체들에 기초하여 확률을 계산하는 단계;
    음성 입력을 수신하는 단계; 및
    상기 계산된 확률에 기초하여 상기 음성 입력이 음성 명령인지 혹은 음성 구술인지의 판정을 바이어스하는 단계를 포함하는 구별 방법.
  7. 제6항에 있어서, 상기 사용자 인터페이스 외측의 초점을 식별하는 단계; 및
    디폴트 확률에 기초하여 상기 음성 입력이 음성 명령인지 혹은 음성 구술인지의 판정을 바이어스하는 단계를 더 포함하는 구별 방법.
  8. 전자 문서 내의 매칭 텍스트를 검색하며 기기가 실행 가능한 복수의 코드 섹션들을 구비한 컴퓨터 프로그램이 저장된 컴퓨터가 읽기 가능한 기록매체에 있어서,
    사용자 인터페이스 내의 초점을 식별하는 단계;
    상기 초점 주위의 주변 영역을 정의하는 단계로서, 상기 주변 영역은 음성 구술된 텍스트를 받도록 구성되는 사용자 인터페이스 객체 내의 텍스트의 바디를 포함하고, 상기 텍스트의 바디는 상기 전자 문서내에 포함되어 디스플레이되는 텍스트의 서브 세트인, 상기 주변 영역 정의 단계;
    상기 전자 문서 내의 특정한 텍스트를 선택하는 음성 명령을 수신하는 단계; 및
    상기 특정한 텍스트에 대한 매치를 위해 상기 주변 영역 내에 포함된 상기 텍스트의 바디를 검색하는 단계로서, 상기 검색은 상기 주변 영역 내의 상기 텍스트의 바디로 제한되는, 상기 텍스트 바디 검색 단계
    를 포함하는 프로그램이 기록된 컴퓨터가 읽기 가능한 기록 매체.
  9. 제8항에 있어서, 만약 상기 검색 단계에서 상기 텍스트의 바디 내에서 상기 특정한 텍스트에 대한 매치가 발견되지 않는다면, 상기 사용자 인터페이스의 추가적인 영역을 포함하도록 상기 주변 영역을 확장하는 단계로서, 상기 추가적인 영역은 추가적인 텍스트를 포함하는, 상기 주변 영역 확장 단계; 및
    상기 특정한 텍스트에 대한 매치를 위해 상기 추가적인 텍스트를 검색하는 단계로서, 상기 검색은 상기 텍스트의 바디 및 상기 추가적인 텍스트로 제한되는, 상기 추가적인 텍스트 검색 단계를 더 포함하는 프로그램이 기록된 컴퓨터가 읽기 가능한 기록 매체.
  10. 제9항에 있어서, 상기 확장 단계는 고정된 증분만큼 상기 초점으로부터 외측으로 상기 주변 영역을 확장하는 단계를 포함하는 프로그램이 기록된 컴퓨터가 읽기 가능한 기록 매체.
  11. 제9항에 있어서, 상기 확장 단계는 상기 텍스트의 바디에 인접한 텍스트의 고정된 양만큼 상기 주변 영역을 확장하는 단계를 포함하는 프로그램이 기록된 컴퓨터가 읽기 가능한 기록 매체.
  12. 제9항에 있어서, 상기 확장 단계는 가변 증분만큼 상기 초점으로부터 외측으로 상기 주변 영역을 확장하는 단계를 포함하는 프로그램이 기록된 컴퓨터가 읽기 가능한 기록 매체.
  13. 음성 명령의 경우와 음성 구술의 경우 사이를 구별하며 기기에 의해 실행 가능한 복수의 코드 섹션을 구비하는 컴퓨터 프로그램이 기록된 컴퓨터가 읽기 가능한 기록 매체에 있어서,
    사용자 인터페이스 내의 초점을 식별하는 단계;
    상기 초점 주위의 주변 영역을 정의하는 단계;
    상기 주변 영역 내의 사용자 인터페이스 객체들을 식별하는 단계;
    상기 식별된 사용자 인터페이스 객체들 중에서, 음성 구술된 텍스트를 받도록 구성되는 사용자 인터페이스 객체들과, 음성 구술된 텍스트를 받도록 구성되지 않은 사용자 인터페이스 객체들을 더 식별하는 단계;
    음성 구술된 텍스트를 받도록 구성되는 것으로 더 식별되었던 상기 사용자 인터페이스 객체들과, 음성 구술된 텍스트를 받도록 구성되지 않은 것으로 더 식별되었던 상기 사용자 인터페이스 객체를 기초로 하여 확률을 계산하는 단계;
    음성 입력을 수신하는 단계; 및
    상기 계산된 확률에 기초하여 상기 음성 입력이 음성 명령인지 혹은 음성 구술인지의 판정을 바이어스하는 단계를
    포함하는 프로그램이 기록된 컴퓨터가 읽기 가능한 기록 매체.
  14. 제13항에 있어서, 상기 사용자 인터페이스의 외측의 초점을 식별하는 단계; 및
    디폴트 확률에 기초하여 상기 음성 입력이 음성 명령인지 혹은 음성 구술인지의 판정을 바이어스하는 단계를 더 포함하는 프로그램이 기록된 컴퓨터가 읽기 가능한 기록 매체.
  15. 제1항 내지 제7항중 어느 하나의 항에 따른 방법을 수행하는 컴퓨터 프로그램 코드가 기록된 컴퓨터가 읽기 가능한 기록매체.
KR1020037003790A 2000-09-20 2001-09-13 구술 및 명령 구별을 향상하는 방법 KR100586286B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/665,939 US6795806B1 (en) 2000-09-20 2000-09-20 Method for enhancing dictation and command discrimination
US09/665,939 2000-09-20
PCT/GB2001/004092 WO2002025637A1 (en) 2000-09-20 2001-09-13 Eye gaze for contextual speech recognition

Publications (2)

Publication Number Publication Date
KR20030046453A KR20030046453A (ko) 2003-06-12
KR100586286B1 true KR100586286B1 (ko) 2006-06-07

Family

ID=24672168

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020037003790A KR100586286B1 (ko) 2000-09-20 2001-09-13 구술 및 명령 구별을 향상하는 방법

Country Status (14)

Country Link
US (2) US6795806B1 (ko)
EP (1) EP1320848B1 (ko)
JP (1) JP3943492B2 (ko)
KR (1) KR100586286B1 (ko)
CN (1) CN1205602C (ko)
AT (1) ATE336779T1 (ko)
AU (1) AU2001286090A1 (ko)
CA (1) CA2420093A1 (ko)
DE (1) DE60122352T2 (ko)
ES (1) ES2269449T3 (ko)
HK (1) HK1057940A1 (ko)
IL (1) IL154852A0 (ko)
TW (1) TW521262B (ko)
WO (1) WO2002025637A1 (ko)

Families Citing this family (168)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7225229B1 (en) 1998-12-18 2007-05-29 Tangis Corporation Automated pushing of computer user's context data to clients
US6920616B1 (en) * 1998-12-18 2005-07-19 Tangis Corporation Interface for exchanging context data
US6842877B2 (en) 1998-12-18 2005-01-11 Tangis Corporation Contextual responses based on automated learning techniques
US6791580B1 (en) 1998-12-18 2004-09-14 Tangis Corporation Supplying notifications related to supply and consumption of user context data
US7046263B1 (en) 1998-12-18 2006-05-16 Tangis Corporation Requesting computer user's context data
US8181113B2 (en) 1998-12-18 2012-05-15 Microsoft Corporation Mediating conflicts in computer users context data
US9183306B2 (en) 1998-12-18 2015-11-10 Microsoft Technology Licensing, Llc Automated selection of appropriate information based on a computer user's context
US7231439B1 (en) 2000-04-02 2007-06-12 Tangis Corporation Dynamically swapping modules for determining a computer user's context
US6513046B1 (en) 1999-12-15 2003-01-28 Tangis Corporation Storing and recalling information to augment human memories
US6801223B1 (en) 1998-12-18 2004-10-05 Tangis Corporation Managing interactions between computer users' context models
US7779015B2 (en) * 1998-12-18 2010-08-17 Microsoft Corporation Logging and analyzing context attributes
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
WO2001075676A2 (en) 2000-04-02 2001-10-11 Tangis Corporation Soliciting information based on a computer user's context
US7464153B1 (en) 2000-04-02 2008-12-09 Microsoft Corporation Generating and supplying user context data
US20020054130A1 (en) * 2000-10-16 2002-05-09 Abbott Kenneth H. Dynamically displaying current status of tasks
EP1215658A3 (en) * 2000-12-05 2002-08-14 Hewlett-Packard Company Visual activation of voice controlled apparatus
GB2388209C (en) 2001-12-20 2005-08-23 Canon Kk Control apparatus
US7881493B1 (en) * 2003-04-11 2011-02-01 Eyetools, Inc. Methods and apparatuses for use of eye interpretation information
US20040268216A1 (en) * 2003-06-24 2004-12-30 Jacobs Paul E Method and apparatus for transferring a document into a folder
US7629989B2 (en) * 2004-04-02 2009-12-08 K-Nfb Reading Technology, Inc. Reducing processing latency in optical character recognition for portable reading machine
KR100716438B1 (ko) * 2004-07-27 2007-05-10 주식회사 현대오토넷 차량용 텔레매틱스 시스템에서 음성 사용자 인터페이스를제공하는 장치 및 방법
US7580837B2 (en) 2004-08-12 2009-08-25 At&T Intellectual Property I, L.P. System and method for targeted tuning module of a speech recognition system
US7844464B2 (en) * 2005-07-22 2010-11-30 Multimodal Technologies, Inc. Content-based audio playback emphasis
US7242751B2 (en) 2004-12-06 2007-07-10 Sbc Knowledge Ventures, L.P. System and method for speech recognition-enabled automatic call routing
US7751551B2 (en) 2005-01-10 2010-07-06 At&T Intellectual Property I, L.P. System and method for speech-enabled call routing
US7657020B2 (en) 2005-06-03 2010-02-02 At&T Intellectual Property I, Lp Call routing system and method of using the same
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7697827B2 (en) 2005-10-17 2010-04-13 Konicek Jeffrey C User-friendlier interfaces for a camera
US20070150916A1 (en) * 2005-12-28 2007-06-28 James Begole Using sensors to provide feedback on the access of digital content
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8036917B2 (en) * 2006-11-22 2011-10-11 General Electric Company Methods and systems for creation of hanging protocols using eye tracking and voice command and control
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8689203B2 (en) * 2008-02-19 2014-04-01 Microsoft Corporation Software update techniques based on ascertained identities
US20090248397A1 (en) * 2008-03-25 2009-10-01 Microsoft Corporation Service Initiation Techniques
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US8416715B2 (en) * 2009-06-15 2013-04-09 Microsoft Corporation Interest determination for auditory enhancement
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8600732B2 (en) * 2010-11-08 2013-12-03 Sling Media Pvt Ltd Translating programming content to match received voice command language
US20120124467A1 (en) * 2010-11-15 2012-05-17 Xerox Corporation Method for automatically generating descriptive headings for a text element
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US20120310642A1 (en) * 2011-06-03 2012-12-06 Apple Inc. Automatically creating a mapping between text data and audio data
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
KR101754750B1 (ko) * 2011-09-08 2017-07-10 인텔 코포레이션 상호작용 스크린 보기를 위한 장치, 매체 및 방법
US9691381B2 (en) 2012-02-21 2017-06-27 Mediatek Inc. Voice command recognition method and related electronic device and computer-readable medium
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9423870B2 (en) * 2012-05-08 2016-08-23 Google Inc. Input determination method
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9443510B2 (en) * 2012-07-09 2016-09-13 Lg Electronics Inc. Speech recognition apparatus and method
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9265458B2 (en) 2012-12-04 2016-02-23 Sync-Think, Inc. Application of smooth pursuit cognitive testing paradigms to clinical drug development
CN103885743A (zh) * 2012-12-24 2014-06-25 大陆汽车投资(上海)有限公司 结合注视跟踪技术的语音文本输入方法和系统
US9380976B2 (en) 2013-03-11 2016-07-05 Sync-Think, Inc. Optical neuroinformatics
US9436287B2 (en) * 2013-03-15 2016-09-06 Qualcomm Incorporated Systems and methods for switching processing modes using gestures
KR20140132246A (ko) * 2013-05-07 2014-11-17 삼성전자주식회사 오브젝트 선택 방법 및 오브젝트 선택 장치
US20140350942A1 (en) * 2013-05-23 2014-11-27 Delphi Technologies, Inc. Vehicle human machine interface with gaze direction and voice recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
DE112014002747T5 (de) 2013-06-09 2016-03-03 Apple Inc. Vorrichtung, Verfahren und grafische Benutzerschnittstelle zum Ermöglichen einer Konversationspersistenz über zwei oder mehr Instanzen eines digitalen Assistenten
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN103729059A (zh) * 2013-12-27 2014-04-16 北京智谷睿拓技术服务有限公司 交互方法及装置
US9412363B2 (en) 2014-03-03 2016-08-09 Microsoft Technology Licensing, Llc Model based approach for on-screen item selection and disambiguation
US9966079B2 (en) * 2014-03-24 2018-05-08 Lenovo (Singapore) Pte. Ltd. Directing voice input based on eye tracking
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
EP3149728B1 (en) 2014-05-30 2019-01-16 Apple Inc. Multi-command single utterance input method
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US20150364140A1 (en) * 2014-06-13 2015-12-17 Sony Corporation Portable Electronic Equipment and Method of Operating a User Interface
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10317992B2 (en) 2014-09-25 2019-06-11 Microsoft Technology Licensing, Llc Eye gaze for spoken language understanding in multi-modal conversational interactions
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
WO2016151396A1 (en) * 2015-03-20 2016-09-29 The Eye Tribe Method for refining control by combining eye tracking and voice recognition
US20170262051A1 (en) * 2015-03-20 2017-09-14 The Eye Tribe Method for refining control by combining eye tracking and voice recognition
FR3034215B1 (fr) * 2015-03-27 2018-06-15 Valeo Comfort And Driving Assistance Procede de commande, dispositif de commande, systeme et vehicule automobile comprenant un tel dispositif de commande
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
DE102015210430A1 (de) * 2015-06-08 2016-12-08 Robert Bosch Gmbh Verfahren zum Erkennen eines Sprachkontexts für eine Sprachsteuerung, Verfahren zum Ermitteln eines Sprachsteuersignals für eine Sprachsteuerung und Vorrichtung zum Ausführen der Verfahren
JP6553418B2 (ja) * 2015-06-12 2019-07-31 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 表示制御方法、表示制御装置及び制御プログラム
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9934782B2 (en) * 2015-09-22 2018-04-03 Meshrose Ltd. Automatic performance of user interaction operations on a computing device
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US9886958B2 (en) 2015-12-11 2018-02-06 Microsoft Technology Licensing, Llc Language and domain independent model based approach for on-screen item selection
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US20170345410A1 (en) * 2016-05-26 2017-11-30 Tyler Murray Smith Text to speech system with real-time amendment capability
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
US10223067B2 (en) 2016-07-15 2019-03-05 Microsoft Technology Licensing, Llc Leveraging environmental context for enhanced communication throughput
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
CN106527729A (zh) * 2016-11-17 2017-03-22 科大讯飞股份有限公司 非接触式输入方法和装置
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10142686B2 (en) * 2017-03-30 2018-11-27 Rovi Guides, Inc. System and methods for disambiguating an ambiguous entity in a search query based on the gaze of a user
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10366691B2 (en) * 2017-07-11 2019-07-30 Samsung Electronics Co., Ltd. System and method for voice command context
US10795671B2 (en) * 2017-11-21 2020-10-06 International Business Machines Corporation Audiovisual source code documentation
CN107957779A (zh) * 2017-11-27 2018-04-24 海尔优家智能科技(北京)有限公司 一种利用眼部动作控制信息搜索的方法及装置
WO2019118089A1 (en) 2017-12-11 2019-06-20 Analog Devices, Inc. Multi-modal far field user interfaces and vision-assisted audio processing
US10657954B2 (en) * 2018-02-20 2020-05-19 Dropbox, Inc. Meeting audio capture and transcription in a collaborative document context
US11488602B2 (en) 2018-02-20 2022-11-01 Dropbox, Inc. Meeting transcription using custom lexicons based on document history
US10467335B2 (en) 2018-02-20 2019-11-05 Dropbox, Inc. Automated outline generation of captured meeting audio in a collaborative document context
US11157075B2 (en) * 2018-05-01 2021-10-26 Dell Products, L.P. Gaze-activated voice services for interactive workspaces
CN111833846B (zh) * 2019-04-12 2023-06-02 广东小天才科技有限公司 一种根据意图启动听写状态的方法和装置,及存储介质
US11689379B2 (en) 2019-06-24 2023-06-27 Dropbox, Inc. Generating customized meeting insights based on user interactions and meeting media
CN111090473A (zh) * 2019-07-29 2020-05-01 广东小天才科技有限公司 一种基于电子设备的听写启动方法及电子设备
WO2021230048A1 (ja) * 2020-05-15 2021-11-18 株式会社Nttドコモ 情報処理システム
US20230065847A1 (en) * 2021-08-31 2023-03-02 International Business Machines Corporation Network bandwidth conservation during video conferencing

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3530591B2 (ja) 1994-09-14 2004-05-24 キヤノン株式会社 音声認識装置及びこれを用いた情報処理装置とそれらの方法
US5777614A (en) * 1994-10-14 1998-07-07 Hitachi, Ltd. Editing support system including an interactive interface
EP0718823B1 (de) 1994-12-23 2000-09-20 Siemens Aktiengesellschaft Verfahren zur Umwandlung von sprachlich eingegebenen Informationen in maschinenlesbare Daten
US5799279A (en) 1995-11-13 1998-08-25 Dragon Systems, Inc. Continuous speech recognition of text and commands
US6078310A (en) * 1996-06-26 2000-06-20 Sun Microsystems, Inc. Eyetracked alert messages
US6351273B1 (en) * 1997-04-30 2002-02-26 Jerome H. Lemelson System and methods for controlling automatic scrolling of information on a display or screen
US6393136B1 (en) * 1999-01-04 2002-05-21 International Business Machines Corporation Method and apparatus for determining eye contact
ES2231448T3 (es) 2000-01-27 2005-05-16 Siemens Aktiengesellschaft Sistema y procedimiento para el procesamiento de voz enfocado a la vision.

Also Published As

Publication number Publication date
CN1205602C (zh) 2005-06-08
ATE336779T1 (de) 2006-09-15
DE60122352D1 (de) 2006-09-28
JP2004510239A (ja) 2004-04-02
WO2002025637A1 (en) 2002-03-28
JP3943492B2 (ja) 2007-07-11
CA2420093A1 (en) 2002-03-28
ES2269449T3 (es) 2007-04-01
TW521262B (en) 2003-02-21
DE60122352T2 (de) 2007-09-06
US20040216049A1 (en) 2004-10-28
US6795806B1 (en) 2004-09-21
IL154852A0 (en) 2003-10-31
CN1449558A (zh) 2003-10-15
KR20030046453A (ko) 2003-06-12
EP1320848A1 (en) 2003-06-25
AU2001286090A1 (en) 2002-04-02
HK1057940A1 (en) 2004-04-23
EP1320848B1 (en) 2006-08-16

Similar Documents

Publication Publication Date Title
KR100586286B1 (ko) 구술 및 명령 구별을 향상하는 방법
US7720683B1 (en) Method and apparatus of specifying and performing speech recognition operations
EP2261893B1 (en) Audio playback for text edition in a speech recognition system
JP4570176B2 (ja) ユーザにオーディオ・フィードバックを与える拡張可能音声認識システム
JP4444396B2 (ja) 音声認識におけるポジション操作
US5950160A (en) Method and system for displaying a variable number of alternative words during speech recognition
JP3414735B2 (ja) 複合ワードを有する言語のための音声認識装置
US6314397B1 (en) Method and apparatus for propagating corrections in speech recognition software
EP0840288B1 (en) Method and system for editing phrases during continuous speech recognition
EP0867857A2 (en) Enrolment in speech recognition
US5787231A (en) Method and system for improving pronunciation in a voice control system
JP5824829B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
CN104715005B (zh) 信息处理设备以及方法
US6591236B2 (en) Method and system for determining available and alternative speech commands
US6963834B2 (en) Method of speech recognition using empirically determined word candidates
JP4634156B2 (ja) 音声対話方法および音声対話装置
EP1316944B1 (en) Sound signal recognition system and method, and dialog control system and method using it
KR102392992B1 (ko) 음성 인식 기능을 활성화시키는 호출 명령어 설정에 관한 사용자 인터페이싱 장치 및 방법
KR101830210B1 (ko) 적어도 하나의 의미론적 유닛의 집합을 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
KR101704501B1 (ko) 적어도 하나의 의미론적 유닛의 집합을 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
JP6221267B2 (ja) 音声認識装置及び方法、並びに、半導体集積回路装置
JP2000010588A (ja) 音声認識方法及び装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130502

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20140508

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20150430

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20160427

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20170517

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20180516

Year of fee payment: 13

LAPS Lapse due to unpaid annual fee