KR100586286B1

KR100586286B1 - 구술 및 명령 구별을 향상하는 방법

Info

Publication number: KR100586286B1
Application number: KR1020037003790A
Authority: KR
Inventors: 루이스제임스; 오르테가케리
Original assignee: 인터내셔널 비지네스 머신즈 코포레이션
Priority date: 2000-09-20
Filing date: 2001-09-13
Publication date: 2006-06-07
Also published as: CN1205602C; ATE336779T1; DE60122352D1; JP2004510239A; WO2002025637A1; JP3943492B2; CA2420093A1; ES2269449T3; TW521262B; DE60122352T2; US20040216049A1; US6795806B1; IL154852A0; CN1449558A; KR20030046453A; EP1320848A1; AU2001286090A1; HK1057940A1; EP1320848B1

Abstract

음성 명령의 경우와 음성 구술의 경우 사이를 구별하는 방법은 사용자 인터페이스 내의 초점을 식별하는 단계; 상기 초점 주위의 주변 영역을 정의하는 단계; 상기 주변 영역 내의 사용자 인터페이스 객체들을 식별하는 단계; 상기 식별된 사용자 인터페이스 객체들 중에서, 음성 구술된 텍스트를 받도록 구성되는 사용자 인터페이스 객체들과, 음성 구술된 텍스트를 받도록 구성되지 않은 사용자 인터페이스 객체들을 더 식별하는 단계; 음성 구술된 텍스트를 받도록 구성되는 것으로 더 식별되었던 상기 사용자 인터페이스 객체들과, 음성 구술된 텍스트를 받도록 구성되지 않은 것으로 더 식별되었던 상기 사용자 인터페이스 객체들에 기초하여 확률을 계산하는 단계; 음성 입력을 수신하는 단계; 및 상기 계산된 확률에 기초하여 상기 음성 입력이 음성 명령인지 혹은 음성 구술인지의 판정을 바이어스하는 단계를 포함할 수 있다. 또한, 상기 방법은 상기 사용자 인터페이스 외측의 초점을 식별하는 단계; 및 디폴트 확률에 기초하여 상기 음성 입력이 음성 명령인지 혹은 음성 구술인지의 판정을 바이어스하는 단계를 포함할 수 있다.

전자 문서, 텍스트, 초점, 사용자 인터페이스, 저장 매체.

Description

구술 및 명령 구별을 향상하는 방법 {EYE GAZE FOR CONTEXTUAL SPEECH RECOGNITION}

본 발명은 음성 인식 분야에 관한 것으로, 보다 구체적으로는, 사용자 구술, 사용자 음성 명령, 및 텍스트 사이의 구별을 향상시키는 방법에 관한 것이다.

음성 인식은 마이크로폰에 의해 수신된 음향 신호가 컴퓨터에 의해 텍스트로 변환되는 프로세스이다. 그 후, 인식된 텍스트는 문서 준비, 데이터 엔트리, 그리고 명령 및 제어와 같은 목적들을 위한 다양한 컴퓨터 소프트웨어 애플리케이션들에 사용될 수 있다. 음성 인식 시스템들은 컴퓨터 시스템들을 조작하는 핸즈 프리 방법을 사용자들에게 더 제공한다.

전자 문서 준비에 관해서, 최근 사용 가능한 음성 구술 시스템들은 사용자로 하여금 전자 문서 내의 텍스트의 일부를 선택할 수 있게 하는 사용자 음성 명령들을 제공한다. 상기 사용자 음성 명령들은 통상적으로 "SELECT <text>"와 같은 문법을 채용하는데, 여기서 사용자 음성 명령 "SELECT" 신호들을 따르는 텍스트는 반드시 선택되거나 강조되어야 한다. 텍스트의 일부가 선택되어진 후, 사용자는 선택된 텍스트 상에 임의의 일련의 연속적인 조작들을 수행할 수 있다.

따라서, 만약 사용자가 "SELECT how are you"를 말한다면, 음성 인식 시스템 은 전자 문서 내의 텍스트의 바디 내에서 텍스트 구문 "how are you"를 검색할 것이다. 일단 텍스트의 바디 내에 위치하면, 상기 구문은 선택되거나 강조될 수 있다. 그 후, 사용자는 선택된 텍스트 상에 예컨대 삭제 조작, 볼드/이탤릭/밑줄 조작, 또는 정정 조작과 같은 조작을 수행할 수 있다. 더 기술하면, 일단 텍스트 "how are you"가 강조되면, 텍스트의 사용자 선택된 부분은 후속하는 사용자 언어로부터 추출된 다른 텍스트로 대체될 수 있다. 이 방식으로, 사용자들은 전자 문서의 핸즈 프리 정정을 수행할 수 있다.

최근, "SELECT" 명령의 공지된 수행들, 또는 텍스트 선택을 위한 다른 유사한 사용자 음성 명령들은 몇 가지 불이익을 겪고 있다. 상기 불이익 중 하나는 텍스트의 바디 내에서 사용자가 선택하고자 하는 구문이나 단어가 다수 출현할 수 있다는 것이다. 예컨대, 텍스트의 바디 내에서, 단어 "the"는 다수 출현할 가능성이 있다. 따라서, 만약 사용자가 "SELECT the"를 말한다면, 음성 인식 시스템은 단어 "the"의 어느 출현이 사용자가 선택하고자 하는지를 판정할 수 없을 것이다.

상기 문제를 해결하기 위해, 종래의 음성 구술 시스템들은 사용자 소망된 단어나 사용자가 선택하고자 하는 구문의 출현을 판정하는 규칙들의 시스템에 의존한다. 예컨대, 음성 구술 시스템은 활성 창의 맨 위에서 시작하여 단어나 구문의 최초 출현을 선택할 수 있다. 그러나, 만약 사용자가 단어나 구문의 최초 출현을 선택하기를 원하지 않는다면, 종래의 음성 구술 시스템은 상기 단어의 또 하나의 출현을 선택하는 능력을 사용자에게 제공할 수 있다. 특히, 일부 종래의 음성 구술 시스템들은 "NEXT" 또는 "PREVIOUS"와 같은 네비게이션 음성 명령들을 제공한다.

음성 명령 "NEXT"를 말함으로써, 사용자는 음성 구술 시스템에게 원하는 단어나 구문의 다음 출현을 배치 및 선택하는 것을 지시한다. 유사하게, 명령 "PREVIOUS"는 음성 구술 시스템에게 원하는 단어나 구문의 이전 출현을 배치 및 선택하는 것을 지시한다. 비록 상기 종래 시스템들이 사용자로 하여금 특정한 단어나 구문의 원하는 출현을 조종하는 것을 허여할지라도, 사용자들은 원하는 출현으로 조종하기 위한 전략들을 개발하여야 한다. 이로 인해, 특히 사용자가 음성 구술 시스템이 부정확하거나 비효율적인 것을 인지하는 경우에 시간 낭비와 사용자 불만이 유발된다.

종래의 음성 구술 시스템들에서 종래의 텍스트 선택 방법들의 또 하나의 불이익은, 사용자 특정된 단어나 구문을 검색할 때, 상기 음성 구술 시스템들이 통상적으로 사용자의 스크린 상에 나타난 텍스트의 바디의 전체 부분을 검색한다는 것이다. 사용자의 스크린 상에 나타나는 각 단어는 음성 구술 시스템 문법에서 활성화되고 음성 구술 시스템에 대해 동등하게 가능성 있는 후보로서 나타난다. 사용자가 한 개의 단어나 구문만을 원하기 때문에, 사용자의 스크린 상에 나타나는 텍스트의 바디의 전체 부분을 허용 및 검색하는 것은 비효율적일 수 있다. 더욱이, 상기 기술은 오인식이 발생할 가능성을 증대시킬 수 있다.

종래의 음성 구술 시스템에서 종래의 텍스트 선택 방법들의 또 하나의 기술적 불이익은, 음성 구술 시스템에게는 음성 구술이나 예컨대 드롭-다운 메뉴를 활성화하는 음성 명령과 같은 음성 명령 중에 사용자가 단어를 말했는지 여부가 종종 명확하지 않다는 것이다. 일 예로서, 만약 사용자가 단어 "File"을 말한다면, 상 황에 따라, 사용자는 메뉴 바 내의 파일 메뉴를 활성화하거나 전자 문서 내에 단어 "file"을 삽입하는 것 두 가지 중에 하나를 의도할 수 있다. 따라서, 종래의 음성 구술 시스템에 있어 사용자 언어가 음성 명령인지 혹은 음성 구술인지가 언제나 명확한 것은 아니다.

따라서, 비록 현재 이용 가능한 음성 구술 시스템들이 애플리케이션을 청각적으로 명령하고, 전자 문서 내에 음성 구술을 제공하고, 전자 문서 내의 텍스트를 선택하기 위해 컴퓨터와 상호 작용하는 방법을 제공하고 있지만, 사용자 음성 명령들, 사용자 구술들, 텍스트, 및 이들간의 결합을 구별하는 향상된 방법에 대한 요구는 여전히 남는다.

따라서, 여기서 개시된 본 발명은 음성 구술 시스템(speech dictation system)과 결합된 안구 추적 시스템(eye-tracking system)의 활용을 통해 전자 문서 내의 텍스트의 서로 다른 출현들 사이와 음성 명령의 경우와 음성 구술의 경우 사이를 구별하는 방법 및 장치를 제공한다. 본 발명의 방법 및 장치는 음성 구술 중에 사용자의 응시점의 초점을 판정하기 위해 음성 구술 시스템과 함께 사용되는 안구 추적 시스템(ETS)을 포함하는 것이 바람직하다. 특히, 음성 구술 시스템과 ETS의 협동 사용은 "SELECT" 사용자 음성 명령 기능이나, 음성 구술 시스템 내의 텍스트의 바디 내에서 텍스트의 일부를 선택하기 위한 다른 임의의 사용자 음성 명령의 정확성을 향상시킬 수 있다. 본 발명에서 ETS의 사용은 또한 사용자 구술과 음성 명령 사이의 구별을 촉진함으로써 시스템 성능을 향상시킬 수 있다.

따라서, 제1 양상에서, 본 발명은 전자 문서 내의 매칭 텍스트를 검색하는 방법을 제공하는데, 이 방법은 사용자 인터페이스 내의 초점을 식별하고 상기 초점 주변 영역을 정의하는 단계를 포함한다. 특히, 주변 영역은 음성 구술된 텍스트를 받도록 구성된 사용자 인터페이스 객체 내의 텍스트의 바디를 포함할 수 있다. 또한, 상기 방법은 전자 문서 내의 특정한 텍스트를 선택하는 음성 명령을 수신하고 상기 특정한 텍스트에 매칭하는 주변 영역 내에 포함되는 텍스트의 바디를 검색하는 단계를 포함할 수 있다. 특히, 검색은 주변 영역 내의 텍스트의 바디로 제한될 수 있다.

바람직하게, 전자 문서 내의 매칭 텍스트를 검색하는 방법은 만약 검색 단계에서 특정한 텍스트로의 매치가 텍스트의 바디 내에서 발견되지 않는다면 사용자 인터페이스의 추가 영역을 포함하도록 주변 영역을 확장하는 단계를 더 포함할 수 있다. 특히, 확장에 의해 포함된 추가 영역은 추가 텍스트를 포함할 수 있다. 따라서, 추가 텍스트는 특정한 텍스트로의 매칭을 위해 검색될 수 있다. 마지막으로, 전술한 바와 같이, 검색은 텍스트의 바디와 추가 텍스트로 제한될 수 있다.

바람직하게, 확장 단계는 주변 영역을 고정된 증분만큼 초점에서 외측으로 확장하는 단계를 포함할 수 있다. 선택적으로, 확장 단계는 텍스트의 바디에 인접한 텍스트의 고정된 양만큼 주변 영역을 확장하는 단계를 포함할 수 있다. 마지막으로, 확장 단계는 주변 영역을 가변 증분만큼 초점에서 외측으로 확장하는 단계를 포함할 수 있다.

따라서, 제2 양상에서, 본 발명은 음성 명령의 경우와 음성 구술의 경우 사이를 구별하는 방법을 제공하는데, 이 방법은 사용자 인터페이스 내의 초점을 식별하는 단계; 초점 주위의 주변 영역을 정의하는 단계; 주변 영역 내의 사용자 인터페이스 객체들을 식별하는 단계; 식별된 사용자 인터페이스 객체들 중에서, 음성 구술된 텍스트를 받도록 구성되는 사용자 인터페이스 객체들과 음성 구술된 텍스트를 받도록 구성되지 않은 사용자 인터페이스 객체들을 더 식별하는 단계; 음성 구술된 텍스트를 받도록 구성되는 것으로 더 식별된 사용자 인터페이스 객체들과 음성 구술된 텍스트를 받도록 구성되지 않은 것으로 더 식별된 사용자 인터페이스 객체들에 기초하여 확률을 계산하는 단계; 음성 입력을 수신하는 단계; 및 계산된 확률에 기초하여 음성 입력이 음성 명령인지 혹은 음성 구술인지의 판정을 바이어스하는 단계를 포함할 수 있다. 또한, 상기 방법은 사용자 인터페이스 외측의 초점을 식별하는 단계; 및 디폴트 확률에 기초하여 음성 입력이 음성 명령인지 혹은 음성 구술인지의 판정을 바이어스하는 단계를 포함할 수 있다.

따라서, 제3 양상에서, 본 발명은 전자 문서 내의 매칭 텍스트를 검색하는 컴퓨터 프로그램이 저장된 기계 판독 가능한 스토리지를 제공하는데, 상기 컴퓨터 프로그램은 기계에 의해 실행 가능한 복수의 코드 섹션들을 구비하여 기계가, 사용자 인터페이스 내의 초점을 식별하는 단계; 상기 초점 주위의 주변 영역을 정의하는 단계로서, 상기 주변 영역은 음성 구술된 텍스트를 받도록 구성된 사용자 인터페이스 객체 내의 텍스트 바디를 포함하는, 상기 주변 영역 정의 단계; 전자 문서 내의 특정한 텍스트를 선택하는 음성 명령을 수신하는 단계; 및 상기 특정한 텍스트에 매칭하는 주변 영역 내에 포함된 상기 텍스트의 바디를 검색하는 단계로서, 상기 검색은 상기 주변 영역 내의 상기 텍스트의 바디로 제한되는, 상기 텍스트 바디 검색 단계를 수행하게 한다.

따라서, 제4 양상에서, 본 발명은 음성 명령의 경우와 음성 구술의 경우 사이의 구별을 위한 컴퓨터 프로그램이 저장된 기계 판독 가능한 스토리지를 제공하는데, 상기 컴퓨터 프로그램은 기계에 의해 실행 가능한 복수의 코드 섹션들을 구비하여 기계가, 사용자 인터페이스 내의 초점을 식별하는 단계; 상기 초점 주위의 주변 영역을 정의하는 단계; 상기 주변 영역 내의 사용자 인터페이스 객체들을 식별하는 단계; 상기 사용자 인터페이스 객체들 중에서, 음성 구술된 텍스트를 받도록 구성되는 사용자 인터페이스 객체들과 음성 구술된 텍스트를 받도록 구성되지 않은 사용자 인터페이스 객체들을 더 식별하는 단계; 음성 구술된 텍스트를 받도록 구성된 것으로 더 식별된 사용자 인터페이스 객체들과 음성 구술된 텍스트를 받도록 구성되지 않는 것으로 더 식별된 사용자 인터페이스 객체들에 기초하여 확률을 계산하는 단계; 음성 입력을 수신하는 단계; 및 상기 계산된 확률에 기초하여 상기 음성 입력이 음성 명령인지 혹은 음성 구술인지 여부의 판정을 바이어스하는 단계를 수행하게 한다.

따라서, 제4 양상에서, 본 발명은 컴퓨터에 의해 실행될 때 전술한 방법을 수행하는 컴퓨터 판독 가능한 저장 매체에 저장된 컴퓨터 프로그램 코드를 포함하는 컴퓨터 프로그램 프로덕트를 제공한다.

본 발명은, 이하 도면들에 도시된 것처럼, 본 발명의 양호한 실시예들을 참 조한 예시를 통해 이제부터 기술될 것이다.

도1은 여기에 개시된 본 발명과 상호 작용하는 사용자를 전형적으로 묘사한 도면.

도2는 본 발명에 사용되기 적합한 컴퓨터 시스템을 도시한 블록도.

도3은 도1의 컴퓨터 시스템을 위한 전형적인 높은 레벨의 아키텍쳐를 도시한 블록도.

도4는 음성 인식 엔진을 포함하는 전형적인 구성 요소들을 도시한 블록도.

도5A 및 도5B는, 서로 결합되어, 음성 구술 시스템과 결합된 안구 추적 시스템의 활용을 통해, 전자 문서 내의 텍스트의 서로 다른 출현들 사이와, 음성 명령의 경우와 음성 구술의 경우 사이를 구별하는 방법을 도시한 흐름도.

음성 구술 시스템과 결합된 안구 추적 시스템(ETS)의 활용은 음성 구술 시스템의 성능을 향상시킬 수 있다. 특히, 본 발명의 장치들에 따르면, ETS는 음성 구술 시스템이 텍스트의 바디 내의 텍스트의 다수 출현들 사이를 구별하는 것을 도와준다. 또한, ETS는 음성 구술 시스템이 음성 입력을 분석하여 음성 명령과 음성 구술 사이를 구별하는 것을 도와준다. 상기 개선들은 ETS 내에서 사용자의 응시점의 초점의 스크린 위치를 검출함으로써 구현될 수 있다. 바람직하게는, 스크린 위치는 스크린 상이든지 밖이든지 간에 음성 구술 시스템으로 통신될 수 있다. 사용자 시선의 초점 위치에 기초하여 초점에 대한 영역("주변 영역"으로 지칭)이 정의되는데, 이 영역은 음성 입력이 음성 명령인지 혹은 음성 구술인지 여부를 판정하 는 것을 도와줄 수 있다. 또한, 주변 영역은 사용자에 의한 선택을 위해 특정된 텍스트의 특정한 출현을 식별하는데 사용될 수 있다.

도1은 본원에 개시된 본 발명과 상호 작용하는 사용자를 전형적으로 묘사한 도면이다. 도1에서, 사용자는 비디오 디스플레이 단말기(VDT) 상의 위치를 응시한다. 사용자 시선의 초점은 VDT(32)의 스크린 상에 위치한 별표로 표시되어 있다. 또한 머리에 탑재된 하드웨어 인터페이스(29)를 구비한 ETS도 도시되어 있다. ETS는 안구 추적 및 측정 분야에서 잘 알려져 있다. 현재 메사츄세츠 보스턴의 센소모토릭 인스트루먼트 인크(SensoMotoric Instrument, Inc.)에 의해 제조된 아이마우스(EYEMOUSE: "EyeMouse"는 센소모토릭 인스트루먼츠 인크의 상표) 및 아이링크(EYELINK: "EyeLInk"는 에스알 리써치 리미티드의 상표)는 물론, 버지니아 페어팍스의 엘씨 테크놀러지스 인크(LC Technologies, Inc.)에 의해 제조된 디 아이게이즈 디벨롭먼트 시스템(THE EYEGAZE DEVELOPMENT SYSTEM)은 상업적으로 이용할 수 있다.

ETS를 위한 구성은 안구 추적 하드웨어 인터페이스(29) 및 영상 처리 시스템(34)을 포함할 수 있다. 안구 추적 하드웨어 인터페이스(29)는 엘씨 테크놀러지스 인크로부터 이용 가능한 테이블상 탑재된 유닛일 수 있다. 전형적인 테이블상 탑재된 유닛은 도2에 도시되어 있다. 선택적으로, 안구 추적 하드웨어 인터페이스(29)는 센소모토릭 인스트루먼츠 인크로부터 이용 가능하고 도1에 도시된 머리에 탑재된 유닛일 수 있다. 테이블상 탑재된 유닛이나 머리에 탑재된 유닛의 경우, 안구 추적 하드웨어 인터페이스(29)는 사용자의 눈에 관한 정보를 영상 처리 시스템(34)으로 통신할 수 있다.

영상 처리 시스템은 독립형 영상 처리 시스템이 될 수 있고, 선택적으로 종래의 컴퓨터 내에 존재할 수 있다. 영상 처리 시스템이 종래의 컴퓨터 내에 존재하는 경우, 종래의 컴퓨터는 영상 처리 시스템의 기능을 수행하기 위해 영상 처리 회로와 영상 처리 소프트웨어의 결합을 이용할 수 있다. 본 발명이 선택된 ETS에 의해 제한되지 않는다는 사실은 본 기술 분야에서 숙련된 자들에게 이해될 것이다. 오히려, 사용자 시선의 초점 위치를 컴퓨터에 통신할 수 있는 임의의 적합한 ETS라도 채용될 수 있다.

도2는 영상 처리 시스템(34)이 종래의 컴퓨터 기반 영상 처리 시스템인 상황을 도시하고 있다. 특히, 영상 처리 시스템(34)은 중앙 처리 장치(CPU), 한 개 혹은 두 개의 메모리 장치 및 관련 회로를 포함하는 종래의 컴퓨터(20)를 포함할 수 있다. 종래의 컴퓨터(20)는 컴퓨터 메모리 디바이스들(27)을 포함할 수 있는데, 컴퓨터 메모리 디바이스들(27)은 전자 임의 접근 메모리(27A)와 자기 디스크 드라이브와 같은 벌크 데이터 저장 매체(27B)를 포함하는 것이 바람직하다. 마지막으로, 컴퓨터(20)는 예컨대 마우스와 같은 포인팅 디바이스(21)와, 이에 기능적으로 접속된 비디오 데이터 단말기(VDT)와 같은 적어도 한 개의 사용자 인터페이스 디스플레이 유닛(32)을 포함할 수 있다.

특히, 컴퓨터(20)는 텍스트-음성(TTS) 변환은 물론 음성 인식을 수행하도록 배열될 수 있다. 이와 같이, 컴퓨터(20)는 예컨대 마이크로폰과 같은 오디오 입력 디바이스(30)를 더 포함할 수 있다. 또한, 컴퓨터(20)는 예컨대 스피커와 같은 오 디오 출력 디바이스(23)를 포함할 수 있다. 오디오 입력 디바이스(30) 및 오디오 출력 디바이스(23)는 적절한 인터페이스 회로나 "사운드 보드"(도시 생략)를 통해 컴퓨터(20)에 기능적으로 접속될 수 있다. 이 같은 방식으로, 사용자 음성이 오디오 입력 디바이스(30)를 통해 컴퓨터(20)로 수신될 수 있고, 다른 오디오는 물론 합성된 음성이 오디오 출력 디바이스(23)를 통해 사용자에게 제공될 수 있다. 상술한 종래의 컴퓨터(20)에 대한 다양한 하드웨어 요구들은 상업적으로 이용 가능한 다수의 고속 멀티미디어 퍼스널 컴퓨터 중의 임의의 하나에 의해 일반적으로 충족될 수 있다.

본 발명에 따르면, 컴퓨터(20)는 안구 추적 하드웨어 인터페이스(29)를 더 포함할 수 있는데(여기서는 테이블 탑 변형이 도시됨), 안구 추적 하드웨어 인터페이스(29)는 컴퓨터(20)의 통신 포트를 통해 컴퓨터에 기능적으로 접속되어 있고 적절한 영상 처리 회로 및 소프트웨어를 통해 컴퓨터(20)에 통신 가능하게 링크되어 있다. 특히, 영상 처리 회로 및 소프트웨어는 사용자 시선의 초점 위치를 판정할 수 있고, 영상 처리 소프트웨어에 통신 가능하게 링크된 컴퓨터 애플리케이션에 정보를 통신할 수 있다. 본 발명에서, 음성 구술 시스템은 영상 처리 소프트웨어에 통신 가능하게 링크될 수 있고, 이로부터 음성 구술 시스템은 사용자 시선의 초점 위치를 표시하는 데이터를 수신할 수 있다.

도3은 ETS를 결합시킨 음성 활성된 컴퓨터 시스템에 대한 전형적인 아키텍쳐를 도시하고 있는데, 여기서 컴퓨터 시스템은 전자 문서 내의 텍스트의 서로 다른 출현들 사이와, 음성 명령의 경우와 음성 구술의 경우 사이를 구별하도록 구성되어 있다. 도3에 도시된 바와 같이, 컴퓨터 시스템(20)은 메모리 스토리지(27) 내에 동작 시스템(24), 음성 구술 시스템(26) 및 안구 추적 시스템(22)을 포함할 수 있다. 도시된 예시에서는, 음성 텍스트 프로세서 애플리케이션(28)도 제공된다. 그러나 본 발명은 이에 제한되지 않고, 음성 구술 시스템(26)이 음성 활성화될 임의의 다른 응용 프로그램과 함께 사용될 수 있다.

도2에서, 음성 구술 시스템(26), 음성 텍스트 프로세서(28) 및 안구 추적 시스템(22)은 별개의 응용 프로그램들로 도시되어 있다. 그러나, 본 발명은 이에 한정되지 않으며, 이들 다양한 응용 프로그램들이 하나의 보다 복잡한 응용 프로그램으로 실행될 수 있다는 것이 인지될 것이다. 예를 들어, 음성 구술 애플리케이션(26)은 음성 텍스트 프로세서 애플리케이션(28)과 결합되거나, 음성 구술 시스템과 결합되어 사용될 임의의 다른 애플리케이션과 결합될 수 있다. 또한, 안구 추적 시스템(22)은 컴퓨터(20) 내에 저장된 응용 프로그램으로, 혹은 선택적으로 데이터 링크를 통해 컴퓨터(20)와 통신할 수 있는 독립형 ETS 내에 존재할 수 있다. 상기 시스템은 다른 응용 프로그램들의 음성 동작을 위한 음성 구술 시스템의 동작을 조정하도록 음성 네비게이터 애플리케이션(도시 생략)을 또한 포함할 수 있지만, 여기에 기술된 본 발명의 동작을 위해 반드시 필요한 것은 아니다.

도4는 음성 구술 시스템(26) 내에서 음성 신호의 음성-텍스트 변환을 기술하는 전형적인 구성 요소들을 도시한 블록도이다. 통상적으로, 아날로그 음성 신호들은 도2에 도시된 오디오 입력 디바이스를 통해 수신되고, 오디오 회로에서 디지 털 음성 신호로 처리될 수 있다. 특히, 음성 신호는 음성 신호를 어떤 고정된 속도(통상적으로 매 10-20 msec)로 샘플링함으로써 데이터의 디지털화된 세트로 변환될 수 있다. 이에 따라, 오디오 회로는 디지털 음성 신호를 음성 구술 시스템(26)으로 통신할 수 있다.

표시 블록(35)은 디지털 음성 신호를 수신할 수 있고, 음성 신호의 부분이 특정한 음향학적 사건에 대응하는 확률을 판정하도록 음성 인식 프로세스의 후속 단계들에서 사용될 수 있는 디지털 음성 신호의 표시를 생성할 수 있다. 이 프로세스는 동작 시스템으로부터 수신된 음성 신호들의 지각적으로 중요한 화자 독립적 특성들을 강조하는 것을 의도한다.

모델링/분류 블록(36)에서, 알고리즘들은 화자 독립적 음향학적 모델들을 현재 화자의 그것들에 더 적응시키도록 음성 신호들을 처리할 수 있다. 마지막으로, 검색 블록(38)에서, 검색 알고리즘들은 검색 엔진을 음성 신호에 가장 유사하게 대응하는 단어들로 안내하는데 사용된다. 검색 블록(38) 내의 검색 프로세스는 음향학적 모델들(40), 사전적 모델들(42), 언어 모델들(44) 및 트레이닝 데이터(46)의 도움으로 발생된다.

바람직하게는, 본 발명은 전자 문서 내의 텍스트의 서로 다른 출현들 사이와, 음성 명령의 경우와 음성 구술의 경우 사이를 구별하는 방법 및 장치를 제공한다. 본 발명의 방법 및 장치는 음성 구술 시스템과 결합된 ETS의 협동 사용을 포함할 수 있다. 특히, 이 결합은 "SELECT" 사용자 음성 명령 기능이나, 음성 구술 시스템 내의 텍스트의 바디 내에서 텍스트의 부분을 선택하기 위한 임의의 다른 사 용자 음성 명령의 정확성을 향상시킬 수 있다. 이 결합은 또한 음성 구술이나 음성 명령과 같은 음성 입력을 해석함에 있어 음성 구술 시스템을 도와줌으로써 음성 구술 시스템 성능을 향상시킬 수도 있다.

음성 구술 시스템에 대한 상기 개선들은 사용자 시선의 검출된 초점에 기초하여 사용자의 시선에 일시적으로 근사한 음성 입력이 음성 구술 또는 음성 명령 중 하나가 되는 확률을 계산하는 것에 의해 달성될 수 있다. 계산된 확률은 음성 입력을 음성 구술 또는 음성 명령 중 하나로 해석하도록 음성 구술 시스템을 바이어스시키는데 사용될 수 있다. 특히, 음성 구술 시스템은 검출된 초점을 둘러싼 조정 가능한 스크린 영역("주변 영역")을 정의할 수 있고, 그 결과, 음성 구술 시스템은 주변 영역 내에 위치한 텍스트 및 객체들에 관한 정보를 연속적으로 캡쳐 및 업데이트할 수 있다.

음성 입력을 수신하면, 음성 구술 시스템은 주변 영역이 사용자 인터페이스 객체들 또는 텍스트 입력 필드를 1차적으로 포함하는지 여부를 판정할 수 있다. 만약 주변 영역이 텍스트 입력 필드를 1차적으로 포함한다면, 음성 구술 시스템은 음성 입력이 텍스트 입력 필드로의 삽입을 위한 음성 구술로 해석되어야 한다고 결론을 내릴 수 있다. 대조적으로, 만약 주변 영역이 사용자 인터페이스 객체들을 1차적으로 포함한다면, 음성 구술 시스템은 음성 입력을 음성 명령으로 해석할 수 있다. 마지막으로, 음성 입력이 텍스트 입력 필드 내의 텍스트의 바디 내에서 텍스트를 검색하기 위한 음성 명령으로 해석되면, 음성 구술 시스템은 텍스트 입력 필드 내의 텍스트 전체보다는 주변 영역 내의 텍스트에 기초하여 선택될 텍스트를 식별할 수 있다. 이와 같이, 음성 구술 시스템 자원들은 전자 문서 내의 텍스트의 전체 바디보다는 텍스트의 보다 작은 영역에 대해 보다 효율적으로 사용될 수 있다.

도5A 및 도5B는 상호 결합하여 전자 문서 내의 텍스트의 서로 다른 출현들 사이와, 음성 명령의 경우와 음성 구술의 경우 사이를 구별하는 방법을 기술하는 흐름도를 구성한다. 상기 방법은 음성 구술 시스템 및 ETS의 사용을 위해 구성된 컴퓨터 시스템과 결합되어 수행될 수 있다. 도5A는 단계 50부터 시작하는데, 여기서 사용자는 음성 입력을 음성 구술 시스템에 제공하는 동안 VDT(32) 상의 다양한 위치들을 자연스럽게 응시하거나(스크린 상) 또는 VDT(32)를 외면하게 된다(스크린 밖).

단계 55에서, ETS는 사용자 시선의 초점의 위치를 식별한다. ETS는 영상 처리 회로 및 소프트웨어의 도움으로 사용자 시선의 초점이 스크린 상 위치인지 혹은 스크린 밖 위치인지를 판정한다. 아무튼, ETS는 이 정보를 음성 구술 시스템으로 통신한다. 단계 60에서, 음성 구술 시스템은 ETS로부터 사용자의 초점의 위치를 수신하였다. 만약 사용자 시선의 초점 위치가 스크린 상이라면 시스템은 단계 70으로 진행한다. 만약 아니라면, 시스템은 단계 65로 계속한다.

만약 단계 60에서 초점의 위치가 스크린 상이라고 판정된다면, ETS는 사용자 시선의 초점의 스크린 상 위치를 식별할 것이다. 따라서, 단계 70에서, 주변 영역은 초점 주위에 정의될 수 있다. 대표적인 일 실시예에서, 주변 영역은 초점으로부터 외측으로 연장되는 특정한 반경에 따른 둘레에 의해 정의될 수 있다. 선택적 으로, 주변 영역은 소정의 기하학적 영역을 초점 상에 오버레이하는 것에 의해 정의될 수 있다.

여전히, 본 발명은 주변 영역을 계산하는 방법으로 제한되지 않는다. 오히려, 주변 영역을 계산하는 임의의 적절한 방법이라도 본 발명의 목적들을 충족할 수 있다. 더욱이, 본 기술 분야에 숙련된 자는, 주변 영역이 어떻게 판정되고 주변 영역의 결과적인 형태는 어떠한지와는 무관하게, 외측 둘레 내의 영역의 크기 또는 디폴트 영역이 사용자가 조정 가능한 값이라는 것을 이해할 것이다. 예를 들어, 사용자는 디폴트 영역을 특정할 수 있거나, 선택적으로, 사용자는 주변 영역이 초점으로부터 외측으로 연장하는 반경을 특정할 수 있다.

단계 75에서, 주변 영역을 정의한 후, 상기 영역 내의 텍스트 및 객체들에 관한 정보는, 음성 입력이 음성 구술 또는 음성 명령으로서 해석되어야 할지를 판정하고, 또한 전자 문서 내의 소정의 텍스트의 특정한 출현을 식별하는데 사용되도록 캡쳐될 수 있다. 특히, 캡쳐된 정보는 예컨대 음성 구술된 텍스트를 받는데 적합하지 않은 사용자 인터페이스 객체들을 디스플레이하는데 사용되는 화소들의 수와, 음성 구술 텍스트를 받는데 적합한 사용자 인터페이스 객체들을 디스플레이하는데 사용되는 화소들의 수를 포함할 수 있다. 음성 구술 시스템이 그것의 자원들을 사용할 수 있는 제한된 영역을 정의함으로써, 음성 구술 시스템은 매우 큰 효율성을 얻는다는 것은 이해될 것이다. 예를 들어, 음성 구술 시스템은 전체 음성 구술 문법보다는 주변 영역 내에서 발견되는 텍스트를 포함하는 음성 구술 문법의 활성화 부분들만을 필요로 한다.

단계 80에서, 확률은 어떤 음성 구술이 음성 명령 또는 음성 구술로 해석될 수 있는지에 기초하여 계산될 수 있다. 특히, 확률은 주변 영역의 총 영역에 대한 주변 영역의 구술 가능한 영역의 비율을 계산하는 것에 의해 계산될 수 있다. 예를 들어, 만약 주변 영역의 70%가 사용자 구술을 수신할 수 있다면, 확률은 70% 또는 0.70이 된다. 여전히, 본 발명은 확률이 계산되는 특정한 방식으로 제한되지 않는다. 사실, 확률의 다른 계산은 예컨대 사용자 음성 명령들에 대해 이용 가능한 주변 영역 내의 객체들의 수에 대한 주변 영역 내의 텍스트된 또는 구술된 단어들의 수에 기초하여 계산될 수 있다. 그럼에도 불구하고, 확률이 어떻게 계산되었는지와 무관하게, 확률이 0이거나, 후속하는 사용자 언어들이 사용자 구술 또는 사용자 음성 명령들이라는 완전한 확실성을 표시하는 1이 아닌 것이 바람직하다는 것은 이해될 것이다. 전술한 극단적인 확률 값들을 허용하지 않음으로써, 사용자가 스크린을 바라보지 않으면서 음성 구술 시스템으로 음성을 구술하는 것을 원하는 상황이 가능하게 된다.

만약 판정 단계 60에서 사용자 시선의 초점이 스크린 밖의 위치에 있는 것으로 판정된다면, 단계 65에서 시스템은 확률에 디폴트 값을 할당할 수 있다. 이 디폴트 값은 디폴트 확률로 알려져 있고, 사용자에 의해 미리 형성될 수 있다. 디폴트 확률은 사용자 시선이 스크린을 벗어날 때 후속 음성 입력이 음성 구술 또는 음성 명령 중 하나가 될 통계적 가능성을 표시한다. 따라서, 디폴트 확률에 기초한 통계적 분석은 사용자가 스크린 밖을 응시할 때 사용자가 의도한 음성 입력이 음성 구술로 해석될 가능성을 표시할 수 있다.

디폴트 확률은 영(0.00)에서 일(1.00)까지 범위의 조정 가능한 값을 가질 수 있다. 특히, 본 기술 분야의 숙련된 자는 디폴트 확률에 높은 값을 할당하는 것이 음성 구술 중에 사용자가 스크린을 응시하기를 원하지 않는다는 추측을 나타낸다는 알것이다. 그러나, 디폴트 확률은 사용자가 스크린을 응시하고 있지 않을 때 제공된 음성 입력이 음성 구술 또는 음성 명령으로 해석되어야 하는 완전한 확실성을 나타내지 않는 것이 바람직하다. 상기 확실한 확률은 음성 구술 시스템에 에러를 야기할 수 있다.

단계 85에서, 확률을 계산하거나 디폴트 확률을 따른 후, 음성 입력은 수신될 수 있다. ETS의 도움으로 유도된 확률에 기초하여, 음성 입력은 음성 입력이 음성 구술 또는 음성 명령으로 해석되어야 할지를 판정하도록 분석될 수 있다. 따라서, 상기 방법은 계속해서 음성 입력을 처리하여 점프 원 A를 통해 도5B의 단계 95로 이끌 수 있다.

판정 단계 95에서, 단계 85에서 수신된 음성 입력이 "SELECT" 음성 명령이나 전자 문서 내에서 텍스트를 선택하는 다른 유사한 음성 명령인지를 판정받을 수 있다. 만약 음성 입력이 SELECT 명령으로 해석되지 않는다면, 상기 방법은 두 개의 행동 중 하나가 발생할 수 있는 단계 97로 나아간다. 첫 째, 만약 SELECT 음성 명령이 아닌 음성 입력이 또 하나의 음성 명령으로 해석된다면, 음성 명령은 종래의 음성 활성화된 애플리케이션의 경우에서와 같이 실행될 수 있다. 둘 째, 만약 음성 입력이 음성 구술로 해석된다면, 음성 입력은 음성 인식 엔진에 의해 텍스트로 변환될 수 있다. 따라서, 변환된 텍스트는 변환된 텍스트를 받도록 구성된 사용자 인터페이스 객체 내에 삽입될 수 있다. 두 경우, 상기 방법은 점프 원 C를 통해 도5A의 단계 50으로 돌아갈 수 있고 프로세스는 반복될 수 있다.

판정 단계 95로 돌아가서, 만약 단계 85에서 수신된 음성 입력이 SELECT 음성 명령이거나 전자 문서 내에서 텍스트를 선택하기 위한 다른 유사한 음성 명령이었다면, 단계 100에서 SELECT 명령에 의해 특정된 텍스트가 주변 영역 내에 포함된 텍스트의 바디 내에 위치하는지 여부가 판정될 수 있다. 예를 들어, 만약 음성 입력이 "SELECT mouse"와 같은 SELECT 명령으로 해석되었다면, 주변 영역 내에 포함된 텍스트의 바디가 단어 "mouse"를 포함하는지 여부가 판정될 수 있다. 만약 단계 100에서 특정한 텍스트에 대한 매치가 발견된다면, 상기 방법은 단계 105로 진행할 수 있다. 다른 경우, 상기 방법은 단계 110으로 계속한다.

만약 단계 100에 따라 특정한 텍스트에 대한 매치가 발견된다면, 단계 105에서, 특정한 텍스트에 대한 최적의 매치가 선택될 수 있다. 더욱 구체적으로, 만약 주변 영역 내의 텍스트의 바디 내에 단지 한 개의 매치만이 있다면, 통상적으로 텍스트의 매칭된 출현을 강조하는 것에 의해, 텍스트의 단일 매칭된 경우가 선택될 수 있다. 대조적으로, 만약 주변 영역 내의 텍스트의 바디 내에서 매칭 텍스트의 다수 출현들이 존재한다면, 주변 영역 내의 텍스트의 바디 내의 특정한 텍스트의 어느 경우가 초점에 가장 가까운지가 판정될 수 있다. 따라서, 사용자 시선의 초점은 매칭 텍스트의 어느 경우가 선택되어야 할지를 판정하는데 사용될 수 있다. 여전히, 본 발명은 이 점에 있어서 제한되지 않으며, 매칭 텍스트의 다수 출현들 중에서 매칭 텍스트의 경우를 선택하기 위한 다른 적합한 방법들이면 충분할 수 있 다. 상기 선택적 방법들은 주변 영역 내의 텍스트의 바디 내의 매칭 텍스트의 제1 출현을 선택하는 단계를 포함할 수 있다.

일단 특정한 텍스트의 적절한 출현이 식별되었다면, 식별된 텍스트는 통상적으로 텍스트를 시각적으로 강조하는 것에 의해 선택될 수 있다. 특정한 텍스트의 부정확하거나 소망되지 않은 출현이 선택된 경우, "PREVIOUS" 또는 "NEXT"와 같은 종래의 음성 명령들이 주변 영역 내의 특정한 텍스트의 다른 출현들로 네비게이트하는데 사용될 수 있다는 것이 이해될 것이다. 아무튼, 상기 방법은 프로세스를 다시 시작하기 위해 점프 원 C를 통해 도5A의 단계 50으로 돌아갈 수 있다. 따라서, 프로세스를 반복함으로써, 상기 방법은 다시 주변 영역을 계산하고, 연속해서 수신된 음성 입력이 음성 구술 또는 음성 명령인 확률을 판정할 수 있다.

판정 단계 110으로 돌아가서, 만약 주변 영역 내의 텍스트의 바디 내에서 매치가 발견되지 않는다면, 주변 영역이 음성 구술을 받도록 구성되는 가시적인 사용자 인터페이스 전부를 포함하는지 여부가 판정될 수 있다. 만약 그렇다면, 스크린 상의 텍스트의 바디에 매치가 존재하지 않고 단계 115에서와 같이 사용자가 통보를 받을 수 있다고 추측될 수 있다. 도5B에 도시되지 않은 또 하나의 실시예에서, 스크린 상에 매치가 없으면, 시스템은 사용자 특정된 텍스트에 대한 검색을 계속하고 더 확장하는 추가적인 옵션들을 사용자에게 제공할 수 있다. 예를 들어, 사용자는 사용자가 현재 오픈된 전자 문서의 나머지 부분들을 검색하기를 원하는지 여부에 대해 질문을 받을 수 있다. 선택적으로, 소정의 또는 사용자 조정 가능한 수의 주변 영역 전후의 단어들 또는 구문들에 의해 주변 영역을 확장하는 것과 같은 목표로 정해진 더 많은 옵션들이 사용자에게 제시될 수 있다. 아무튼, 이에 따라, 상기 방법은 프로세스를 다시 시작하기 위해 점프 원 C를 통해 도5A의 단계 50으로 돌아갈 수 있다.

대조적으로, 만약 단계 100에서 주변 영역이 음성 구술을 받도록 구성된 가시적 사용자 인터페이스 전부를 포함하고 있지 않은 것으로 판정된다면, 스크린 상의 바디 내에는 매치가 존재하지 않는 것으로 추측될 수 없다. 따라서, 단계 120과 함께 계속하면, 주변 영역에 의해 커버된 영역은 더 이상의 텍스트를 포함하도록 확장될 수 있다. 주변 영역의 확장을 수행하는 어떤 적절한 방법이라도 충분하다. 예를 들어, 주변 영역의 외측 둘레는 소정의 또는 다이나믹하게 계산된 값만큼 사용자 초점으로부터 모든 방향으로 동일하게 외측으로 연장될 수 있다. 선택적으로, 주변 영역은 영역 치수를 나타내는 소정의 값만큼 초점으로부터 외측으로 연장될 수 있다.

본 발명의 일 실시예에서, 디폴트 소정의 값은 확장의 정도를 결정하는데 사용될 수 있다. 디폴트 값은 미세 동조 능력을 제공하기 위해 조정 가능하게 될 수 있다. 이와 같이, 사용자는 검색의 반복 중에 주변 영역이 얼마나 더 크게 성장해야 하는지를 특정할 수 있다. 이상의 예시를 참작하면, 만약 사용자 특정된 텍스트 "mouse"가 주변 영역 내의 텍스트의 바디 내에서 발견되지 않았다면, 주변 영역의 둘레는 초점으로부터 외측을 향해 모든 방향으로 1 센티미터씩 확장될 수 있다. 선택적으로, 주변 영역은 5 평방미터 또는 화소들의 특정 수의 소정 영역만큼 확장될 수 있다.

주변 영역의 확장에 후속하여, 단계 125에서, 새롭게 확장된 주변 영역 내의 객체들 및 텍스트에 관한 정보는 본 발명 방법의 장차 사용을 위해 계산, 수집 및 저장될 수 있다. 또한, 이제 새롭게 확장된 주변 영역 내의 텍스트의 새로운 바디는 음성 구술 시스템 문법 내에서 활성화될 수 있다. 또한, 새롭게 확장된 주변 영역 내에서 존재하는 객체들의 속성들은 식별될 수 있다. 새롭게 확장된 주변 영역 내의 텍스트 및 객체들을 식별한 후, 텍스트의 바디 내의 매칭 텍스트에 대한 검색은 점프 원 B를 통해 개시되어 단계 100 내에서 반복될 수 있다. 이와 같이, 상기 방법은 텍스트의 바디 내의 사용자 특정된 텍스트에 대한 검색을 텍스트의 바디의 스크린 부분 및 이를 넘어서까지 체계적 및 증가적으로 확장할 수 있다.

특히, 본 발명은 하드웨어, 소프트웨어, 또는 하드웨어와 소프트웨어의 결합으로 구현될 수 있다. 본 발명의 방법은 하나의 컴퓨터 시스템 내에서 중앙 집중적 방식으로 구현되거나, 서로 다른 구성 요소들이 상호 접속된 몇 개의 컴퓨터 시스템들을 가로질러 분산되는 분산 방식으로 구현될 수 있다. 여기에 기재된 방법들을 수행하도록 적응된 어떤 종류의 컴퓨터 시스템이나 다른 장치라도 적합하다. 하드웨어와 소프트웨어의 전형적인 결합은 로딩 및 실행될 때 여기에 기재된 방법들을 수행하도록 컴퓨터 시스템을 제어하는 컴퓨터 프로그램을 구비한 일반 목적의 컴퓨터 시스템일 수 있다.

본 발명은, 여기 기재된 방법들의 수행을 가능하게 하는 모든 특징들을 포함하고 컴퓨터 시스템에 로딩될 때 이 방법들을 수행할 수 있는 컴퓨터 프로그램 제품 내에 내장될 수도 있다. 본원의 컴퓨터 프로그램 수단 또는 컴퓨터 프로그램은 정보 처리 능력을 구비한 시스템으로 하여금 a) 다른 언어, 코드 또는 표시로의 변환, b) 상이한 자료 형태의 재생 중 하나 또는 양자 모두를 수행하게 하도록 고안된 명령들의 세트의 임의의 언어, 코드 또는 표시로 된 임의의 표현이다.

전술한 명세서는 본 발명의 양호한 실시예들을 묘사 및 기재하였지만, 본 발명은 여기에 개시된 바로 그 구조로 제한되지 않는다는 것이 이해될 것이다. 본 발명은 본질적인 특성들로부터 벗어남 없이 다른 특정한 형태들로 구현될 수 있다. 따라서, 전술한 명세서보다는 후술한 청구항들이 본 발명의 범위를 나타내는 것으로 참조되여야 한다.

따라서, 본원에 개시된 본 발명은 음성 구술 시스템과 결합된 안구 추적 시스템의 활용을 통해 전자 문서 내의 텍스트의 서로 다른 출현들 사이와 음성 명령의 경우와 음성 구술의 경우 사이를 구별하는 방법 및 장치를 제공한다. 본 발명의 방법 및 장치는 음성 구술 중에 사용자의 응시점의 초점을 판정하기 위해 음성 구술 시스템과 함께 사용되는 안구 추적 시스템(ETS)을 포함하는 것이 바람직하다. 특히, 음성 구술 시스템과 ETS의 협동 사용은 "SELECT" 사용자 음성 명령 기능이나, 음성 구술 시스템 내의 텍스트의 바디 내에서 텍스트의 일부를 선택하기 위한 다른 임의의 사용자 음성 명령의 정확성을 향상시킬 수 있다. 본 발명에서 ETS의 사용은 또한 사용자 구술과 음성 명령 사이의 구별을 촉진함으로써 시스템 성능을 향상시킬 수 있다.

Claims

전자 문서 내의 매칭(matching) 텍스트를 검색하는 방법에 있어서,

사용자 인터페이스 내의 초점을 식별하는 단계;

상기 초점 주위의 주변 영역을 정의하는 단계로서, 상기 주변 영역은 음성 구술된 텍스트를 받도록 구성된 사용자 인터페이스 객체 내의 텍스트의 바디(body)를 포함하고, 상기 텍스트의 바디는 상기 전자 문서내에 포함되어 디스플레이되는 텍스트의 서브 세트인, 상기 주변 영역 정의 단계;

상기 전자 문서 내의 특정한 텍스트를 선택하는 음성 명령을 수신하는 단계; 및

상기 특정한 텍스트에 대한 매치를 위해 상기 주변 영역 내에 포함된 상기 텍스트의 바디를 검색하는 단계로서, 상기 검색은 상기 주변 영역 내의 상기 텍스트의 바디로 제한되는, 상기 텍스트 바디 검색 단계를 포함하는 매칭 텍스트 검색 방법.
제1항에 있어서, 만약 상기 검색 단계에서 상기 텍스트의 바디 내에서 상기 특정한 텍스트에 대한 매치가 발견되지 않는다면, 상기 사용자 인터페이스의 추가적인 영역을 포함하도록 상기 주변 영역을 확장하는 단계로서, 상기 추가적인 영역은 추가적인 텍스트를 포함하는, 상기 주변 영역 확장 단계; 및

상기 특정한 텍스트에 대한 매치를 위해 상기 추가적인 텍스트를 검색하는 단계로서, 상기 검색은 상기 텍스트의 바디 및 상기 추가적인 텍스트로 제한되는, 상기 추가적인 텍스트 검색 단계를 더 포함하는 매칭 텍스트 검색 방법.
제2항에 있어서, 상기 확장 단계는 고정된 증분만큼 상기 초점으로부터 외측으로 상기 주변 영역을 확장하는 단계를 포함하는, 매칭 텍스트 검색 방법.
제2항에 있어서, 상기 확장 단계는 상기 텍스트의 바디에 인접한 텍스트의 고정된 양만큼 상기 주변 영역을 확장하는 단계를 포함하는, 매칭 텍스트 검색 방법.
제2항에 있어서, 상기 확장 단계는 가변 증분만큼 상기 초점으로부터 외측으로 상기 주변 영역을 확장하는 단계를 포함하는, 매칭 텍스트 검색 방법.
음성 명령의 경우와 음성 구술의 경우 사이를 구별하는 방법에 있어서,

사용자 인터페이스 내의 초점을 식별하는 단계;

상기 초점 주위의 주변 영역을 정의하는 단계;

상기 주변 영역 내의 사용자 인터페이스 객체들을 식별하는 단계;

상기 식별된 사용자 인터페이스 객체들 중에서, 음성 구술된 텍스트를 받도록 구성되는 사용자 인터페이스 객체들과, 음성 구술된 텍스트를 받도록 구성되지 않은 사용자 인터페이스 객체들을 더 식별하는 단계;

음성 구술된 텍스트를 받도록 구성되는 것으로 더 식별되었던 상기 사용자 인터페이스 객체들과, 음성 구술된 텍스트를 받도록 구성되지 않은 것으로 더 식별되었던 상기 사용자 인터페이스 객체들에 기초하여 확률을 계산하는 단계;

음성 입력을 수신하는 단계; 및

상기 계산된 확률에 기초하여 상기 음성 입력이 음성 명령인지 혹은 음성 구술인지의 판정을 바이어스하는 단계를 포함하는 구별 방법.
제6항에 있어서, 상기 사용자 인터페이스 외측의 초점을 식별하는 단계; 및

디폴트 확률에 기초하여 상기 음성 입력이 음성 명령인지 혹은 음성 구술인지의 판정을 바이어스하는 단계를 더 포함하는 구별 방법.
전자 문서 내의 매칭 텍스트를 검색하며 기기가 실행 가능한 복수의 코드 섹션들을 구비한 컴퓨터 프로그램이 저장된 컴퓨터가 읽기 가능한 기록매체에 있어서,

사용자 인터페이스 내의 초점을 식별하는 단계;

상기 초점 주위의 주변 영역을 정의하는 단계로서, 상기 주변 영역은 음성 구술된 텍스트를 받도록 구성되는 사용자 인터페이스 객체 내의 텍스트의 바디를 포함하고, 상기 텍스트의 바디는 상기 전자 문서내에 포함되어 디스플레이되는 텍스트의 서브 세트인, 상기 주변 영역 정의 단계;

상기 전자 문서 내의 특정한 텍스트를 선택하는 음성 명령을 수신하는 단계; 및

상기 특정한 텍스트에 대한 매치를 위해 상기 주변 영역 내에 포함된 상기 텍스트의 바디를 검색하는 단계로서, 상기 검색은 상기 주변 영역 내의 상기 텍스트의 바디로 제한되는, 상기 텍스트 바디 검색 단계

를 포함하는 프로그램이 기록된 컴퓨터가 읽기 가능한 기록 매체.
제8항에 있어서, 만약 상기 검색 단계에서 상기 텍스트의 바디 내에서 상기 특정한 텍스트에 대한 매치가 발견되지 않는다면, 상기 사용자 인터페이스의 추가적인 영역을 포함하도록 상기 주변 영역을 확장하는 단계로서, 상기 추가적인 영역은 추가적인 텍스트를 포함하는, 상기 주변 영역 확장 단계; 및

상기 특정한 텍스트에 대한 매치를 위해 상기 추가적인 텍스트를 검색하는 단계로서, 상기 검색은 상기 텍스트의 바디 및 상기 추가적인 텍스트로 제한되는, 상기 추가적인 텍스트 검색 단계를 더 포함하는 프로그램이 기록된 컴퓨터가 읽기 가능한 기록 매체.
제9항에 있어서, 상기 확장 단계는 고정된 증분만큼 상기 초점으로부터 외측으로 상기 주변 영역을 확장하는 단계를 포함하는 프로그램이 기록된 컴퓨터가 읽기 가능한 기록 매체.
제9항에 있어서, 상기 확장 단계는 상기 텍스트의 바디에 인접한 텍스트의 고정된 양만큼 상기 주변 영역을 확장하는 단계를 포함하는 프로그램이 기록된 컴퓨터가 읽기 가능한 기록 매체.
제9항에 있어서, 상기 확장 단계는 가변 증분만큼 상기 초점으로부터 외측으로 상기 주변 영역을 확장하는 단계를 포함하는 프로그램이 기록된 컴퓨터가 읽기 가능한 기록 매체.
음성 명령의 경우와 음성 구술의 경우 사이를 구별하며 기기에 의해 실행 가능한 복수의 코드 섹션을 구비하는 컴퓨터 프로그램이 기록된 컴퓨터가 읽기 가능한 기록 매체에 있어서,

사용자 인터페이스 내의 초점을 식별하는 단계;

상기 초점 주위의 주변 영역을 정의하는 단계;

상기 주변 영역 내의 사용자 인터페이스 객체들을 식별하는 단계;

상기 식별된 사용자 인터페이스 객체들 중에서, 음성 구술된 텍스트를 받도록 구성되는 사용자 인터페이스 객체들과, 음성 구술된 텍스트를 받도록 구성되지 않은 사용자 인터페이스 객체들을 더 식별하는 단계;

음성 구술된 텍스트를 받도록 구성되는 것으로 더 식별되었던 상기 사용자 인터페이스 객체들과, 음성 구술된 텍스트를 받도록 구성되지 않은 것으로 더 식별되었던 상기 사용자 인터페이스 객체를 기초로 하여 확률을 계산하는 단계;

음성 입력을 수신하는 단계; 및

상기 계산된 확률에 기초하여 상기 음성 입력이 음성 명령인지 혹은 음성 구술인지의 판정을 바이어스하는 단계를

포함하는 프로그램이 기록된 컴퓨터가 읽기 가능한 기록 매체.
제13항에 있어서, 상기 사용자 인터페이스의 외측의 초점을 식별하는 단계; 및

디폴트 확률에 기초하여 상기 음성 입력이 음성 명령인지 혹은 음성 구술인지의 판정을 바이어스하는 단계를 더 포함하는 프로그램이 기록된 컴퓨터가 읽기 가능한 기록 매체.
제1항 내지 제7항중 어느 하나의 항에 따른 방법을 수행하는 컴퓨터 프로그램 코드가 기록된 컴퓨터가 읽기 가능한 기록매체.