KR20060055313A

KR20060055313A - 음성 명령을 명확하게 해주는 중앙집중식 방법 및 시스템

Info

Publication number: KR20060055313A
Application number: KR1020050089717A
Authority: KR
Inventors: 데이비드 모와트; 로버트 엘. 챔버스
Original assignee: 마이크로소프트 코포레이션
Priority date: 2004-11-16
Filing date: 2005-09-27
Publication date: 2006-05-23
Also published as: US8942985B2; US20060106614A1; DE602005019518D1; EP1657709A1; ATE459076T1; JP4854259B2; EP1657709B1; KR101143034B1; US20150095030A1; JP2006146182A; US9972317B2; US20170032786A1; CN1776583A; US10748530B2; CN1776583B

Abstract

사용자와의 중앙집중식 상호작용을 용이하게 해주는 방법 및 시스템은 인식된 음성 명령을 복수의 애플리케이션 모듈에 제공하는 것을 포함한다. 음성 명령의 복수의 해석이 복수의 애플리케이션 모듈 중 적어도 하나에 의해 생성된다. 중앙집중식 인터페이스 모듈은 음성 명령의 복수의 해석을 중앙집중식 디스플레이 상에 시각적으로 렌더링한다. 해석의 선택의 표시가 사용자로부터 수신된다.

음성 명령, 음성 인식, 문법 생성기, 오디오 캡처

Description

음성 명령을 명확하게 해주는 중앙집중식 방법 및 시스템{CENTRALIZED METHOD AND SYSTEM FOR CLARIFYING VOICE COMMANDS}

도 1은 본 발명이 실시될 수 있는 일반적인 컴퓨팅 환경의 블록도.

도 2는 본 발명이 실시될 수 있는 모바일 장치의 블록도

도 3은 중앙집중식 사용자 상호작용을 용이하게 해주는 시스템의 블록도.

도 4는 중앙집중식 패널의 예시적인 스크린샷을 나타낸 도면.

도 5는 중앙집중식 패널의 예시적인 스크린샷을 나타낸 도면.

도 6은 컴퓨팅 장치의 디스플레이의 예시적인 스크린샷을 나타낸 도면.

도 7은 중앙집중식 사용자 상호작용을 용이하게 해주는 방법의 흐름도를 나타낸 도면.

도 8은 중앙집중식 패널의 예시적인 스크린샷을 나타낸 도면.

도 9는 중앙집중식 패널의 예시적인 스크린샷을 나타낸 도면.

도 10은 중앙집중식 패널의 예시적인 스크린샷을 나타낸 도면.

도 11은 음성 인식기를 사용하는 중앙집중식 패널 상에 디스플레이된 문자들을 처리하는 방법을 나타낸 블록도.

도 12는 중앙집중식 패널의 예시적인 스크린샷을 나타낸 도면.

도 13은 중앙집중식 패널의 예시적인 스크린샷을 나타낸 도면.

도 14는 중앙집중식 패널의 예시적인 스크린샷을 나타낸 도면.

도 15는 중앙집중식 패널의 예시적인 스크린샷을 나타낸 도면.

도 16은 중앙집중식 패널의 예시적인 스크린샷을 나타낸 도면.

도 17은 중앙집중식 패널의 예시적인 스크린샷을 나타낸 도면.

도 18은 중앙집중식 패널의 예시적인 스크린샷을 나타낸 도면.

도 19는 중앙집중식 패널의 예시적인 스크린샷을 나타낸 도면.

도 20은 중앙집중식 패널의 예시적인 스크린샷을 나타낸 도면.

도 21은 중앙집중식 패널의 예시적인 스크린샷을 나타낸 도면.

도 22는 중앙집중식 패널의 예시적인 스크린샷을 나타낸 도면.

도 23은 중앙집중식 패널의 예시적인 스크린샷을 나타낸 도면.

<도면의 주요 부분에 대한 부호의 설명>

302: 마이크로폰

304: 오디오 캡처 모듈

306: 음성 인식기

308: 문법

309: 문법 생성기

310: 애플리케이션 모듈

312: 인터페이스 모듈

314: 디스플레이

316: 입력 장치

본 발명은 일반적으로 컴퓨팅 장치와의 사용자 상호작용에 관한 것이다. 보다 구체적으로는, 본 발명은 음성 인식과 관련하여 중앙집중식 인터페이스와의 사용자 상호작용에 관한 것이다.

최근에 음성 인식 기술의 개선에 많은 관심이 기울여지고 있다. 음성 인식 기술에서의 한 이러한 도전은 음성 명령을 사용하는 컴퓨팅 장치와의 사용자 상호작용에 관한 것이다. 종종, 음성 명령은 컴퓨팅 장치가 이런 명령을 실행할 수 있기 전에 더욱 명확해질 필요가 있다.

컴퓨팅 장치는 종종 음성 명령을 여러 가지로 해석할 수 있다. 한 측면에서, 컴퓨팅 장치는 음성 명령이 어느 애플리케이션에 대한 것인지를 이해하지 못할 수 있다. 예를 들어, 음성 명령은 복수의 애플리케이션 모듈에 걸쳐 사용되는 용어를 포함할 수 있다. 다른 측면에서, 애플리케이션은 사용자가 무엇을 실행하고자 하는지를 이해하지 못할 수 있는데, 그 이유는 음성 명령이 모호한 정보를 포함하고 있기 때문이다. 예를 들어, 애플리케이션이 재생할 수 있는 다수의 비틀즈 앨범이 있을 때, 음성 명령은 "play the Beatles"을 포함할 수 있다. 또 다른 예에서, 음성 명령은 오인식 에러(misrecognition error)를 포함할 수 있다. 예를 들어, 사용자는 명령 "insert ice cream"이라고 말할 수 있지만 음성 인식 시스템은 그 명령을 "insert I scream"이라고 인식한다.

사용자가 의미하고자 하는 바를 추측하거나 사용자에 문의를 하지 않고 행동을 취하여 사용자에게 좌절을 안겨줄 수 있다. 불필요한 좌절을 야기하지 않고 또 음성 인식 효율성을 희생시키지 않고 음성 명령의 명확화 및 오인식 에러의 명확화를 제어하는 도구를 사용자에게 제공할 필요가 있다.

사용자와의 중앙집중식 상호작용을 용이하게 해주는 방법 및 시스템이 제공된다. 이 방법 및 시스템은 인식된 음성 명령을 복수의 애플리케이션 모듈에 제공하는 것을 포함한다. 복수의 애플리케이션 모듈의 적어도 하나에 의해 음성 명령의 복수의 해석이 생성된다. 중앙집중식 인터페이스 모듈은 음성 명령의 복수의 해석을 중앙집중식 디스플레이 상에 시각적으로 렌더링한다. 해석의 선택의 표시가 사용자로부터 수신된다.

시각적 렌더링 없이는 음성 명령에 모호함이 있을 경우 해석들의 리스트를 사용자에게 시각적으로 렌더링하는 중앙집중식 인터페이스 모듈은 사용자가 참조하고 있는 명령에 대한 자의적인 추측을 회피하게 한다. 게다가, 중앙 인터페이스 모듈에 의해 제공되는 중앙집중식 디스플레이 패널은 일반적 사용자 상호작용(generic user interaction)을 가능하게 해줄 수 있다.

본 발명은 사용자로부터의 음성 명령을 인식하기 위해 음성 인식을 사용하는 컴퓨터 구현 시스템과 관련하여 기술되어 있다. 그렇지만, 본 발명의 측면들을 기술하기 전에, 이들 측면을 구현하고 그로부터 도움을 받을 수 있는 적당한 컴퓨팅 환경에 대해 기술하는 것이 유용할 수 있다.

도 1은 본 발명이 구현될 수 있는 적당한 컴퓨팅 시스템 환경(100)의 예를 나타낸 것이다. 컴퓨팅 시스템 환경(100)은 적당한 컴퓨팅 환경의 일례에 불과하며, 본 발명의 사용 또는 기능의 범위에 관해 어떤 제한을 암시하려는 의도가 아니다. 또한, 컴퓨팅 환경(100)은 전형적인 오퍼레이팅 환경(100)에 예시된 컴포넌트들 중 임의의 것 또는 이들의 임의의 조합에 관하여 어떤 의존관계 또는 요건을 갖는 것으로 해석되어서도 안 된다.

본 발명은 많은 다른 범용 또는 특수 목적의 컴퓨팅 시스템 환경 또는 구성에서 동작한다. 본 발명에서 사용하기에 적합할 수 있는 공지의 컴퓨팅 시스템, 환경 및/또는 구성의 예는 퍼스널 컴퓨터, 서버 컴퓨터, 핸드헬드 또는 랩톱 장치, 멀티프로세서 시스템, 마이크로프로세서 기반 시스템, 셋톱 박스, 프로그램가능 가전 제품, 네트워크 PC, 미니컴퓨터, 메인프레임 컴퓨터, 전화 시스템, 상기 시스템 또는 장치 중 임의의 것을 포함하는 분산 컴퓨팅 환경, 및 기타 등등을 포함하지만, 이에 한정되는 것은 아니다.

본 발명은 컴퓨터에 의해 실행되는 프로그램 모듈 등의 컴퓨터 실행가능 명령어의 일반적인 관점에서 기술될 수 있다. 일반적으로, 프로그램 모듈은 특정의 작업을 수행하거나 특정의 추상 데이터 유형을 구현하는 루틴, 프로그램, 객체, 컴포넌트, 데이터 구조, 기타 등등을 포함한다. 본 발명은 또한 작업들이 통신 네트워크를 통해 연결되어 있는 원격 프로세싱 장치에 의해 수행되는 분산 컴퓨팅 환경에서 실시될 수 있다. 분산 컴퓨팅 환경에서, 프로그램 모듈은 메모리 저장 장치 를 비롯한 로컬 및 원격 컴퓨터 저장 매체 둘 다에 위치할 수 있다. 프로그램 및 모듈에 의해 수행되는 작업들은 도면을 참조하여 이하에 기술되어 있다. 당업자라면 본 명세서에 제공된 설명 및 도면을, 임의의 형태의 컴퓨터 판독가능 매체 상에 기록되어 있을 수 있는 프로세서 실행가능 명령어로서 구현할 수 있다.

도 1을 참조하면, 본 발명을 구현하는 전형적인 시스템은 컴퓨터(110) 형태의 범용 컴퓨팅 장치를 포함한다. 컴퓨터(110)의 컴포넌트는 프로세싱 유닛(120), 시스템 메모리(130), 및 시스템 메모리를 포함한 여러 가지 시스템 컴포넌트를 프로세싱 유닛에 연결하는 시스템 버스(121)를 포함할 수 있지만, 이에 한정되는 것은 아니다. 시스템 버스(121)는 메모리 버스 또는 메모리 컨트롤러, 주변 버스, 및 다양한 버스 아키텍처 중 임의의 것을 사용하는 로컬 버스를 비롯한 몇 가지 유형의 버스 구조 중 임의의 것일 수 있다. 제한이 아닌 예로서, 이러한 아키텍처로는 ISA(Industry Standard Architecture) 버스, MCA(Micro Channel Architecture) 버스, EISA(Enhanced ISA) 버스, VESA(Video Electronics Standards Association) 로컬 버스, 및 메자닌 버스라고도 하는 PCI(Peripheral Component Interconnect) 버스가 있다.

컴퓨터(110)는 일반적으로 다양한 컴퓨터 판독가능 매체를 포함한다. 컴퓨터 판독가능 매체는 컴퓨터(110)에 의해 액세스될 수 있는 임의의 이용가능한 매체일 수 있으며, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체 둘 다를 포함한다. 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 포함할 수 있으나, 이에만 한정되지 않는다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구 조, 프로그램 모듈 또는 기타 데이터 등의 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체 둘 다를 포함한다. 컴퓨터 저장 매체는 RAM, ROM, EEPROM, 플래시 메모리 또는 기타 메모리 기술, CD-ROM, DVD 또는 기타 광학 디스크 저장 장치, 자기 카세트, 자기 테이프, 자기 디스크 저장 장치 또는 기타 자기 저장 장치, 또는 원하는 정보를 저장하는 데 사용될 수 있고 또 컴퓨터(110)에 의해 액세스될 수 있는 임의의 다른 매체를 포함하지만, 이에 한정되는 것은 아니다. 통신 매체는 일반적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터를, 반송파 또는 기타 전송 메커니즘 등의 변조된 데이터 신호에 구현하며, 임의의 정보 전달 매체를 포함한다. 용어 "변조된 데이터 신호"는 그의 특성 중 하나 이상이 정보를 그 신호에 인코딩하는 방식으로 설정되거나 변경된 신호를 의미한다. 제한이 아닌 예로서, 통신 매체는 유선 네트워크나 직접 유선 연결 등의 유선 매체, 또는 음향, RF, 적외선 및 기타 무선 매체 등의 무선 매체를 포함한다. 상기한 것 중 임의의 것의 조합도 역시 컴퓨터 판독가능 매체의 범위 내에 포함되어야 한다.

시스템 메모리(130)는 판독 전용 메모리(ROM)(131) 및 랜덤 액세스 메모리(RAM)(132) 등의 휘발성 및/또는 비휘발성 메모리 형태의 컴퓨터 저장 매체를 포함한다. 시동 중과 같은 때에 컴퓨터(110) 내의 구성요소들 간의 정보 전송을 돕는 기본적인 루틴을 포함하는 기본 입/출력 시스템(133)(BIOS)은 일반적으로 ROM(131)에 저장되어 있다. RAM(132)은 일반적으로 프로세싱 유닛(120)에 의해 즉각 액세스가능하고 및/또는 현재 처리되고 있는 데이터 및/또는 프로그램 모듈을 포함한 다. 도 1은 오퍼레이팅 시스템(134), 애플리케이션 프로그램(135), 기타 프로그램 모듈(136), 및 프로그램 데이터(137)를 예시하고 있으나, 이에만 한정되지 않는다,

컴퓨터(110)는 또한 기타의 분리형/비분리형 휘발성/비휘발성 컴퓨터 저장 매체를 포함할 수 있다. 단지 예로서, 도 1은 비분리형 비휘발성 자기 매체로부터 판독하거나 그에 기록하는 하드 디스크 드라이브(141), 분리형 비휘발성 자기 디스크(152)로부터 판독하거나 그에 기록하는 자기 디스크 드라이브(151), 및 CD-ROM 또는 기타 광학 매체 등의 분리형 비휘발성 광학 디스크(156)로부터 판독하거나 그에 기록하는 광학 디스크 드라이브(155)를 예시하고 있다. 전형적인 오퍼레이팅 환경에서 사용될 수 있는 기타의 분리형/비분리형, 휘발성/비휘발성 컴퓨터 저장 매체는 자기 테이프 카세트, 플래시 메모리 카드, DVD, 디지털 비디오 테이프, 고체 상태 RAM, 고체 상태 ROM, 및 기타 등등을 포함하지만, 이에 한정되는 것은 아니다. 하드 디스크 드라이브(141)는 일반적으로 인터페이스(140) 등의 비휘발성 메모리 인터페이스를 통해 시스템 버스(121)에 연결되어 있으며, 자기 디스크 드라이브(151) 및 광학 디스크 드라이브(155)는 일반적으로 인터페이스(150) 등의 분리형 메모리 인터페이스에 의해 시스템 버스(121)에 연결되어 있다.

이상에서 기술하고 도 1에 예시된 드라이브 및 그의 관련 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 및 컴퓨터(110)의 기타 데이터의 저장을 제공한다. 예를 들어, 도 1에서, 하드 디스크 드라이브(141)는 오퍼레이팅 시스템(144), 애플리케이션 프로그램(145), 기타 프로그램 모듈(146) 및 프로그램 데이터(147)를 저장하는 것으로서 예시되어 있다. 유의할 점은 이들 컴포넌트가 오퍼레이팅 시스템(134), 애플리케이션 프로그램(135), 기타 프로그램 모듈(136) 및 프로그램 데이터(137)와 동일한 것이거나 다른 것일 수 있다는 것이다. 오퍼레이팅 시스템(144), 애플리케이션 프로그램(145), 기타 프로그램 모듈(146) 및 프로그램 데이터(147)는 최소한 이들이 서로 다른 복사본임을 예시하기 위해 여기에서는 서로 다른 번호가 부여되어 있다.

사용자는 키보드(162), 마이크로폰(163), 및 마우스, 트랙볼 또는 터치 패드 등의 포인팅 디바이스(161) 등의 입력 장치를 통해 컴퓨터(110)에 명령 및 정보를 입력할 수 있다. 다른 입력 장치(도시 생략)는 조이스틱, 게임 패드, 위성 안테나, 스캐너, 또는 기타 등등을 포함할 수 있다. 이들 및 다른 입력 장치는 종종 시스템 버스에 연결된 사용자 입력 인터페이스(160)를 통해 프로세싱 유닛(120)에 연결되어 있지만, 병렬 포트, 게임 포트 또는 USB(Universal Serial Bus) 등의 기타의 인터페이스 및 버스 구조에 의해 연결될 수 있다. 모니터(191) 또는 기타의 유형의 디스플레이 장치도 역시 비디오 인터페이스(190) 등의 인터페이스를 통해 시스템 버스(121)에 연결되어 있다. 모니터 이외에, 컴퓨터는 또한 출력 주변 인터페이스(195)를 통해 연결될 수 있는 스피커(197) 및 프린터(196) 등의 기타의 주변 출력 장치를 포함할 수 있다.

컴퓨터(110)는 원격 컴퓨터(180) 등의 하나 이상의 원격 컴퓨터로의 논리적 연결을 사용하여 네트워크화된 환경에서 동작할 수 있다. 원격 컴퓨터(180)는 퍼스널 컴퓨터, 핸드헬드 장치, 서버, 라우터, 네트워크 PC, 피어 장치 또는 기타의 통상적인 네트워크 노드일 수 있으며, 일반적으로 컴퓨터(110)에 대해 상기한 구성 요소들 대부분 또는 그 전부를 포함한다. 도 1에 도시된 논리적 연결은 근거리 통신망(LAN)(171) 및 원거리 통신망(WAN)(173)을 포함하지만, 기타의 네트워크도 포함할 수 있다. 이러한 네트워킹 환경은 사무실, 기업 규모의 컴퓨터 네트워크, 인트라넷 및 인터넷에서 통상적이다.

LAN 네트워킹 환경에서 사용될 때, 컴퓨터(110)는 네트워크 인터페이스(170) 또는 어댑터를 통해 LAN(171)에 연결된다. WAN 네트워킹 환경에서 사용될 때, 컴퓨터(110)는 일반적으로 모뎀(172) 또는 인터넷 등의 WAN(173)을 통한 통신을 설정하는 기타의 수단을 포함한다. 내장형 또는 외장형일 수 있는 모뎀(172)은 사용자 입력 인터페이스(160) 또는 기타의 적절한 메커니즘을 통해 시스템 버스(121)에 연결될 수 있다. 네트워크화된 환경에서, 컴퓨터(110)와 관련하여 도시된 프로그램 모듈 또는 그의 일부분은 원격 메모리 저장 장치에 저장될 수 있다. 제한이 아닌 예로서, 도 1은 원격 애플리케이션 프로그램(185)을 원격 컴퓨터(180)에 존재하는 것으로 예시하고 있다. 도시된 네트워크 연결이 전형적인 것이고 또 컴퓨터들 간의 통신 링크를 설정하는 기타의 수단이 사용될 수 있음을 잘 알 것이다.

도 2는 또 하나의 적용가능한 컴퓨팅 환경인 모바일 장치(200)의 블록도이다. 모바일 장치(200)는 마이크로프로세서(202), 메모리(204), 입력/출력(I/O) 컴포넌트(206), 및 원격 컴퓨터 또는 기타의 모바일 장치와 통신하기 위한 통신 인터페이스(208)를 포함한다. 일 실시예에서, 상기한 컴포넌트는 통신을 위해 적당한 버스(210)를 통해 서로 연결되어 있다.

메모리(204)는 모바일 장치(200)로의 일반 전원이 차단될 때 메모리(204)에 저장된 정보가 상실되지 않도록 배터리 백업 모듈(도시 생략)을 갖는 랜덤 액세스 메모리(RAM) 등의 비휘발성 전자 메모리로서 구현된다. 메모리(204)의 일부분은 양호하게는 프로그램 실행을 위한 번지 지정 가능한 메모리(addressable memory)로서 할당되어 있는 반면, 메모리(204)의 다른 일부분은 양호하게는 디스크 드라이브 상의 저장을 시뮬레이션하는 것 등의 저장을 위해 사용된다.

메모리(204)는 오퍼레이팅 시스템(212), 애플리케이션 프로그램(214)은 물론 객체 스토어(object store)(216)를 포함한다. 동작 중에, 오퍼레이팅 시스템(212)은 양호하게는 메모리(204)로부터 프로세서(202)에 의해 실행된다. 한 양호한 실시예에서, 오퍼레이팅 시스템(212)은 마이크로소프트사로부터 상업적으로 이용가능한 WINDOWS CE 브랜드 오퍼레이팅 시스템이다. 오퍼레이팅 시스템(212)은 양호하게는 모바일 장치용으로 설계되어 있으며, 일련의 노출된 애플리케이션 프로그래밍 인터페이스 및 메소드를 통해 애플리케이션(214)에 의해 이용될 수 있는 데이터베이스 특성을 구현한다. 객체 스토어(216) 내의 객체는 적어도 부분적으로는 노출된 애플리케이션 프로그래밍 인터페이스 및 메소드에 대한 호출에 응답하여 애플리케이션(214) 및 오퍼레이팅 시스템(212)에 의해 유지관리된다.

통신 인터페이스(208)는 모바일 장치(200)가 정보를 전송 및 수신할 수 있게 해주는 다수의 장치 및 기술을 나타낸다. 이들 장치로는 몇 가지 말하자면 유선 및 무선 모뎀, 위성 수신기 및 방송 튜너가 있다. 모바일 장치(200)는 또한 컴퓨터와 데이터를 교환하기 위해 컴퓨터에 직접 연결될 수 있다. 이러한 경우에, 통신 인터페이스(208)는 적외선 송수신기 또는 직렬 또는 병렬 통신 연결일 수 있으 며, 이들 모두는 스트리밍 정보를 전송할 수 있다.

입력/출력 컴포넌트(206)는 터치 감응 스크린, 버튼, 롤러, 및 마이크로폰 등의 다양한 입력 장치는 물론 오디오 생성기, 진동 장치, 및 디스플레이를 비롯한 다양한 출력 장치를 포함한다. 상기 열거된 장치들은 예시적인 것이며 그 모두가 모바일 장치(200)상에 존재할 필요는 없다. 게다가, 기타의 입력/출력 장치가 본 발명의 범위 내에서 모바일 장치(200)에 부착되거나 모바일 장치(200)에서 발견될 수 있다.

도 3은 본 발명의 일 실시예에 따른 컴퓨터 구현 시스템(300)의 개략적인 블록도를 나타낸 것이다. 시스템(300)은 앞서 기술한 컴퓨팅 환경 중 임의의 것에 포함될 수 있으며 마이크로폰(302), 오디오 캡처 모듈(304), 음성 인식기(306), 복수의 설치된 애플리케이션 모듈(310) 및 중앙집중식 인터페이스 모듈(312)을 포함한다. 마이크로폰(302)은 사용자로부터 음성 명령을 수신하도록 구성되어 있다. 오디오 캡처 모듈(304)은 마이크로폰(302)에 의해 수신된 음성 명령을 캡처하고 프로세싱된 음성 명령을 음성 인식기(306)로 전달하도록 구성되어 있다.

음성 명령을 인식하기 위해, 음성 인식기(306)는 복수의 인식가능한 명령을 포함하는 문법(grammar)(308)에 액세스한다. 문법 생성기 모듈(309)은 설치되어 동작 중인 애플리케이션 모듈(310)로부터 수신된 입력에 기초하여 문법(308)을 생성하도록 구성되어 있다. 애플리케이션 모듈(310)로부터 수신된 입력은 문법(308)을 구성하며, 이 입력은 실행가능한 명령들로서 이에 의해 애플리케이션 모듈은 여러 가지 동작들을 프로세싱 및 실행할 수 있다. 따라서, 문법(308)에 위치하고 있 는 각각의 인식가능한 명령은 복수의 애플리케이션 모듈(310) 중 하나에 있는 동작을 실행하는 명령에 대응한다.

문법 생성기 모듈(309)은 또한 대안적 형태의 여러 가지 명령들로 문법(308)을 구성할 수 있다. 이들 대안적 형태의 명령들은 일반적으로 애플리케이션 모듈(310)로부터 수신된다. 예를 들어, 사용자가 컴퓨팅 장치상에서 비틀즈를 재생하고자 하는 경우, 사용자는 "비틀즈를 재생하라(play the Beatles)"고 말해야만 한다. 그렇지만, 사용자가 컴퓨팅 장치에 대해 "비틀즈를 재생하라"고 적절히 지시하는 것 대신에 컴퓨팅 장치에 대해 "비틀즈를 시작하라(start the Beatles)"고 지시할 수 있으며, 이는 동일한 작업을 달성하게 된다.

어떤 실시예에서, 문법 생성기 모듈(309)은 또한 애플리케이션 모듈(310) 중 어느 것이 임의의 주어진 시각에 동작하고 있는지를 판정하도록 구성되어 있다. 예를 들어, 문법 생성기 모듈(309)은 5개의 애플리케이션 모듈이 오퍼레이팅 시스템상에서 실행 중인 것으로 판정할 수 있다. 동작 중인 애플리케이션 모듈은 웹 브라우저의 2개의 인스턴스, 이메일 애플리케이션, 워드 프로세싱 애플리케이션 및 스프레드시트 애플리케이션을 포함한다. 문법 생성기 모듈(309)은 문법(308)을 생성할 때, 웹 브라우징 애플리케이션에 대한 한 세트의 명령만이 문법(308)을 구성하도록 명령을 압축한다. 그렇지만, 문법 생성기(309)는 동작하는 웹 브라우저의 2개의 인스턴스가 있다는 것을 알고 있다. 따라서, 문법 생성기(309)는 문법(308)을 생성할 때 모호함이 있음을 알게 된다.

다른 실시예들에서, 문법 생성기(309)는 동작하고 있는 웹 브라우저의 2개의 인스턴스가 있음을 모르고 있다. 이 실시예에서, 중앙집중식 인터페이스 모듈(312)은 동일한 애플리케이션의 서로 다른 인스턴스가 동작하게 되어 모호한 상태에 있는지를 판정하기 위해 오퍼레이팅 시스템에 대해 상태 검사를 수행할 수 있다.

음성 인식기(306)가 음성 명령을 인식한 후에, 인식된 음성 명령은 복수의 애플리케이션 모듈(310)로 전달된다. 인식된 음성 명령은 중앙집중식 인터페이스 모듈(312)을 통해 또는 음성 인식기(306)에 의해 복수의 애플리케이션 모듈로 전달된다. 전달의 경로에 상관없이, 복수의 애플리케이션 모듈(310)은 인식된 음성 명령을 처리한다.

본 발명의 일 실시예에 따르면, 애플리케이션 모듈(310) 중 일부 또는 그 전부는 인식된 음성 명령을 실행할 수 있는지를 판정한다. 예를 들어, 사용자는 명령 "설정을 시작하라(start settings)"고 말한다. 그렇지만, 시스템(300)상에 설치되어 있는 애플리케이션 모듈(310)의 대부분은 용어 "설정(settings)"을 포함하는 애플리케이션 측면을 가질 수 있다. 따라서, 인식된 명령(310)은 모호하다. 사용자가 어느 애플리케이션을 지칭하고 있는 것인지 불명확하다.

이 실시예에서, 중앙집중식 인터페이스 모듈(312)은 복수의 애플리케이션 모듈(310)로부터의 인식된 음성 명령의 일련의 가능한 해석을 수집한다. 이어서, 중앙집중식 인터페이스 모듈(312)은 일련의 해석을 리스트에 시각적으로 렌더링한다. 사용자는 해석의 리스트를 디스플레이(314)의 중앙집중식 패널상에서 보게 된다. 가능한 해석(402)의 리스트를 시각적으로 렌더링하는 중앙집중식 패널의 예시적인 스크린샷(400)이 도 4에 예시되어 있다.

본 발명의 다른 실시예에 따르면, 복수의 애플리케이션 모듈(310) 중 단지 하나만이 인식된 음성 명령을 수행할 수 있는지를 판정한다. 예를 들어, 사용자는 명령 "인디고 걸스 재생"(play the Indigo Girls)이라고 말한다. 미디어 애플리케이션 등의 단지 하나의 애플리케이션 모듈(310)만이 "인디고 걸스 재생"을 포함하는 메뉴 항목을 가지고 있다. 그렇지만, 미디어 애플리케이션은 그 명령을 실행하려고 시도할 때, 재생될 수 있는 4개의 가능한 인디고 걸스 앨범이 있는 것을 발견한다. 따라서, 인식된 명령은 모호하다. 미디어 애플리케이션에게는 사용자가 어느 앨범을 재생하려고 했는지 불명확하다.

이 실시예에서, 중앙집중식 인터페이스 모듈(312)은 애플리케이션 모듈(310)로부터의 인식된 음성 명령의 일련의 가능한 해석을 수집한다. 중앙집중식 인터페이스 모듈(312)은 일련의 해석을 리스트에 시각적으로 렌더링한다. 사용자는 디스플레이(314) 상에 위치한 중앙집중식 패널에서 해석의 리스트를 보게 된다. 전술한 예와 관련하여 가능한 해석의 리스트들을 시각적으로 렌더링하는 중앙집중식 패널의 예시적인 스크린샷(500)이 도 5에 예시되어 있다.

본 발명의 또 다른 실시예에 따르면, 앞서 기술한 바와 같이 사용자가 특정 애플리케이션의 어느 인스턴스 또는 애플리케이션 모듈을 지칭하고 있는지가 모호할 수 있다. 예를 들어, 사용자는 스프레드시트 애플리케이션을 사용하고 있고 명령 "인터넷 브라우저로 전환(switch to the Internet browser)"이라고 말한다. 그렇지만, 시스템(300)이 스프레드시트 애플리케이션의 한 인스턴스를 실행하고 있는 것 이외에, 시스템(300)은 또한 인터넷 브라우저 애플리케이션의 2개의 인스턴스를 실행하고 있다. 따라서, 인식된 명령은 모호하다. 사용자가 인터넷 브라우저 중 어느 인스턴스를 지칭하고 있는지 불명확하다.

이 실시예에서, 음성 인식기(306)는 동작 중인 웹 브라우저의 2개 이상의 인스턴스가 있음을 알고 있는 문법 생성기(309)에 기초하여 중앙집중식 인터페이스 모듈(312)에 음성 명령의 일련의 가능한 해석을 제공할 수 있다. 대안으로, 중앙집중식 인터페이스 모듈(312)은 오퍼레이팅 시스템의 상태 검사를 수행한 후에, 음성 명령의 일련의 가능한 해석을 제공할 수 있다. 중앙집중식 인터페이스 모듈(312)은 일련의 해석을 리스트에 시각적으로 렌더링한다. 사용자는 디스플레이(314) 상에 위치한 중앙집중식 패널에서 해석의 리스트를 보게 된다.

해석의 리스트(402, 502) 내의 각각의 해석은 식별자(즉, "1", "2", "3" 등)가 첨부되어 있다. 도 4 및 도 5 실시예에서, 식별자(404, 504)는 숫자 기호이지만, 임의의 형태의 기호가 사용될 수 있다. 사용자는 해석의 리스트(402, 502)를 볼 때 해석 중 어느 것이 사용자가 의도하였던 것에 대응하는 해석인지를 판정할 수 있다. 일 실시예에서, 사용자는 대응하는 숫자 기호를 말함으로써 정확한 명령을 선택할 수 있다. 다른 실시예에서, 사용자는 원하는 해석을 선택하기 위해 입력 장치(316)(도 3에 예시됨)를 사용하여 정확한 명령을 선택할 수 있다. 입력 장치(316)는 마우스 등의 선택 장치일 수 있지만, 이에 한정되는 것은 아니다. 입력 장치(316)는 또한 키패드일 수 있다. 정확한 해석이 어떻게 선택되는지에 상관없이, 해석을 선택하여 대응하는 애플리케이션으로 명령을 전달함으로써 시스템(300) 으로 하여금 대응하는 명령을 실행하게 한다.

다른 실시예에서, 도 5와 관련하여 사용자는 인디고 걸스 앨범 모두를 재생하고자 함을 나타낼 수 있다. 통신 라인(communication line)(506)은 사용자가 복수의 해석(502)으로부터 해석을 선택하거나 모든 앨범을 재생하기 위해 "전부 재생(Play all)"이라고 말할 수 있음을 나타낸다. 사용자가 무엇을 원했는지에 상관없이, 정확한 해석을 선택하여 대응하는 애플리케이션에 명령 정보를 제공함으로써 시스템(300)으로 하여금 동작을 취하게 한다.

시각적 렌더링 없이는 음성 명령에 모호함이 존재할 경우 사용자에게 해석의 리스트를 시각적으로 렌더링하는 중앙집중식 인터페이스 모듈을 사용하여 적절한 명령을 자의적으로 추측하는 것을 막는 방법을 시스템(300)에게 제공한다. 중앙집중식 인터페이스 모듈은 또한 가능한 사용자 상호작용을 그래픽적으로 표현하는 간단한 중앙집중식 패널을 제공하고, 사용자가 무엇을 의도하였는지를 판정하는 아주 효율적인 수단을 제공하며, 또 복수의 애플리케이션 모듈 외부에 위치하는 일관성있는 인터페이스를 제공한다. 환언하면, 도 4, 도 5, 및 도 8 내지 도 10에 예시된 중앙집중식 패널의 스크린샷 각각은 외관 및 동작이 유사하며, 따라서 일관된 위치에 디스플레이될 수 있다. 예를 들어, 도 6은 오퍼레이팅 시스템상에서 동작하고 있는 미디어 플레이어의 스크린샷(600)을 예시한 것이다. 사용자는 "인디고 걸스 재생"을 요청한다. 전술한 바와 같이, 재생될 수 있는 인디고 걸스의 앨범이 2개 이상 있다. 중앙집중식 인터페이스 또는 패널(500)이 스크린의 우측 하방 코너에 나타나며 사용자에게 사용자가 의도한 것을 선택하도록 요청한다. 이와 같 이, 중앙집중식 인터페이스 패널이 하나 이상의 애플리케이션 모듈(310)에서 사용될 수 있지만, 사용자는 디스플레이를 어떻게 다루어야 하는지에 관해 덜 혼란스럽다.

도 7은 사용자와의 중앙집중식 상호작용을 용이하게 해주는 컴퓨터 구현 방법을 제공하는 흐름도(700)를 예시한 것이다. 흐름도(700)는 사용자로부터 음성 명령을 수신하게 되는 단계(702)를 포함한다. 음성 명령을 수신한 후에, 흐름도(700)는 단계(704)로 진행하여 음성 명령이 음성 인식기에 의해 인식되기에 적절한 상태에 있도록 음성 명령을 처리한다. 단계(706)에서, 도 3의 음성 인식기(306) 등의 음성 인식기는 음성 명령을 인식한다. 음성 인식기는 음성 명령을 인덱스에 저장되어 있는 복수의 명령과 비교한다.

단계(708)에서, 인식된 명령은 복수의 애플리케이션 모듈로 전달된다. 단계(710)에서, 인식된 명령이 모호하다고 판정하는 복수의 애플리케이션 모듈 중 적어도 하나에 복수의 해석이 수신된다. 단계(712)에서, 복수의 해석이 사용자에게 시각적으로 렌더링된다. 예를 들어, 디스플레이의 중앙집중식 패널 상에 복수의 해석이 대응하는 식별자와 함께 열거될 수 있다. 단계(714)에서, 복수의 해석 중 하나의 사용자 선택의 표시가 수신된다. 예를 들어, 식별자를 들을 수 있게 표시함으로써, 원하는 해석이 정확한 명령인 것으로 확인될 수 있다.

도 3의 중앙집중식 인터페이스 모듈(312)과 상호작용함으로써 음성 명령을 명확히 하는 것 이외에, 사용자는 또한 사용자가 워드 프로세싱 애플리케이션 등의 애플리케이션 모듈에 지시하는 동안의 인식 오류를 정정하기 위해 중앙집중식 인터 페이스 모듈(312)과 상호작용할 수 있다. 인식 오류를 정정하기 위해, 사용자는 입력 장치를 사용하여 잘못 변환된 용어를 하이라이트할 수 있다. 하이라이트한 후에, 애플리케이션 모듈은 중앙집중식 인터페이스 모듈(312)에 복수의 대안을 전송한다. 이 대안은 음성 발음과 유사하게 들리는 문구(phrase)를 포함한다. 중앙집중식 인터페이스 모듈(312)은 대체 문구들을 수신하고 디스플레이(314)의 중앙집중식 패널 상에 시각적으로 렌더링한다. 대체 구문들 각각은 대응하는 식별자를 포함한다. 중앙집중식 인터페이스 모듈(312)은 음성 또는 입력 장치(316)를 통해 식별자의 형태로 사용자로부터 선택의 표시를 수신하고 이 선택을 애플리케이션 모듈에 전달한다.

어떤 경우에, 중앙집중식 인터페이스 모듈(312)은 정확한 대안인 대안을 시각적으로 렌더링하지 못한다. 정확한 대안을 렌더링하지 못하는 것은 사용자가 시스템(300)에서 그 발음을 사용한 적이 없기 때문에 대안이 인식가능하지 않은 경우이거나 음성 인식기가 오인식 에러를 일으키는 경우에 발생할 수 있다. 이러한 유형의 일이 일어난 경우, 중앙집중식 인터페이스 모듈(312)은 이미 제시된 대안 이외에 추가의 대안을 제시하도록 구성되어 있다. 한가지 이러한 대안은 최초의 발음(original utterance)을 다시 말하는 옵션을 제공하는 것을 포함한다. 다른 이러한 추가의 대안은 그렇지 않았으면 시스템(300)에 생소하였을 새로운 대안을 사용자가 생성할 수 있게 해주는 옵션을 제시하는 것을 포함한다.

예를 들어, 도 8은 본 발명의 실시예에 따라 대안들의 리스트를 시각적으로 렌더링하는 중앙집중식 패널의 스크린샷(800)을 예시한 것이다. 대안들의 리스트 는 워드 프로세싱 애플리케이션에 의해 생성된 대체 구문들(804)의 리스트 및 중앙집중식 인터페이스 모듈(312)에 의해 생성된 추가의 대안들(806)의 리스트를 포함한다. 추가의 대안들(806) 각각은 사용자가 식별자의 형태로 선택의 표시를 할 수 있도록 대응하는 식별자를 포함한다.

사용자가 식별자 "9"를 선택하면, 중앙집중식 인터페이스 모듈(312)은 도 9에 예시한 바와 같이 중앙집중식 패널에 스크린샷(900)을 시각적으로 렌더링한다. 스크린샷(900)의 통신 라인은 사용자에게 그 발음(utterance)을 다시 말할 것을 요청한다. 그 발음을 다시 말하면, 중앙집중식 인터페이스 모듈(312)은 재작성(refresh)된 대안들의 리스트를 시각적으로 렌더링한다. 식별자 "9"를 선택하는 것은 시스템(300)이 인식 오류를 일으켰을 때 유용하다. 도 8에서 사용자가 식별자 "10"을 선택하면, 중앙집중식 인터페이스 모듈(312)은 도 10에 예시한 바와 같이 중앙집중식 패널에 스크린샷(1000)을 시각적으로 렌더링한다. 스크린샷(1000)의 통신 라인(1002)은 사용자에게 그 발음의 철자를 크게 말할 것을 요청한다. 사용자가 발음의 철자를 말할 때, 그 문자가 블록(1004)에 나타나게 된다. 게다가, 사용자가 입력 장치를 사용하여 블록(1004)에 그 발음의 정확한 철자를 타이핑할 수 있는 것도 가능하다.

본 발명의 다른 실시예에서, 도 11은 사용자가 새로운 대체 철자를 들을 수 있게 말한 후에 도 10에 예시한 중앙집중식 패널의 스크린샷(1000) 등의 중앙집중식 패널 상에 디스플레이된 문자들을 처리하는 방법(1100)을 예시한 블록도이다. 예를 들어, 도 12에서, 사용자가 이하의 구문 "intent"의 철자를 말한다. 그렇지 만, 음성 인식기(306)(도 3)는 일련의 입력된 텍스트(1204)를 "i","n", "v", "e", "n", "t"로서 "듣고" 따라서 패널(1200) 상에 단어 "invent"를 디스플레이한다. 단어 "invent"는 "intent"가 되도록 정정될 필요가 있다.

도 13을 참조하면, 이것을 정정하기 위해, 사용자는 "invent"를 수정하기 위한 명령을 음성적으로 전달하기 위해 철자 명령을 호출한다. 시스템(300)이 철자 명령을 수신할 때, 선택된 단어가 식별되고 적어도 하나의 공백(1304)을 선택된 단어에 첨부함으로써 첨부된 단어(1302)가 생성되며, 이때 첨부된 단어(1302)는 동작 블록(1102)(도 11)에 나타낸 바와 같이 수정될 적어도 하나의 문자(1306)를 포함한다. 동작 블록(1104)에 나타낸 바와 같이, 첨부된 단어에서의 문자들(1308) 각각은 이어서 공유의 숫자값(1310)을 할당받고 그와 상관된다. 이어서, 첨부된 단어(1302)는 첨부된 단어(1302)에서의 문자들(1308) 각각과 그의 할당된 고유 숫자값(1310) 간의 상관관계를 시각적으로 전달하기 위해 중앙집중식 패널의 스크린샷(1300)을 통해 디스플레이된다. 이 상관관계는 스크린 샷(1300) 상의 첨부된 단어(1302) 주변에 박스(1312)를 드로잉하고 첨부된 단어(1302) 내의 그의 할당된 문자(1308)에 인접하여 고유 숫자값(1310) 각각을 디스플레이함으로써 시각적으로 전달될 수 있다. 그 자체로서, 문자들(1308) 각각은 각각의 문자(1308)와 상관되는 고유 숫자값(1310)을 "할당"받는다. 예를 들어, 단어 "invent"(1314)를 "intent"로 변경하기를 원하는 사용자는 음성 인식기(306)에 명령을 구두로 입력하게 된다. 이것은 박스(1312)가 스크린샷(1300)상에서 단어 "invent"(1314) 주변에 디스플레되게 한다. 이것은 또한 단어 "invent"(1314) 내의 각각의 문자가 고유 숫자값 (1310)을 할당받게 하며 이 숫자값은 그의 대응하는 문자(1308)에 인접하여 디스플레이되고, 그 둘 다는 도 13에 도시되어 있다. 이것은 사용자가 단어 "invent" 내의 임의의 문자를 변경 및/또는 정정할 수 있게 해준다.

이 시점에서, 동작 블록(1106)에 나타낸 바와 같이, 선택 명령 및 수정 명령이 시스템(300)에 의해 수신될 수 있고, 이때 선택 명령은 선택된 문자에 대응하는 고유 숫자값(1310)이다. 이것은 첨부된 단어(1302) 내의 어느 문자가 변경될지를 시스템(300)에 알려준다. 시스템(300)이 수정 명령을 수신하면, 동작 블록(1108)에 나타낸 바와 같이, 수정된 단어가 수정 명령에 응답하여 선택된 문자를 수정함으로써 생성된다. 사용자가 "삭제", "삽입" 등의 복수의 수정 명령 또는 부가될 글자/문자를 입력할 수 있다는 것을 잘 알 것이며, 이들 상황들 각각에 대해 이하에 기술한다.

예를 들어, 도 14를 참조하여, 사용자가 중앙집중식 패널의 스크린샷(1400) 상에 디스플레이된 첨부된 단어 "invent_"(1404) 내의 글자 "v"(1402)를 삭제하고자 하는 상기 경우를 생각해보자. 본 명세서에 기술되어 있는 바와 같이, 사용자는 변경될 문자에 대응하는 고유 숫자값을 시스템(300)에 전달한다. 이들 고유 숫자값(1408)이 숫자 1로 시작하여 1씩 증가하지만, 임의의 고유 숫자값(1408) 및 증분이 할당될 수 있음을 잘 알 것이다. 알 수 있는 바와 같이, 첨부된 단어 "invent_"(1404) 내의 글자 "v"(1402)는 "3"의 고유 숫자값(1408)을 할당받는다. 그 자체로서, 사용자는 숫자 "3"을 구두로 시스템(300)에 전달한다. 이것은 삽입 기호(1410)로 나타낸 바와 같이 숫자 "3"에 대응하고 그와 상관되는 글자를 선택하 며, 이 경우에 그 글자는 첨부된 단어 "invent"(1404) 내의 글자 "v"(1402)이다. 이어서, 사용자는 글자 "v"(1402)가 첨부된 단어 "invent"(1404)로부터 삭제되게 하여 도 15의 중앙집중식 패널의 스크린샷(1500)에 나타낸 바와 같이 그 결과의 "inent"(1412)를 남겨두는 "삭제" 등의 원하는 수정 명령을 입력할 수 있다. 따라서, 수정 명령 "삭제"는 선택된 글자 및 그의 대응하는 공백을 첨부된 단어로부터 제거하고 선택 삽입 기호(1410)는 그 다음의 후속 문자, 즉 "e"를 선택하게 된다.

반면에, 도 16을 참조하여, 사용자가 중앙집중식 패널에서의 스크린샷(1600) 상에 디스플레이된 단어 "invent"에서 글자 "n"(1604)와 글자 "v"(1606) 사이에 글자 또는 공백 등의 문자를 삽입하기를 원하는 경우를 생각해보자. 기본적으로, 사용자는 문자를 고유 숫자값 "3"에 대응하는 곳에 삽입하기를 원한다. 본 명세서에 기술된 바와 같이, 사용자는 구두로 명령을 전달할 수 있다. 이것은 공간이 단어 "invent"에 첨부되어 첨부된 단어 "invent_"(1608)를 생성하게 하고 박스(1610)가 첨부된 단어 "invent_"(1608)의 주변에 디스플레이되게 하며, 고유 숫자값(1612)이 첨부된 단어 "invent_"(1608) 내의 문자들 각각에 할당되고 그에 인접하여 디스플레이되게 한다. 알 수 있는 바와 같이, 첨부된 단어 "invent_"(1608) 내의 글자 "v"(1606)는 "3"의 고유 숫자값(1612)을 할당받는다. 그 자체로서, 사용자는 삽입기호(1614)에 의해 표시된 바와 같이 숫자 "3"에 대응하고 그와 상관된 글자를 "선택"하기 위해 시스템(300)에 숫자 "3"[이 경우, 이는 첨부된 단어 "invent_"(1608)에서 글자 "v"(1606)임]을 구두로 전달할 수 있다. 이어서, 사용자는 수정 명령을 입력하여 시스템(300)으로 하여금 적절한 방식으로 응답하도록 할 수 있다. 예를 들어, 사용자가 수정 명령 "삽입"을 전달한 다음에 단어 "공백(space)"를 전달하면, 도 17에 예시된 중앙집중식 패널에서의 스크린샷(1700)에 나타낸 바와 같이, 글자 "n"(1604)과 글자 "v"(1606) 사이에 공백이 삽입되고 첨부된 단어 "invent_"(1608)를 "in_vent_"(1616)으로 효과적으로 변경한다. 이 경우, 삽입기호(1614)는 고유 숫자값 "3"과 상관된 공백이 선택되었음을 나타내기 위해 제자리에 그대로 있다. 그렇지만, 사용자가 명령 "삽입"을 전달하고 이어서 글자 "p"를 전달하면, 도 18에 예시된 중앙집중식 패널의 스크린샷(1800)에 나타낸 바와 같이, 글자 "p"가 글자 "n"(1604)과 글자 "v"(1606) 사이에 삽입되어 첨부된 단어 "invent_"를 "inpvent_"(1618)로 효과적으로 변경하며, 선택 삽입기호(1614)는 그 다음 문자(즉, 고유 숫자값 "4"에 대응하는 문자)가 선택되었음을 나타내기 위해 그 다음 문자로 이동한다.

이와 유사하게, 도 19를 참조하여, 사용자가 중앙집중식 패널의 스크린샷(1900) 상에 디스플레이된 단어 "invent"에서의 글자를 단지 변경하기를 원하는 경우를 생각해보자. 본 명세서에 기술된 바와 같이, 사용자는 명령을 구두로 전달할 수 있다. 이것은 단어 "invent"에 공백이 첨부되어 첨부된 단어 "invent_"(1902)를 생성하게 하고 박스(1904)가 첨부된 단어 "invent_"(1902) 주변에 디스플레이되게 하며 고유 숫자값(1906)이 첨부된 단어 "invent_"(1902) 내의 문자들(1908) 각각에 할당되고 그에 인접하여 디스플레이되게 한다. 알 수 있는 바와 같이, 첨부된 단어 "invent_"(1902) 내의 글자 "v"(1912)는 "3"의 고유 숫자값(1906)을 할당받는다. 그 자체로서, 사용자는 구두로 숫자 "3"을 시스템(300)에 전달할 수 있 다. 이것은 삽입기호(1910)에 의해 나타낸 바와 같이 숫자 "3"에 대응하고 그와 상관된 글자가 선택되게 하며, 이 경우 그 글자는 첨부된 단어 "invent_"(1902) 내의 글자 "v"(1912)이다. 이어서, 사용자는 수정 명령(이 경우, 명령은 간단히 한 글자임)을 입력하여 시스템(300)으로 하여금 적절한 방식으로 응답하게 할 수 있다. 예를 들어, 사용자가 숫자 "3" 이후에 수정 명령 "t"을 전달하면, 글자 "v"(1912)가 글자 "t"로 대체되어, 도 20에 예시한 중앙집중식 패널의 스크린샷(2000)에 나타낸 바와 같이 첨부된 단어 "invent_"(1902)를 단어 "intent"(1914)로 효과적으로 변경한다. 이 시점에서, 선택 삽입기호(1910)는 그 다음 문자로 이동하여 그 다음 문자(즉 고유 숫자값 "4"에 대응하는 문자)가 선택되었음을 나타낸다.

사용자가 변경될 문자에 대응하는 고유 숫자값을 입력하면 드롭다운 메뉴 등의 제안된 수정 명령의 메뉴가 디스플레이될 수 있으며, 메뉴에서 각각의 제안된 동작에는 그 자신의 고유 숫자값이 할당되어 있음을 잘 알 것이다. 예를 들어, 도 21을 참조하여, 사용자가 중앙집중식 패널의 스크린샷(2100) 상에 디스플레이된 단어 "invent"에서 한 글자를 변경하기를 원하는 경우를 생각해보자. 사용자는 명령을 구두로 전달한다. 이것은 공백이 선택된 단어 "invent"에 첨부되어 첨부된 단어 "invent_"(2102)를 생성하게 하고, 박스(2104)가 첨부된 단어 "invent_"(2102) 주변에 디스플레이되게 하며, 고유 숫자값(2106)이 첨부된 단어 "invent_"(2102) 내의 글자들 각각에 인접하여 디스플레이되게 한다. 알 수 있는 바와 같이, 첨부된 단어 "invent_"(2102) 내의 글자 "v"(2108)에는 "3"의 고유 숫자값(2106)이 할 당되어 있다. 그 자체로서, 사용자는 삽입기호(2110)에 의해 나타낸 바와 같이 고유 숫자값 "3"에 대응하고 그와 상관된 문자를 "선택"하기 위해 숫자 "3"을 구두로 시스템(300)에 전달하며, 이 경우 그 문자는 첨부된 단어 "invent_"(2102) 내의 문자 "v"(2108)이다. 도 22를 참조하면, 메뉴(2112)가 중앙집중식 패널 샷(2200) 상에 디스플레이되어 사용자에게 다수의 수정 명령 선택사항을 제공할 수 있으며, 그 선택사항 각각에는 제2의 고유 숫자값(2114)이 할당되어 있다. 이어서, 사용자는 원하는 수정 명령과 상관된 제2의 고유 숫자값(2114)인 수정 명령을 입력하여 음성 인식 응용 소프트웨어로 하여금 적절한 방식으로 응답하게 할 수 있다. 예를 들어, 사용자가 숫자 "3" 이후에 숫자 "4"를 전달하는 경우, 도 23의 중앙집중식 패널의 스크린샷(2300)에 나타낸 바와 같이, 글자 "v"(2108)가 글자 "d"(2116)로 대체되어 첨부된 단어 "invent_"(2102)를 단어 indent"(2118)로 효과적으로 변경한다. 이상과 같이, 선택 삽입기호(2110)는 그 다음 문자(즉, 고유 숫자값 "4"에 대응하는 문자)가 선택되었음을 나타내기 위해 그 다음 문자로 이동된다.

제안된 수정 명령의 메뉴(2112)가 음향적으로 선택된 글자 또는 단어와 유사한 문자/단어의 메뉴 등의 원하는 최종 목적에 적당한 임의의 수정 명령을 포함할 수 있음을 잘 알 것이며, 예를 들어, "v"가 선택되면, 메뉴(2112)는 "d","t", "e", "g", "3"을 포함하게 된다. 게다가, 메뉴(2112)는 또한 대문자화된 형태의 문자, 예를 들어, "V"는 물론 철자 검사기로부터의 자동 완성 리스트를 포함할 수 있다. 그 자체로서, 이 예의 경우, 메뉴(2112)는 단어 "indent", "intent", "amend"를 포함할 수 있다. 게다가, 본 발명이 다수의 기능을 동시에 수행하는 음성 명령을 포 함할 수 있음을 잘 알 것이며, 예를 들어, 선택된 단어에 단지 하나의 글자 "t"가 있는 경우, "3을 eagle에서와 같은 "e"로 변경" 또는 "t를 g로 변경"은 글자 "t"를 글자 "g"로 변경할 수 있다. 선택된 단어에 2개의 글자 "t"가 있는 경우, 보다 정확하게 되도록 사용자에게 피드백이 제공될 수 있다. 게다가, 이전에 변경된 문자를 그의 이전의 상태로 되돌릴 수 있는 "되살리기(undo)" 등의 다른 명령도 역시 제공될 수 있다. 예를 들어, 사용자가 (선택된 글자를 대문자화하기 위해) "cap that"하고 말하지만 그 입력이 "caret"로 인식되는 경우, 사용자는 글자를 이전의 상태로 되살리기 위해 "되살리기"라고 말할 수 있다.

도 8 내지 도 23을 참조하면, 이들 도면은 사용자가 워드 프로세싱 애플리케이션에 지시하는 것과 관련하여 기술되어 있다. 그렇지만, 당업자라면 도 8 내지 도 23에 기술된 실시예들이 또한 사용자가 음성 명령을 시스템(300)에 말하는 것에도 적용될 수 있음을 잘 알 것이다. 음성 명령이 모호한 경우, 중앙집중식 인터페이스 모듈(312)은 해석의 리스트를 시각적으로 렌더링하고 또한 추가의 대안들의 리스트도 시각적으로 렌더링한다. 추가의 대안들의 리스트는 명령을 다시 말하는 대안 및 새로운 명령을 생성하는 대안을 포함한다. 예를 들어, 사용자가 David White에 이메일을 전송하고자 하는 경우, 사용자는 음성으로 "이름 David를 삽입" 명령을 발행할 수 있다. 그렇지만, 사용자가 이전에 David Black 및 David Green에게 이메일을 전송한 적이 있지만 David White에게는 이메일을 전송한 적이 없는 경우, 어느 David를 삽입할지에 관해 모호함이 있다. 중앙집중식 인터페이스 모듈(312)은 David 해석의 리스트를 시각적으로 렌더링한다. 해석의 리스트는 David Black 및 David Green을 포함한다. 게다가, 중앙집중식 인터페이스 모듈(312)은 음성 명령을 다시 말하는 대안 및 새로운 음성 명령을 생성하는 대안을 포함하는 추가의 대안들의 리스트를 시각적으로 렌더링한다. 이 예에서, 사용자는 새로운 명령을 생성하기로 하는데 그 이유는 사용자가 시스템(300)에 생소한 David White에게 이메일을 보내고자 하기 때문이다.

중앙집중식 인터페이스 모듈(312)과 상호작용함으로써 명령을 명확히 하고 또 오인식 에러를 정정하는 것 이외에, 사용자는 또한 복수의 애플리케이션 모듈(310)로부터 피드백을 수신하기 위해 중앙집중식 인터페이스 모듈(312)과 상호작용할 수 있다. 중앙집중식 인터페이스 모듈(312)은 시스템(300)이 무엇을 듣고 있는지를 시각적으로 렌더링하도록 구성되어 있다. 예를 들어, 중앙집중식 패널은 마이크로폰(302)이 꺼져 있기 때문에 시스템(300)이 아무것도 듣고 있지 않음을 디스플레이할 수 있다. 게다가, 중앙집중식 인터페이스 모듈(312)은 또한 시스템(300)의 상태를 시각적으로 렌더링하도록 구성되어 있다. 예를 들어, 중앙집중식 패널은 시스템(300)에 의해 인식된 마지막 명령을 디스플레이할 수 있다. 다른 실시예에서, 중앙집중식 패널은 특정의 애플리케이션 모듈이 열리거나 닫히고 있음을 디스플레이할 수 있다.

본 발명이 특정의 실시예를 참조하여 기술되어 있지만, 당업자라면 본 발명의 정신 및 범위를 벗어나지 않고 형태 및 상세에 있어서 변경이 행해질 수 있음을 잘 알 것이다.

인식된 음성 명령을 복수의 애플리케이션 모듈에 제공하는 것을 포함하여, 사용자와의 중앙집중식 상호작용을 용이하게 해주는 방법 및 시스템이 제공되는 효과가 있다.

Claims

사용자와의 중앙집중식 상호작용을 용이하게 해주는 컴퓨터 구현 방법으로서,

인식된 음성 명령을 복수의 애플리케이션 모듈에 제공하는 단계,

상기 음성 명령의 복수의 해석을 수신하는 단계로서 상기 복수의 해석은 상기 복수의 애플리케이션 모듈 중 적어도 하나에 의해 생성되는 것인 수신 단계,

상기 음성 명령의 상기 복수의 해석을 중앙집중식 디스플레이 상에 시각적으로 렌더링하는 단계, 및

상기 사용자로부터 해석의 선택의 표시를 수신하는 단계를 포함하는 방법.
제1항에 있어서, 상기 복수의 해석을 시각적으로 렌더링하는 상기 단계는 각각이 대응하는 식별자를 갖는 상기 복수의 해석을 리스트에 시각적으로 렌더링하는 단계를 포함하는 것인 방법.
제1항에 있어서, 해석의 선택의 표시를 수신하는 상기 단계는 상기 선택된 해석에 대응하는 식별자를 나타내는 음성 신호를 수신하는 단계를 포함하는 것인 방법.
제1항에 있어서, 해석의 선택의 표시를 수신하는 상기 단계는 상기 해석의 선택에 대응하는 식별자를 나타내는 입력 장치 신호를 수신하는 단계를 포함하는 것인 방법.
제1항에 있어서, 상기 사용자가 상기 음성 명령을 다시 말하는 쪽으로 선택할 수 있게 해주는 대안을 시각적으로 렌더링하는 단계를 더 포함하는 방법.
제5항에 있어서, 상기 사용자가 상기 음성 명령을 다시 말하는 쪽으로 선택할 때 복수의 재작성된 해석을 시각적으로 렌더링하는 단계를 더 포함하는 방법.
제1항에 있어서, 상기 사용자가 상기 복수의 해석에 포함되지 않은 새로운 해석을 생성하는 쪽으로 선택할 수 있게 해주는 대안을 시각적으로 렌더링하는 단계를 더 포함하는 방법.
제7항에 있어서, 상기 사용자가 새로운 해석을 생성하는 쪽으로 선택할 수 있게 해주는 상기 단계는 상기 새로운 해석의 가청의 철자(audible spelling)를 수신하는 단계를 포함하는 것인 방법.
제1항에 있어서, 상기 선택의 표시가 수신된 후에 상기 선택된 해석을 상기 적어도 하나의 애플리케이션 모듈로 전달하는 단계를 더 포함하는 방법.
제1항에 있어서, 상기 중앙집중식 디스플레이는 컴퓨팅 장치 디스플레이 상의 일관된 위치에 디스플레이되는 중앙집중식 패널을 포함하는 것인 방법.
제1항에 있어서, 상기 중앙집중식 디스플레이 상에 오인식된 발음(misrecognized utterance)에 대한 대체 철자들의 리스트를 시각적으로 렌더링하는 단계를 더 포함하는 방법.
제1항에 있어서, 상기 중앙집중식 디스플레이 상에 상기 복수의 애플리케이션 모듈로부터의 피드백을 시각적으로 디스플레이하는 단계를 더 포함하는 방법.
사용자와의 중앙집중식 상호작용을 용이하게 해주는 컴퓨터 구현 시스템으로서,

음성 명령을 캡처하도록 구성된 오디오 캡처 모듈,

문법 내의 복수의 명령에 액세스함으로써 상기 음성 명령을 인식하도록 구성된 음성 인식기, 및

상기 인식된 음성 명령이 모호할 때 상기 복수의 애플리케이션 모듈 중 적어도 하나로부터의 복수의 해석을 시각적으로 렌더링하고, 상기 복수의 해석 중 하나의 선택의 표시를 수신하도록 구성된 중앙집중식 인터페이스 모듈을 포함하는 컴퓨터 구현 시스템.
제13항에 있어서, 상기 중앙집중식 인터페이스는 상기 선택의 표시를 상기 복수의 애플리케이션 모듈 중 상기 적어도 하나에 전달하도록 구성되어 있는 것인 컴퓨터 구현 시스템.
제13항에 있어서, 상기 해석들의 리스트를 시각적으로 렌더링하는 중앙집중식 패널을 디스플레이하도록 구성된 중앙집중식 디스플레이를 더 포함하는 컴퓨터 구현 시스템.
제13항에 있어서, 상기 중앙집중식 인터페이스 모듈은 상기 사용자가 상기 음성 명령을 다시 말하는 쪽으로 선택할 수 있게 해주는 대안을 시각적으로 렌더링하도록 구성되어 있는 것인 컴퓨터 구현 시스템.
제16항에 있어서, 상기 중앙집중식 인터페이스 모듈은 상기 사용자가 상기 음성 명령을 다시 말하는 쪽으로 선택할 때 상기 시각적으로 렌더링된 해석들의 리스트를 재작성하도록 구성되어 있는 것인 컴퓨터 구현 시스템.
제13항에 있어서, 상기 중앙집중식 인터페이스 모듈은 상기 사용자가 상기 해석들의 리스트에 시각적으로 렌더링되어 있지 않은 음성 명령을 생성하는 쪽으로 선택할 수 있게 해주는 대안을 시각적으로 렌더링하도록 구성되어 있는 것인 컴퓨터 구현 시스템.
제18항에 있어서, 상기 중앙집중식 인터페이스 모듈은 상기 생성된 음성 명령을 철자화된 명령(spelled command)의 형태로 수신하도록 구성되어 있는 것인 컴퓨터 구현 시스템.
제13항에 있어서, 상기 중앙집중식 인터페이스 모듈은 인식 에러를 포함하는 지시된 구문에 대한 대체 구문들의 리스트를 시각적으로 렌더링하도록 구성되어 있는 것인 컴퓨터 구현 시스템.
제20항에 있어서, 상기 중앙집중식 인터페이스 모듈은 상기 사용자가 상기 지시된 구문을 다시 말하는 쪽으로 선택할 수 있게 해주는 대안을 시각적으로 렌더링하도록 구성되어 있는 것인 컴퓨터 구현 시스템.
제20항에 있어서, 상기 중앙집중식 인터페이스 모듈은 상기 사용자가 대체 철자들의 리스트에 나타나지 않은 단어를 생성하는 쪽으로 선택할 수 있게 해주는 대안을 시각적으로 렌더링하도록 구성되어 있는 것인 컴퓨터 구현 시스템.
제13항에 있어서, 상기 중앙집중식 인터페이스 모듈은 상기 복수의 애플리케이션 모듈로부터의 피드백을 시각적으로 렌더링하도록 구성되어 있는 것인 컴퓨터 구현 시스템.
제13항에 있어서, 상기 복수의 애플리케이션 모듈로부터 수신되는 명령들에 기초하여 상기 문법을 생성하도록 구성된 문법 생성기 모듈을 더 포함하는 컴퓨터 구현 시스템.
제13항에 있어서, 상기 인식된 음성 명령이 상기 복수의 애플리케이션 모듈 중 적어도 몇 개에 의해 프로세싱될 수 있을 때 상기 인식된 음성 명령은 모호한 것인 컴퓨터 구현 시스템.
제13항에 있어서, 상기 애플리케이션 모듈들 중 하나가 상기 인식된 음성 명령에 기초하여 2개 이상의 동작이 실행될 수 있는 것으로 판정할 때 상기 인식된 음성 명령은 모호한 것인 컴퓨터 구현 시스템.
사용자와의 중앙집중식 상호작용을 용이하게 해주는 컴퓨터 구현 방법으로서,

음성 명령을 캡처하는 단계,

인식가능한 명령들의 문법에 액세스함으로써 상기 음성 명령을 인식하는 단계,

상기 인식된 음성 명령이 모호한 것인지를 판정하는 단계,

상기 인식된 음성 명령의 해석들의 리스트를 중앙집중식 디스플레이 상에 시 각적으로 디스플레이하는 단계, 및

상기 해석들 중 하나의 선택의 표시를 수신하는 단계를 포함하는 방법.
제27항에 있어서, 상기 해석들의 리스트는 복수의 애플리케이션 모듈에 의해 생성되는 것인 방법.
제27항에 있어서, 상기 해석들의 리스트는 애플리케이션의 2개 이상의 인스턴스가 동작 중에 있다는 인식에 기초하는 것인 방법.
제27항에 있어서, 상기 사용자가 상기 음성 명령을 다시 말하는 쪽으로 선택할 수 있도록 해주는 대안을 시각적으로 렌더링하는 단계를 더 포함하는 방법.
제27항에 있어서, 상기 사용자가 상기 해석들의 리스트 내의 해석에 대응하지 않는 음성 명령을 생성하는 쪽으로 선택할 수 있게 해주는 대안을 시각적으로 렌더링하는 단계를 더 포함하는 방법.
제31항에 있어서, 상기 사용자가 새로운 해석을 생성하는 쪽으로 선택할 수 있게 해주는 상기 단계는 상기 새로운 해석의 가청의 철자를 수신하는 단계를 포함하는 것인 방법.