KR20080040699A

KR20080040699A - 목소리로 활성화되는 사용자 인터페이스의 실행에 대한선택적 확인

Info

Publication number: KR20080040699A
Application number: KR1020087002977A
Authority: KR
Inventors: 알렉스 지. 스닛코브스키; 데이비드 모와트; 펠릭스 지.티.아이. 앤드류; 로버트 에드워드 드워
Original assignee: 마이크로소프트 코포레이션
Priority date: 2005-08-05
Filing date: 2006-08-07
Publication date: 2008-05-08
Also published as: IL189125A0; JP2009503623A; CA2617924A1; US20070033054A1; AU2006278365A1; MX2008001615A; EP1920321A1; WO2007019476A1; US8694322B2; NO20080534L; RU2008104139A; BRPI0614114A2; EP1920321B1; EP1920321A4

Abstract

애플리케이션을 위한 목소리로 활성화되는 사용자 인터페이스가 기술된다. 목소리로 활성화되는 사용자 인터페이스는 음성 인식 컴포넌트를 호출하여 사용자로부터의 음성 입력을 인식한다. 만일 음성 입력이 명령이면, 승인 컴포넌트가 호출되어 실행에 앞서 명령을 승인할지 결정한다.

사용자 인터페이스, 목소리로 활성화되는 사용자 인터페이스, 음성 신호, 애플리케이션, 방법, 음성 인식 컴포넌트, 음성 지원 컴포넌트, 승인 컴포넌트, 확인, 승인, 명령, 파괴적 명령

Description

목소리로 활성화되는 사용자 인터페이스의 실행에 대한 선택적 확인{SELECTIVE CONFIRMATION FOR EXECUTION OF A VOICE ACTIVATED USER INTERFACE}

음성 인식 애플리케이션은 음성을 인식하고 인식된 음성을 기초로 명령의 실행 및/또는 텍스트의 생성을 수행한다. 음성 인식은 오류가 발생하기 쉽고, 그 결과 때때로 잘못된 텍스트가 디스플레이되거나 잘못된 명령이 실행된다.

위 설명은 단지 일반적인 배경 지식 정보를 제공하는 것이고 본 발명의 권리 범위를 결정하는데 보조 수단으로 사용되고자 하는 것이 아니다.

목소리로 활성화되는 사용자 인터페이스(user interface; "UI")는 실행에 앞서 명령을 선택적으로 승인(validate)한다. 음성 인식 컴포넌트가 호출되어 사용자의 음성 입력을 인식한다. 만일 음성 입력이 명령이면, 승인 컴포넌트가 호출되어 명령을 승인시킬지 결정한다. 입력 명령에 따라, 승인 컴포넌트는 사용자에게 사용자가 입력 명령을 실행하기를 원하는지를 확인 또는 승인화하도록 유도한다.

이 부분 설명은 아래의 실시예에서 더욱 상세히 기술될 사상들 중 선택된 일부를 단순화된 형태로 소개하기 위해 제공된다. 이 부분 설명은 본 발명의 권리범위의 본질적인 특징이나 기본적인 특징을 파악하고자 하는 것이 아니고, 본 발명의 권리 범위를 결정하는데 보조 수단으로 사용되고자 하는 것도 아니다.

도 1은 본 발명이 실시될 수 있는 한 컴퓨팅 환경의 블록도를 도시하는 도면.

도 2는 본 발명이 실시될 수 있는 선택적인 컴퓨팅 환경의 블록도를 도시하는 도면.

도 3은 애플리케이션 명령에 대한 승인 컴포넌트를 포함하는 목소리로 활성화되는 사용자 인터페이스의 일 실시예의 블록도를 도시하는 도면.

도 4는 본 발명에 따라 목소리로 활성화되는 사용자 인터페이스를 구현한 일 실시예를 설명하는 흐름도를 도시하는 도면.

도 1은 실시예들이 구현되기에 적합한 컴퓨팅 시스템 환경(100)의 일례를 도시하고 있다. 컴퓨팅 시스템 환경(100)은 적합한 컴퓨팅 환경의 일례에 불과하며, 본 발명의 용도 또는 기능성의 범위에 관해 어떤 제한을 암시하고자 하는 것이 아니다. 컴퓨팅 환경(100)이 예시적인 운영 환경(100)에 도시된 컴포넌트들 중 임의의 하나 또는 그 컴포넌트들의 임의의 조합과 관련하여 어떤 의존성 또는 요구사항을 갖는 것으로 해석되어서도 안된다.

실시예들은 많은 기타 범용 또는 특수 목적의 컴퓨팅 시스템 환경 또는 구성에서 동작할 수 있다. 다양한 실시예들에서 사용하는 데 적합할 수 있는 잘 알려진 컴퓨팅 시스템, 환경 및/또는 구성의 예로는 퍼스널 컴퓨터, 서버 컴퓨터, 핸드-헬드 또는 랩톱 장치, 멀티프로세서 시스템, 마이크로프로세서 기반 시스템, 셋톱 박스, 프로그램가능한 가전제품, 네트워크 PC, 미니컴퓨터, 메인프레임 컴퓨터, 전화 시스템, 상기 시스템들이나 장치들 중 임의의 것을 포함하는 분산 컴퓨팅 환경, 기타 등등이 있지만 이에 제한되는 것은 아니다.

실시예들은 일반적으로 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터 실행가능 명령어와 관련하여 기술될 것이다. 일반적으로, 프로그램 모듈은 특정 태스크를 수행하거나 특정 추상 데이터 유형을 구현하는 루틴, 프로그램, 개체, 컴포넌트, 데이터 구조 등을 포함한다. 어떤 실시예들은 또한 통신 네트워크를 통해 연결되어 있는 원격 처리 장치들에 의해 태스크가 수행되는 분산 컴퓨팅 환경에서 실시되도록 설계된다. 분산 컴퓨팅 환경에서, 프로그램 모듈은 메모리 저장 장치를 비롯한 로컬 및 원격 컴퓨터 저장 매체 양쪽에 위치할 수 있다.

도 1과 관련하여, 어떤 실시예들을 구현하는 예시적인 시스템은 컴퓨터(110) 형태의 범용 컴퓨팅 장치를 포함한다. 컴퓨터(110)의 컴포넌트들은 처리 장치(120), 시스템 메모리(130), 및 시스템 메모리를 비롯한 각종 시스템 컴포넌트들을 처리 장치(120)에 연결시키는 시스템 버스(121)를 포함하지만 이에 제한되는 것은 아니다. 시스템 버스(121)는 메모리 버스 또는 메모리 컨트롤러, 주변 장치 버스 및 각종 버스 아키텍처 중 임의의 것을 이용하는 로컬 버스를 비롯한 몇몇 유형의 버스 구조 중 어느 것이라도 될 수 있다. 예로서, 이러한 아키텍처는 ISA(industry standard architecture) 버스, MCA(micro channel architecture) 버스, EISA(Enhanced ISA) 버스, VESA(video electronics standard association) 로컬 버스, 그리고 메자닌 버스(mezzanine bus)로도 알려진 PCI(peripheral component interconnect) 버스 등을 포함하지만 이에 제한되는 것은 아니다.

컴퓨터(110)는 통상적으로 각종 컴퓨터 판독가능 매체를 포함한다. 컴퓨터(110)에 의해 액세스 가능한 매체는 그 어떤 것이든지 컴퓨터 판독가능 매체가 될 수 있고, 이러한 컴퓨터 판독가능 매체는 휘발성 및 비휘발성 매체, 이동식 및 비이동식 매체를 포함한다. 예로서, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 포함하지만 이에 제한되는 것은 아니다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보를 저장하는 임의의 방법 또는 기술로 구현되는 휘발성 및 비휘발성, 이동식 및 비이동식 매체를 포함한다. 컴퓨터 저장 매체는 RAM, ROM, EEPROM, 플래시 메모리 또는 기타 메모리 기술, CD-ROM, DVD(digital versatile disk) 또는 기타 광 디스크 저장 장치, 자기 카세트, 자기 테이프, 자기 디스크 저장 장치 또는 기타 자기 저장 장치, 또는 컴퓨터(110)에 의해 액세스되고 원하는 정보를 저장할 수 있는 임의의 기타 매체를 포함하지만 이에 제한되는 것은 아니다. 통신 매체는 통상적으로 반송파(carrier wave) 또는 기타 전송 메커니즘(transport mechanism)과 같은 변조된 데이터 신호(modulated data signal)에 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터 등을 구현하고 모든 정보 전달 매체를 포함한다. "변조된 데이터 신호"라는 용어는, 신호 내에 정보를 인코딩하도록 그 신호의 특성들 중 하나 이상을 설정 또는 변경시킨 신호를 의미한다. 예로서, 통신 매체는 유선 네트워크 또는 직접 배선된 접속(direct-wired connection)과 같은 유선 매체, 그리고 음향, RF, 적외선, 기타 무선 매체와 같은 무선 매체를 포함한다. 상술된 매체들의 모든 조합들 또한, 컴퓨터 판독가능 매체의 영역 안에 포함되는 것으로 한다.

시스템 메모리(130)는 판독 전용 메모리(ROM)(131) 및 랜덤 액세스 메모리(RAM)(132)와 같은 휘발성 및/또는 비휘발성 메모리 형태의 컴퓨터 저장 매체를 포함한다. 시동 중과 같은 때에, 컴퓨터(110) 내의 구성요소들 사이의 정보 전송을 돕는 기본 루틴을 포함하는 기본 입/출력 시스템(BIOS)(133)은 통상적으로 ROM(131)에 저장되어 있다. RAM(132)에는 통상적으로 처리 장치(120)가 즉시 이용할 수 있고, 또는 현재 동작시키고 있는 데이터 및/또는 프로그램 모듈을 포함한다. 예로서, 도 1은 운영 체제(134), 애플리케이션 프로그램(135), 기타 프로그램 모듈(136) 및 프로그램 데이터(137)를 도시하고 있지만 이에 제한되는 것은 아니다.

컴퓨터(110)는 또한 기타 이동식/비이동식, 휘발성/비휘발성 컴퓨터 저장매체를 포함한다. 단지 예로서, 도 1은 비이동식·비휘발성 자기 매체에 기록을 하거나 그로부터 판독을 하는 하드 디스크 드라이브(141), 이동식·비휘발성 자기 디스크(152)에 기록을 하거나 그로부터 판독을 하는 자기 디스크 드라이브(151), CD-ROM 또는 기타 광 매체 등의 이동식·비휘발성 광 디스크(156)에 기록을 하거나 그로부터 판독을 하는 광 디스크 드라이브(155)를 도시한다. 예시적인 운영 환경에서 사용될 수 있는 기타 이동식/비이동식, 휘발성/비휘발성 컴퓨터 기억 매체로는 자기 테이프 카세트, 플래시 메모리 카드, DVD, 디지털 비디오 테이프, 고상(solid state) RAM, 고상 ROM 등이 있지만 이에 제한되는 것은 아니다. 하드 디스크 드라이브(141)는 통상적으로 인터페이스(140)와 같은 비이동식 메모리 인터페이스를 통해 시스템 버스(121)에 접속되고, 자기 디스크 드라이브(151) 및 광 디스크 드라이브(155)는 통상적으로 인터페이스(150)와 같은 이동식 메모리 인터페이스에 의해 시스템 버스(121)에 접속된다.

위에서 설명되고 도 1에 도시된 드라이브들 및 이들과 관련된 컴퓨터 저장 매체에는, 컴퓨터(110)에 대한 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 및 기타 데이터가 저장된다. 도 1에서, 예를 들어, 하드 디스크 드라이브(141)는 운영 체제(144), 애플리케이션 프로그램(145), 기타 프로그램 모듈(146), 및 프로그램 데이터(147)를 저장하는 것으로 도시되어 있다. 여기서 주의할 점은 이들 컴포넌트가 운영 체제(134), 애플리케이션 프로그램(135), 기타 프로그램 모듈(136), 및 프로그램 데이터(137)와 동일하거나 그와 다를 수 있다는 것이다. 이와 관련해, 운영 체제(144), 애플리케이션 프로그램(145), 기타 프로그램 모듈(146) 및 프로그램 데이터(147)에 다른 번호가 부여되어 있다는 것은 적어도 이들이 다른 사본(copy)이라는 것을 나타내기 위한 것이다.

사용자는 키보드(162), 마이크(163) 및 마우스, 트랙볼(trackball) 또는 터치 패드와 같은 포인팅 장치(161) 등의 입력 장치를 통해 명령 및 정보를 컴퓨터(110)에 입력할 수 있다. 다른 입력 장치(도시 생략)로는 조이스틱, 게임 패드, 위성 안테나, 스캐너 등을 포함할 수 있다. 이들 및 기타 입력 장치는 종종 시스템 버스에 결합된 사용자 입력 인터페이스(160)를 통해 처리 장치(120)에 접속되지만, 병렬 포트, 게임 포트 또는 USB(universal serial bus) 등의 다른 인터페 이스 및 버스 구조에 의해 접속될 수도 있다. 모니터(191) 또는 다른 유형의 디스플레이 장치도 비디오 인터페이스(190) 등의 인터페이스를 통해 시스템 버스(121)에 접속될 수 있다. 모니터 외에, 컴퓨터는 스피커(197) 및 프린터(196) 등의 기타 주변 출력 장치를 포함할 수 있고, 이들은 출력 주변장치 인터페이스(195)를 통해 접속될 수 있다.

컴퓨터(110)는 원격 컴퓨터(180)와 같은 하나 이상의 원격 컴퓨터로의 논리적 접속을 사용하여 네트워크화된 환경에서 동작할 수 있다. 원격 컴퓨터(180)는 퍼스널 컴퓨터, 핸드-헬드 장치, 서버, 라우터, 네트워크 PC, 피어 장치 또는 기타 통상의 네트워크 노드일 수 있고, 통상적으로 컴퓨터(110)와 관련하여 상술된 구성요소들의 대부분 또는 그 전부를 포함한다. 도 1에 도시된 논리적 접속으로는 LAN(171) 및 WAN(173)이 있지만, 기타 네트워크를 포함할 수도 있다. 이러한 네트워킹 환경은 사무실, 전사적 컴퓨터 네트워크(enterprise-wide computer network), 인트라넷, 및 인터넷에서 일반적인 것이다.

LAN 네트워킹 환경에서 사용될 때, 컴퓨터(110)는 네트워크 인터페이스 또는 어댑터(170)를 통해 LAN(171)에 접속된다. WAN 네트워킹 환경에서 사용될 때, 컴퓨터(110)는 통상적으로 인터넷과 같은 WAN(173)을 통해 통신을 설정하기 위한 모뎀(172) 또는 기타 수단을 포함한다. 내장형 또는 외장형일 수 있는 모뎀(172)은 사용자 입력 인터페이스(160) 또는 기타 적절한 메커니즘을 통해 시스템 버스(121)에 접속된다. 네트워크화된 환경에서, 컴퓨터(110) 또는 그의 일부와 관련하여 기술된 프로그램 모듈은 원격 메모리 저장 장치에 저장될 수 있다. 예로서, 도 1은 원격 애플리케이션 프로그램(185)이 원격 컴퓨터(180)에 있는 것으로 도시하고 있지만 이에 제한되는 것은 아니다. 도시된 네트워크 접속은 예시적인 것이며 이 컴퓨터들 사이에 통신 링크를 설정하는 기타 수단이 사용될 수 있다는 것을 이해할 것이다.

도 2는 예시적 컴퓨팅 환경인 이동 장치(mobile device; 200)의 블록도 이다. 이동 장치(200)는 마이크로 프로세서(202), 메모리(204), 입/출력 컴포넌트(input/output components; 206) 그리고 원격 컴퓨터(remote computer)나 다른 이동 장치와 통신하기 위한 통신 인터페이스(208)를 포함한다. 일 실시예에서, 전술한 구성요소는 상호 간에 통신을 하기 위해 적합한 버스(210)를 통해 연결된다.

메모리(204)는 이동 장치(200)의 주 전원이 꺼졌을 때도 메모리(204) 내에 저장된 정보가 손실되지 않도록 배터리 백업 모듈(도시 없음)이 있는 랜덤 액세스 메모리(RAM)와 같은 비휘발성 전자 메모리 형태로 구현된다. 메모리(204)의 일부분은 프로그램 실행을 위한 번지 지정 메모리(addressable memory)로서 할당되는 것이 바람직하고, 반면에 메모리(204)의 또 다른 부분은 디스크 드라이브상의 모의 저장장치(simulate storage)와 같은 저장장치로 사용되는 것이 바람직하다.

메모리(204)는 객체 기억장치(object store; 216) 뿐만 아니라 운영 체제(212), 애플리케이션 프로그램(214)도 포함한다. 동작 중에, 운영 체제(212)는 메모리(204)로부터 읽혀져 프로세서(202)에 의해 실행된다. 한 실시예에서 운영 체제(212)는 마이크로소프트 코포레이션(Microsoft Corporation) 에서 나온 상 업적으로 이용가능한 윈도우즈 씨이(WINDOWS® CE) 상표(brand)의 운영 체제일 수 있다. 운영 체제(212)는 이동 장치를 위해 설계되고 애플리케이션(214)에 의해 사용될 수 있는 데이터베이스 특성들을 노출된 애플리케이션 프로그래밍 인터페이스와 메쏘드의 집합(a set of exposed application programming interface and methods)을 통해 구현한다. 객체 기억장치(216) 내의 객체는 노출된 애플리케이션 프로그래밍 인터페이스와 메쏘드의 호출에 적어도 부분적으로 응답하여, 애플리케이션(214)과 운영 체제(212)에 의해 관리된다.

통신 인터페이스(208)는 이동 장치(200)가 정보를 송신하고 수신하는 것을 가능케하는 수많은 장치와 기술을 의미한다. 상기 장치는 몇 개를 들자면 유/무선 모뎀, 위성 수신기 및 방송 동조기(broadcast tuner)를 포함한다. 이동 장치(200)는 또한 상호 간의 데이터 교환을 위해 컴퓨터에 직접 연결될 수 있다. 이런 경우, 통신 인터페이스(208)는 적외선 송수신기 또는 직렬 또는 병렬 통신 접속(a serial or a parallel communication connection)일 수 있으며 예시된 이들 모든 인터페이스는 스트리밍 정보를 전송하는 것이 가능하다.

입/출력 컴포넌트(206)는 접촉 감지 스크린(touch-sensitive screen), 버튼, 롤러 및 마이크로폰과 같은 다양한 입력 장치를 포함할 뿐만 아니라, 음향 생성기(audio generator), 진동 장치(vibrating device) 및 디스플레이와 같은 다양한 출력 장치들도 포함한다. 상기에 열거된 장치들은 예를 든 것이고 이동 장치(200)에 모두 갖춰져 있을 필요는 없다. 부가적으로, 기타 입/출력 장치는 이동 장치(200)에 부착되거나, 이동 장치(200)와 함께 있을 수 있다.

도 3은 애플리케이션(300)용 사용자 인터페이스(250)가 목소리로 활성화 되는 것을 가능케하는 시스템을 도시한다. 도 3에 도시된 바와 같이, 시스템은 음성 지원 컴포넌트(speech support component; 302)를 포함한다. 음성 지원 컴포넌트(302)는, 예컨대 마이크로폰 또는 기타 음성 입력 장치를 통해, 사용자로부터 음성 입력(306)을 수신하고 받아쓰기(310) 및/또는 명령(312)으로 구성된 텍스트(309)를 파악하기 위해 음성을 디코딩하는 음성 인식 컴포넌트(speech recognition component; 304)를 호출하도록 구성된다. 받아쓰기(310)의 예시는 워드 프로세싱 문서(word processing document)의 본문 및/또는 이메일 메시지의 본문을 위한 텍스트를 포함한다.

명령(command; 312)은 "전송", "인쇄", "삭제" 또는 "저장"과 같은 작업을 수행하는 명령어(instruction)를 포함한다. 음성 지원 컴포넌트(302)는 사용자 인터페이스(250)를 살피어 어떤 구성요소가 인터페이스상에 디스플레이될지 및 각각의 구성요소와 연관된 레이블을 결정한다. 음성 지원 컴포넌트(302)는 레이블 및 인터페이스의 구성요소에 기초하여 문법(grammer; 314)을 구축하는데, 음성 인식 컴포넌트(304)는 이 문법을 사용하여 특정 인식된 단어 또는 어구(certain recognized words and phrases)가 명령을 의미하게 한다. 통상적으로, 문법(314)은 명령과 관련된 가령, 명령이 선두의 침묵 휴지기(leading pause of silence)와 후미의 침묵 휴지기(trailing pause of silence) 사이에 존재한다, 와 같은 규칙을 정의할 것이다.

음성 지원 컴포넌트(302)는 승인 컴포넌트(320)를 호출하여 사용자 인터페이 스(250)를 통한 명령(312)의 실행에 앞서 명령(312)을 승인받는다. 승인 컴포넌트(320)는 개별 객체 모듈이거나 음성 지원 컴포넌트(302)와 통합될 수 있다.

승인 컴포넌트(320)는 입력 명령(312)을 승인하는데 서로 다른 승인 기법들을 사용할 수 있다. 한 승인 기법은 입력 명령(312)을 데이터 기억장치(322) 내의 파괴적 단음절 명령어 목록(a list of destructive monosyllabic commands)과 비교한다. 파괴적 명령이란 쉽게 원상태로 되돌릴 수 없는 명령이다. 예컨대, "전송(send)" 명령은 단음절이고 많은 이메일 시스템에서 이메일 문서는 전송 명령이 수행된 후에는 전송 취소가 될 수 없기 때문에 파괴적인 것으로 간주 된다. "전송"과 같은 단음절 명령은 오인되기 쉽기 때문에 승인받도록 선택된다. 승인은 사용자 입력을 요구하기 때문에, 오인이 발생할 가능성이 높은 경우로 제한하는 것이 바람직하다. 본 발명자는 단음절 단어 및 그와 유사한 것들에 대하여 오인이 발생할 가능성이 높다는 것을 발견하였고, 일 실시예에서는, 오직 단음절 명령에 대하여서만 승인이 이루어진다.

입력 명령(312)이 데이터 기억장치(322) 내의 파괴적 명령들 중 일부라면, 승인 컴포넌트(320)는 (324)블록에 도시된 바와 같이 사용자가 진행하기를 원하는지 확인하도록 유도한다. 예컨대, 만일 사용자가 이메일 메시지를 생성하고 단어 "전송"을 발음한다면, 승인 컴포넌트(320)는 사용자가 이메일을 전송하기를 원하는지 확인하도록 유도한다.

승인 유도 또는 메시지(324)는 애플리케이션 프로그램(300)의 사용자 인터페 이스(250)를 통해 구현되거나 디스플레이될 수 있다. 승인 유도는 각기 다른 형태로 구현될 수 있다. 예컨대, 음성 유도 또는 텍스트 유도가 사용될 수 있다.

일 실시예에서는, 그 명령에 해당하는 컴퓨터 디스플레이 또는 화면상에 명령에 대응하는 버튼 또는 아이콘을 시각적으로 하이라이트(highlight)함으로써 사용자는 해당 명령(312)을 확인하도록 유도된다. 그러면 사용자는 하이라이트된 명령이 실행되기 원하는지를 확인한다. 사용자는 네/아니오 피드백 옵션을 사용함으로써 하이라이트된 명령을 확인할 수 있다. 대안적으로, 애플리케이션(300)은, 사용자가 애플리케이션 또는 프로그램에 실행하지 않겠다고 명령하지 않는다면 일정 시간 지연 뒤에 애플리케이션(300)이 명령을 실행할 것이라는 내용의 메시지를 디스플레이할 수 있다.

도 4는 컴퓨터 애플리케이션 또는 프로그램을 위해 목소리로 활성화되는 인터페이스를 구현하는 단계를 도시하는 흐름도이다. 도시된 바와 같이, 음성 지원 컴포넌트(302)는 음성 인식 컴포넌트(304)를 호출하여 단계(350)에 도시된 바와 같이 입력 음성을 수신한다. 음성 인식 컴포넌트(304)는 단계(352)에서 입력 음성이 받아쓰기인지 애플리케이션 명령인지 결정한다.

텍스트와 명령은 입력 음성의 속성 및 애플리케이션 명령에 대한 문법(314)에 기초하여 구별된다. 예를 들어, 명령의 특징적인 속성은 명령을 나머지 발성(utterance)과 구별하는 선두 및 후미의 휴지기를 포함할 수 있다.

그러나, 또 다른 실시예에서는, 자유로운 형식의 음성 받아쓰기가 사용될 수 있고 확인이나 승인이 여전히 사용될 수 있다.

만일 인식된 음성이 받아쓰기면, 단계(354)에 도시된 바와 같이 텍스트가 사용자 인터페이스(250)에서 현재 활성된 사용자 인터페이스 구성요소 내에 위치하게 된다.

만일 인식된 음성이 명령이면, 승인 컴포넌트(320)가 단계(356)에 도시된 바와 같이 명령이 파괴적인지 또는 비파괴적인지, 또는 확인을 요청할지를 결정한다.

도시된 실시예에서, 만일 명령이 파괴적이면 블록(358)에 도시된 바와 같이 사용자로부터의 확인이 요청된다. 만일 명령이 파괴적이 아니면, 단계(359)에서 명령은 사용자 인터페이스 일 구성요소에 대한 선택으로 변환되고 선택 메쏘드에 대한 호출이 이루어진다.

단계(360)에 도시된 바와 같이, 파괴적 명령이 사용자에 의해 확인되면, 단계(359)에서 명령은 사용자 인터페이스 일 구성요소에 대한 선택으로 변환된다. 이와 달리, 만일 사용자가 명령을 확인하지 않으면 명령은 실행되지 않는다. 이 절차는 단계(399)에 도시된 바와 같이 다음 음성 입력이 있을 때까지 대기 단계에 있게 된다.

승인 컴포넌트(320)는 데이터 기억장치(322) 내의 명령 목록을 사용하여 명령의 실행에 앞서 선택적으로 확인을 요청한다. 실행에 앞서 확인하기 위해 데이터 기억장치를 사용하여 파괴적이거나 단음절인 명령을 파악하는 것은 오인 및 의도하지 않은 작업 또는 기능이 실행되는 것을 감소시킨다.

파괴적인 명령의 목록은 데이터 기억장치(322)에 수동으로 입력될 수 있다. 예를 들어, 파괴적인 명령은 사용자 입력 없이 입력될 수 있다. 또 다른 실시예에 서 사용자로부터의 피드백을 기초로 데이터 기억장치(322)의 기록(data store records)이 생성된다. 후속 실시예에서 단말 사용자(end user)는 애플리케이션이 데이터 기억장치(322) 내의 파괴적 단어 목록을 (애플리케이션이 실행 중일 때에도) 수정하도록 구성(configure)할 수 있다. 예를 들어, 만일 음성 인식 컴포넌트(304)가 “실행(run)” 명령을 출력하였지만, 사용자는 말하지 않았거나 “실행" 명령을 의도하지 않았다면 사용자는 애플리케이션에게 인식 오류가 있었다는 내용을 지적하는 피드백을 제공할 수 있다. 특히 사용자는 “실행” 명령이 실행되지 말았어야 했고 추후에는 “실행” 명령이 승인을 거쳐야 한다는 것을 지시할 수 있다. 그러면 상기 명령은 데이터 기억장치(322)에 추가되어, 추후 사용자는 실행에 앞서 유도되게 된다.

예시적인 실시예에서, 애플리케이션 그 자체가 데이터 기억장치(322)에 파괴적 명령 목록이 상주하게 할 수 있다. 이는 수 가지 방법으로 이뤄질 수 있다. 한 방법에 따르면, 애플리케이션이 설치될 때 애플리케이션은 파괴적 명령 목록을 데이터 기억장치(322)에 상주케한다.

또 다른 방법에 따르면, 애플리케이션은 동적으로 사용자 인터페이스(250) 내의 특정 구성요소가 파괴적인 것이라고 표시할 수 있다. 따라서, 음성 지원 컴포넌트(302)가 애플리케이션(300)과 인터페이스로 연결되어 디스플레이된 인터페이스 명령 또는 구성요소를 결정할 때, 음성 지원 컴포넌트(302)는 어떤 명령(들)이 파괴적인지도 결정한다. 예컨대, 한 인터페이스 또는 애플리케이션에서 사용자가 “빨강(red)”을 (위험 신호기(red flag)로서) 발음했을 때, “빨강”은 파괴적인 것으로 표시되고, 발음 또는 음성 명령의 실행을 확인하기 위하여 확인 단계가 수행된다. 동일한 애플리케이션의 다른 부분 또는 다른 애플리케이션에서 “빨강”은 단지 텍스트 색상을 바꿀 수 있을 뿐이어서, “빨강”은 파괴적인 것으로 표시되지 않고 확인 단계는 수행되지 않는다.

어떤 경우들에서 명령이 파괴적이 되는지에 대한 정보가 파괴적 명령 목록 내에 내장될 수 있다. 예컨대, “전송/모든 애플리케이션”은 “전송” 명령이 모든 애플리케이션에 대해 파괴적이라는 것을 의미하는 반면에 “빨강/경보 모니터”(alertmonitor)”는 “빨강”이 “경보 모니터” 라는 애플리케이션에 대해서만 파괴적이라는 것을 의미한다.

따라서, 예시적인 실시예에서, 데이터 기억장치(322)는 정적 기억장치(static store)일 수 있고 또는 선택적으로, 데이터 기억장치(322)는 동적으로 채워질 수 있으며 애플리케이션은 기술된 특정한 실시예에 제한되지 않는다.

본 발명의 요지가 구조적인 특징 및/또는 방법론적인 동작에 있어서 특정 어법으로 기술되었지만, 첨부된 청구항에 정의된 본 발명의 권리 범위는 상기에 기술된 특정 특징과 동작에 한정되지 않는 것으로 이해될 것이다. 오히려, 상기에 기술된 특정 특징과 동작은 청구항을 구현하는 예시적인 형태로서 개시된 것이다.

Claims

컴퓨터 실행가능 음성 명령들을 승인하는 시스템으로서,

음성 인식 컴포넌트로부터 명령을 수신하고 애플리케이션 명령들의 데이터 기억 장치(a data store of application commands)에 기초하여 상기 명령을 승인받을지를 결정하도록 구성된 승인 컴포넌트를 포함하는 시스템.
제1항에 있어서,

상기 데이터 기억장치는 파괴적 명령어들의 목록을 포함하는 시스템.
제2항에 있어서,

상기 데이터 기억장치 내의 상기 애플리케이션의 모든 명령들은 단음절인 시스템.
제1항에 있어서,

상기 승인 컴포넌트는 사용자가 상기 명령의 실행을 확인하도록 유도하는(prompt) 사용자 인터페이스를 호출함으로써 명령을 승인하는 시스템.
제4항에 있어서,

상기 사용자 인터페이스가 상기 명령의 구현을 확인하기 위한 음성 유도 또 는 텍스트 유도 중의 하나를 포함하는 시스템.
제1항에 있어서,

상기 데이터 기억장치는 파괴적 명령들의 목록 및 상기 파괴적 명령들이 승인되어야하는 경우들 또는 애플리케이션들에 대한 정보를 포함하는 시스템.
제1항에 있어서,

음성 입력으로부터 상기 명령을 인식하기 위한 상기 음성 인식 컴포넌트를 더 포함하는 시스템.
목소리로 활성화되는 사용자 인터페이스로서,

사용자로부터의 음성 입력 명령(audio input command)을 위해 음성(speech)을 인식하는 음성 인식 컴포넌트를 호출할 수 있는 음성 지원 컴포넌트;

상기 음성 입력 명령에 응답하여 호출되어 상기 음성 입력 명령을 승인받을지를 결정하는 승인 컴포넌트; 및

상기 음성 입력 명령에 기초하여 상기 음성 지원 컴포넌트에 의해 선택된 인터페이스 구성 요소를 구비한 사용자 인터페이스

를 포함하는 인터페이스.
제8항에 있어서,

상기 승인 컴포넌트는 애플리케이션 명령들의 데이터 기억장치에 접근하여(access) 상기 음성 입력 명령을 승인받을지를 결정하는 목소리로 활성화되는 사용자 인터페이스.
제9항에 있어서,

상기 데이터 기억장치는 파괴적 명령어들의 목록을 포함하는 목소리로 활성화되는 사용자 인터페이스.
제10항에 있어서,

상기 데이터 기억장치의 상기 모든 파괴적 명령들은 단음절인 목소리로 활성화되는 사용자 인터페이스.
제8항에 있어서,

상기 승인 컴포넌트는 상기 사용자에게 상기 음성 입력 명령의 구현을 실행할지 확인하도록 유도하는 인터페이스를 호출하는 목소리로 활성화되는 사용자 인터페이스.
제8항에 있어서,

상기 음성 인식 컴포넌트는 상기 사용자 인터페이스로부터 생성된 애플리케이션 명령들의 문법(a grammer of appliation commands)을 사용하는 목소리로 활성 화되는 사용자 인터페이스.
컴퓨터 실행가능 방법으로서,

음성 입력을 수신하는 단계;

상기 음성 입력으로부터 사용자 명령을 인식하기 위하여 음성 인식 컴포넌트를 호출하는 단계; 및

애플리케이션 명령들의 데이터 기억장치에 기초하여 상기 사용자 명령을 승인받을지를 결정하는 단계를

포함하는 방법.
제13항에 있어서,

상기 데이터 기억장치의 모든 명령들은 단음절의 파괴적 명령들인 방법.
제14항에 있어서,

상기 사용자에게 상기 사용자 명령의 실행을 확인하도록 유도함으로써 상기 사용자 명령을 승인하는 단계를 포함하는 방법.
제16항에 있어서,

상기 유도는 음성 유도 또는 텍스트 유도 중 하나인 방법.
제14항에 있어서,

애플리케이션 명령들의 목록을 사용자 입력 없이 상기 데이터 기억장치에 입력하는 단계를 더 포함하는 방법.
제14항에 있어서,

사용자로부터의 피드백에 기초하여 애플리케이션 명령에 대한 데이터 기억장치 기록을 생성하는 단계를 더 포함하는 방법.
제14항에 있어서,

상기 애플리케이션 명령들의 데이터 기억장치를 동적으로 상주시키기 위한 애플리케이션을 사용하는 단계를 더 포함하는 방법.