KR101213835B1

KR101213835B1 - 음성 인식에 있어서 동사 에러 복원

Info

Publication number: KR101213835B1
Application number: KR1020050081661A
Authority: KR
Inventors: 데이비드 모와트; 로버트 엘. 챔버스
Original assignee: 마이크로소프트 코포레이션
Priority date: 2004-10-22
Filing date: 2005-09-02
Publication date: 2012-12-20
Also published as: JP4942970B2; CN1763842B; KR20060050966A; CN1763842A; US20060089834A1; JP2006119625A; US8725505B2; EP1650744A1

Abstract

음성 인식용 컴퓨터 구현 방법 및 시스템이 제공된다. 상기 방법 및 시스템은 일반적으로 음성 인식 커맨드를 위한 동사의 세트를 유지한다. 상기 동사에 대한 무효 목적어 또는 목적어들과 결합하여 상기 세트의 동사의 발음을 인식하면, 상기 방법 및 시스템은 동사 및 무효 목적어와 관련하는 지시를 생성한다. 상기 지시는 무효 목적어를 구비하는 동사와 관계된 커맨드를 실행하는 방법이 확실하지 않다는 것을 사용자에게 통지하는 것을 포함한다. 상기 방법 및 시스템은 다음에 사용자 입력을 수신하여 동사 및 비유효 목적어를 처리해야 하는 방법을 특정한다.

음성 인식, 커맨드, 동사, 목적어, 형용사, 발음

Description

음성 인식에 있어서 동사 에러 복원{VERB ERROR RECOVERY IN SPEECH RECOGNITION}

도 1은 본 발명의 실시예를 실행하는 적당한 컴퓨팅 환경의 블록도.

도 2는 본 발명이 실행될 수 있는 다른 컴퓨팅 환경의 블록도.

도 3은 본 발명의 실시예에 따른 컴퓨터 구현 방법의 블록도.

<도면의 주요 부분에 대한 부호의 설명>

202: 프로세서

208: 통신 인터페이스

212: OS

214: 애플리케이션

216: 목적어 저장부

본 발명은 컴퓨터화된 음성 인식에 관한 것이다. 보다 상세하게는, 본 발명은 음성 인식 시스템이 인식 에러 및/또는 모호함에 반응하는 방식을 향상하기 위한 장치 및 방법에 관한 것이다.

음성 인식은 사람들이 자신의 음성을 사용하여 컴퓨팅 시스템과 인터페이싱할 수 있게 하는 많은 유용한 애플리케이션을 갖는 기술이다. 이들 애플리케이션은: 사용자가 텍스트를 문서로 받아쓰게 할 수 있고; 사용자가 음성을 통해 하나 이상의 컴퓨터 프로그램에 커맨드를 발행할 수 있으며; 자동화 전화 시스템을 향상시키고; 많은 기타 애플리케이션을 포함한다. 그러한 시스템은, 컴퓨터화된 전화 프로세싱 시스템; 데스크탑 컴퓨팅 제품과의 사용자 인터랙션; 및 심지어 모바일 컴퓨팅 장치의 인터랙션 및 제어 같은 대규모 중앙집중화 서버 애플리케이션에 유용하다.

음성 인식은 공지되어 있으며, 아마도 컴퓨팅 장치와의 인간 인터랙션의 미래로서 활발하게 연구되고 있다. 음성 인식이 빠르게 진보되어 왔지만, 완전하지는 않다. 음성 인식은 실질적인 컴퓨팅 리소스를 필요로 하며 100% 인식 정확도를 달성하지는 못한다. 이것은 부분적으로 인간 언어에 내재하는 모호성에 기인하고, 또한, 부분적으로, 사용자 음성이 적용될 수 있는 도메인이 변경하는 것에 기인한다.

현재의 데스크탑 음성 인식 시스템은 전형적으로 음성의 세개의 클래스를 경청한다. 인식된 텍스트가 현재 포커스를 갖는 문서에 간단히 삽입되는 제1 클래스에는 받아쓰기(dictation)가 없다. 받아쓰기의 예로는, "존, 어제 보내준 보고서 받았니?"가 있을 수 있다. 음성의 제2 클래스는 메뉴 또는 버튼의 간단한 이름 형태의 커맨드이다. 음성의 상기 클래스의 예로는 "파일(File)", "편집(Edit)", "보기(View)", "OK" 등을 포함한다. 커맨드 워드가 인식되는 경우, 그들이 나타내는 아이템이 음성에 의해 "클릭킹"되거나 선택된다(즉, 파일 메뉴는 "File"이 인식되는 경우 열린다). 제3 클래스는 동사 플러스 목적어 커맨드 쌍 형태의 커맨드이다. 음성의 상기 클래스의 예로는 "Delete report(리포트 삭제)", "Click OK(OK 클릭)" 및 "Start Calculator(계산기 실행)"을 포함한다. "계산기 실행" 커맨드는, 적당하게 인식될 때, 계산기를 호출하는 애플리케이션을 론칭(launching)할 것이다.

세개의 모든 클래스를 경청함으로써, 사용자는 음성에 의해 텍스트를 입력하고자 하는지 아니면 음성에 의해 커맨드를 제공하고자 하는지 여부를 말하기 전에 지시할 필요는 없다. 음성 인식 시스템은 그러한 것을 자동적으로 결정한다. 따라서, 사용자가 "Delete sentence(문장 삭제)"를 발음하면, 현재 문장이 삭제될 것이다. 또한, 사용자가 "This is a test(이것은 테스트이다)"라고 발음하면, 워드 "This is a test"가 현재 문서에 삽입될 것이다. 이러한 직관적인 접근법은 사용자 경험을 매우 간소화하지만, 제한이 없는 것은 아니다. 특히, 사용자가 동사-플러스-목적어 커맨드를 제공하고자 하는 경우, 그리고 커맨드 또는 목적어에 에러가 있거나 인식을 실패하는 경우, 동사-플러스-목적어는 받아쓰기로서 처리되고 문서에 삽입될 것이다.

시도된 동사-플러스-목적어 커맨드를 문서에 잘못 삽입하게되면 컴파운드 에러 상황이 발생하게 된다. 특히, 사용자는 잘못 삽입된 텍스트를 원상태로 되돌려야 하고 상기 커맨드를 다시 말해야 한다. 사용자가 동사-플러스-목적어 커맨드가 잘못인식될 때 하나 이상의 단계를 따라야 한다는 사실은 잘못 인식된 에러를 "컴 파운드 에러"로 전환하는 것이다. 컴파운드 에러는 사용자를 당황스럽게 하고 음성 인식에 대한 사용자의 인상을 쉽게 윤색할 수 있다. 따라서, 그러한 에러를 감소시키거나 또는 심지어 제거할 수 있는 음성 인식 시스템은 일반적으로 음성 인식으로 사용자의 경험을 향상시킬 것이다.

음성 인식용 컴퓨터 구현 방법 및 시스템이 제공된다. 상기 방법 및 시스템은 일반적으로 음성 인식 커맨드용 동사 세트를 유지한다. 동사 세트 및 그 동사에 대한 무효 목적어를 결합하여 발음하는 것을 인식하게 되면, 상기 방법 및 시스템은 상기 동사 및 무효 목적어에 관련하는 지시를 생성하게 된다. 상기 지시는 사용자에게 상기 시스템이 무효 목적어와 함께 동사와 관련된 커맨드를 실행해야 하는 방법이 불확실하다는 것을 통지하는 것을 포함한다. 그 다음, 상기 방법 및 시스템은 사용자 입력을 수신하여 동사 및 무효 목적어를 처리해야하는 방법을 특정한다.

도 1은 본 발명이 구현될 수 있는 적절한 컴퓨팅 시스템 환경(100)의 예를 나타낸다. 컴퓨팅 시스템 환경(100)은 단지 적절한 컴퓨팅 환경의 일 예이며 본 발명의 사용 또는 기능의 범위에 제한을 가하도록 의도된 것은 아니다. 컴퓨팅 환경(100)은 예시적인 오퍼레이팅 환경(100)에 도시된 컴포넌트들 중의 임의의 하나 또는 조합에 관하여 임의의 종속성(dependency) 또는 요구사항(requirement)을 갖는 것으로 해석되어서는 안된다.

본 발명은 많은 다른 범용 또는 특수목적 컴퓨팅 시스템 환경들 또는 구성들과 함께 동작될 수 있다. 본 발명과 함께 사용하기에 적합할 수 있는 잘 알려진 컴퓨팅 시스템, 환경, 및/또는 구성의 예로는, 퍼스널 컴퓨터, 서버 컴퓨터, 핸드헬드(hand-held) 또는 랩탑 장치, 멀티프로세서 시스템, 마이크로프로세서-기반 시스템, 셋 탑 박스(set top box), 프로그램가능한 가전제품(programmable consumer electronics), 네트워크 PC, 미니컴퓨터, 메인프레임 컴퓨터, 상기의 시스템 또는 장치 중의 임의의 것을 포함하는 분산형 컴퓨팅 환경 등이 포함될 수 있지만, 이에 한정되지 않는다.

본 발명은 컴퓨터에 의해 실행되는, 프로그램 모듈과 같은 컴퓨터 실행가능 명령과 일반적으로 관련하여 기술될 수 있다. 일반적으로, 프로그램 모듈은 특정 태스크를 수행하거나 특정 추상 데이터 유형을 구현하는 루틴, 프로그램, 목적어, 컴포넌트, 데이터 구조 등을 포함한다. 본 발명은 또한 통신 네트워크 또는 다른 데이터 전송 매체를 통해 링크된 원격 프로세싱 장치에 의해 태스크를 수행하는 분산형 컴퓨팅 환경에서 실행될 수 있다. 분산 컴퓨팅 환경에서, 프로그램 모듈 및 그외 데이터는 메모리 저장 장치를 포함하는 국부 및 원격 컴퓨터 저장 매체 내에 위치할 수 있다.

도 1을 참조하면, 본 발명을 구현하기 위한 예시적인 시스템은 컴퓨터(110)의 형태의 범용 컴퓨팅 장치를 포함한다. 컴퓨터(110)의 컴포넌트들로는, 중앙 프로세싱 유닛(120), 시스템 메모리(130), 및 시스템 메모리를 포함하는 다양한 시스템 컴포넌트를 프로세싱 유닛(120)에 연결시키는 시스템 버스(121)가 포함될 수 있 지만, 이에 한정되는 것은 아니다.

시스템 버스(121)는 다양한 버스 아키텍처 중의 임의의 것을 사용하는 로컬 버스, 주변 버스, 및 메모리 버스 또는 메모리 컨트롤러를 포함하는 몇가지 유형의 버스 구조 중의 임의의 것일 수 있다. 예로서, 이러한 아키텍처는 산업 표준 아키텍처(ISA) 버스, 마이크로 채널 아키텍처(MCA) 버스, 인핸스드 ISA(Enhanced ISA; EISA) 버스, 비디오 일렉트로닉스 표준 어소시에이션(VESA) 로컬 버스, 및 메자닌(Mezzanine 버스로도 알려진 주변 컴포넌트 상호접속(PCI) 버스를 포함하지만, 이에 한정되는 것은 아니다.

컴퓨터(110)는 통상적으로 다양한 컴퓨터 판독가능 매체를 포함한다. 컴퓨터 판독가능 매체는 컴퓨터(110)에 의해 액세스될 수 있는 임의의 이용가능한 매체일 수 있으며, 휘발성 및 비휘발성 매체, 분리형(removable) 및 비분리형(non-removable) 매체를 둘 다 포함한다. 예로서, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 포함할 수 있지만, 이에 한정되는 것은 아니다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령, 데이터 구조, 프로그램 모듈 또는 다른 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현되는 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 둘 다 포함한다. 컴퓨터 저장 매체는 RAM, ROM, EEPROM, 플래쉬 메모리 또는 기타 메모리 기술, CD-ROM, DVD(digital versatile disk) 또는 기타 광학 디스크 저장장치, 자기 카세트, 자기 테이프, 자기 디스크 저장장치 또는 기타 자기 저장장치, 또는 컴퓨터(110)에 의해 액세스될 수 있고 원하는 정보를 저장하는 데 사용될 수 있는 임의의 기타 매체를 포함할 수 있지만, 이에 한정되지 않는다. 통신 매체는 통상적으로 반송파 또는 기타 전송 메카니즘 등의 변조된 데이터 신호에 컴퓨터 판독가능 명령, 데이터 구조, 프로그램 모듈, 또는 다른 데이터를 구현하며, 임의의 정보 전달 매체를 포함한다. "변조된 데이터 신호"라는 용어는 신호 내에 정보를 인코딩하도록 설정되거나 변환된 특성을 하나 또는 그 이상을 갖는 신호를 의미한다. 예로서, 통신 매체는 유선 네트워크 또는 직접 유선 접속 등의 유선 매체와, 음향, RF, 적외선 및 기타 무선 매체 등의 무선 매체를 포함하지만, 이에 한정되지 않는다. 상술한 것들 중의의 임의의 조합이 컴퓨터 판독가능 매체의 범위 내에 포함되어야 한다.

시스템 메모리(130)는 ROM(131) 및 RAM(132) 등의 휘발성 및/또는 비휘발성 메모리의 형태의 컴퓨터 저장 매체를 포함한다. 시동중과 같은 때에 컴퓨터(110) 내의 구성요소들간에 정보를 전송하는 것을 돕는 기본 루틴을 포함하는 기본 입출력 시스템(133; BIOS)은 일반적으로 ROM(131)에 저장된다. RAM(132)은 일반적으로 프로세싱 유닛(120)에 즉시 액세스될 수 있고 및/또는 프로세싱 유닛(120)에 의해 현재 작동되는 프로그램 모듈 및/또는 데이터를 포함한다. 예로서, 도 1은 오퍼레이팅 시스템(134), 애플리케이션 프로그램(135), 기타 프로그램 모듈(136), 및 프로그램 데이터(137)를 도시하지만, 이에 한정되는 것은 아니다.

컴퓨터(110)는 또한 다른 분리형/비분리형, 휘발성/비휘발성 컴퓨터 저장 매체를 포함할 수 있다. 단지 예로서, 도 1에는 비분리형 비휘발성 자기 매체로부터 판독하거나 그 자기 매체에 기록하는 하드 디스크 드라이브(141), 분리형 비휘발성 자기 디스크(152)로부터 판독하거나 그 자기 디스크에 기록하는 자기 디스크 드라 이브(151), 및 CD-ROM 또는 기타 광학 매체 등의 분리형 비휘발성 광학 디스크(156)로부터 판독하거나 그 광학 디스크에 기록하는 광학 디스크 드라이브(155)가 도시되어 있다. 예시적인 오퍼레이팅 환경에서 사용될 수 있는 다른 분리형/비분리형, 휘발성/비휘발성 컴퓨터 저장 매체는 자기 테이프 카세트, 플래쉬 메모리 카드, DVD(Digital versatile disk), 디지털 비디오 테이프, 고체 RAM, 고체 ROM 등을 포함하지만 이에 한정되지 않는다. 하드 디스크 드라이브(141)는 일반적으로 인터페이스(140)와 같은 비분리형 메모리 인터페이스를 통해 시스템 버스(121)에 접속되고, 자기 디스크 드라이브(151) 및 광학 디스크 드라이브(155)는 일반적으로 인터페이스(150)와 같은 분리형 메모리 인터페이스에 의해 시스템 버스(121)에 접속된다.

앞서 기술되고 도 1에 도시된 드라이브 및 그 관련 컴퓨터 저장 매체는 컴퓨터(110)를 위한 컴퓨터 판독가능 명령, 데이터 구조, 프로그램 모듈 및 기타 데이터의 저장을 제공한다. 도 1에서, 예를 들어, 하드 디스크 드라이브(141)는 오퍼레이팅 시스템(144), 애플리케이션 프로그램(145), 기타 프로그램 모듈(146), 및 프로그램 데이터(147)를 저장하는 것으로 도시된다. 이들 컴포넌트는 오퍼레이팅 시스템(134), 애플리케이션 프로그램(135), 기타 프로그램 모듈(136), 및 프로그램 데이터(137)와 동일할 수도 있고 다를 수도 있다. 오퍼레이팅 시스템(144), 애플리케이션 프로그램(145), 다른 프로그램 모듈(146), 및 프로그램 데이터(147)는 최소한 다른 복사본(different copies)임을 나타내기 위하여 다른 번호를 부여하였다.

사용자는 일반적으로 마우스, 트랙볼, 또는 터치 패드라 불리우는 포인팅 장치(161), 키보드(162) 및 마이크로폰(163)과 같은 입력 장치를 통해 컴퓨터(110)에 명령 및 정보를 입력할 수 있다. (도시되지 않은) 기타 입력 장치는 마이크로폰, 조이스틱, 게임 패드, 위성 안테나, 스캐너 등을 포함할 수 있다. 이들 입력 장치 및 그외의 입력 장치는 시스템 버스에 연결된 사용자 입력 인터페이스(160)를 통해 종종 프로세싱 유닛(120)에 접속되지만, 병렬 포트, 게임 포트 또는 유니버설 시리얼 포트(USB) 와 같은 기타 인터페이스 및 버스 구조에 의해 접속될 수 있다. 모니터(191) 또는 다른 유형의 디스플레이 장치는 또한 비디오 인터페이스(190) 등의 인터페이스를 통해 시스템 버스(121)에 접속된다. 모니터 외에도, 컴퓨터는 또한 출력 주변 인터페이스(190)를 통해 접속될 수 있는 스피커(197) 및 프린터(196) 등의 기타 주변 출력 장치를 포함할 수 있다.

컴퓨터(110)는 원격 컴퓨터(180)와 같은 하나 이상의 원격 컴퓨터로의 논리적 접속을 이용한 네트워크 환경에서 동작할 수 있다. 원격 컴퓨터(180)는 퍼스널 컴퓨터, 핸드헬드 장치, 서버, 라우터, 네트워크 PC, 피어(peer) 장치, 또는 기타 공통 네트워크 노드일 수 있으며, 컴퓨터(110)에 관하여 상술한 구성요소 중 다수 또는 모든 구성요소를 일반적으로 포함할 수 있다. 도 1에 도시된 논리적 접속은 근거리 통신망(LAN; 171) 및 원거리 통신망(WAN; 173)을 포함하지만, 그 외의 네트워크를 포함할 수도 있다. 이러한 네트워크 환경은 사무실, 기업 광역 컴퓨터 네트워크(enterprise-wide computer network), 인트라넷, 및 인터넷에서 일반적인 것이다.

LAN 네트워크 환경에서 사용되는 경우, 컴퓨터(110)는 네트워크 인터페이스 또는 어댑터(170)를 통해 LAN(171)에 접속된다. WAN 네트워크 환경에서 사용되는 경우, 컴퓨터(110)는 일반적으로 인터넷 등의 WAN(173)을 통해 통신을 구축하기 위한 모뎀(172) 또는 기타 수단을 포함한다. 내장형 또는 외장형일 수 있는 모뎀(172)은 사용자 입력 인터페이스(160) 또는 기타 적절한 메카니즘을 통해 시스템 버스(121)에 접속될 수 있다. 네트워크 환경에서, 컴퓨터(110)에 관하여 도시된 프로그램 모듈 또는 그 일부분은 원격 메모리 저장 장치에 저장될 수 있다. 예로서 (한정하고자 하는 것은 아님), 도 1은 원격 컴퓨터(180)에 상주하는 원격 애플리케이션 프로그램(185)을 도시한다. 도시된 네트워크 접속은 예시적인 것이며, 컴퓨터들간의 통신 링크를 구축하는 그 외의 수단이 사용될 수 있다.

도 2는 예시적 컴퓨팅 환경인 모바일 장치(200)의 블록도이다. 모바일 장치(200)는 마이크로프로세서(202), 메모리(204), 입력/출력(I/O) 컴포넌트(206), 및 원격 컴퓨터 또는 그 외의 모바일 장치와 통신하기 위한 통신 인터페이스(208)를 포함한다. 일 실시예에서, 전술한 컴포넌트는 적절한 버스(210)를 통해 서로 통신하도록 접속되어 있다.

메모리(204)는, 모바일 장치(200)로의 일반적인 전력이 셧 다운(shut down)되는 경우 그 메모리(204)에 저장된 정보가 손실되지 않도록 배터리 백업 모듈(도시 생략)을 구비한 RAM과 같은 비휘발성 전자 메모리로서 구현된다. 메모리(204)의 일부는 프로그램 실행을 위한 어드레스가능 메모리로서 할당되는 반면, 메모리(204)의 다른 부분은 디스크 드라이브 상의 저장을 시뮬레이션하는 것과 같은 저장 을 위해 사용되는 것이 바람직하다.

메모리(204)는 오퍼레이팅 시스템(212), 애플리케이션 프로그램(214) 뿐만 아니라 목적어 저장부(216)를 포함한다. 동작동안, 오퍼레이팅 시스템(212)은 메모리(204)로부터 프로세서(202)에 의해 실행되는 것이 바람직하다. 바람직한 일 실시예에서, 오퍼레이팅 시스템(212)은 마이크로소프트사로부터 상업적으로 이용가능한 WINDOWS^® CE 브랜드 오퍼레이팅 시스템이다. 오퍼레이팅 시스템(212)은 바람직하게는 모바일 장치용으로 설계되어 있고, 노출된 애플리케이션 프로그래밍 인터페이스 세트 및 방법을 통해 애플리케이션(214)에 의해 이용될 수 있는 데이터베이스 피쳐(feature)를 구현한다. 목적어 저장부(216)에 있는 목적어는, 노출된 애플리케이션 프로그래밍 인터페이스 및 방법으로의 호출에 적어도 부분적으로 응답하여 애플리케이션(214) 및 오퍼레이팅 시스템(212)에 의해 유지된다.

통신 인터페이스(208)는 모바일 장치(200)가 정보를 송수신할 수 있게 하는 많은 장치 및 기술을 나타낸다. 상기 장치는, 예를 들면, 유선 및 무선 모뎀, 위성 수신기 및 방송 튜너를 포함한다. 모바일 장치(200)는 또한 컴퓨터에 직접 접속되어 데이터를 교환할 수 있다. 그 경우에, 통신 인터페이스(208)는 스트리밍 정보를 전송할 수 있는 적외선 트랜시버 또는 시리얼 또는 패러랠 통신 접속일 수 있다.

입력/출력 컴포넌트(206)는, 터치 민감형 스크린, 버튼, 롤러, 및 마이크로폰과 같은 다양한 입력 장치 뿐만 아니라 오디오 생성기, 진동 장치, 및 디스플레 이를 포함하는 다양한 출력 장치를 포함한다. 상기 목록화된 장치는 예이고 모바일 장치(200) 상에 모두 구비할 필요는 없다. 또한, 기타 입력/출력 장치는 본 발명의 범위 내에서 모바일 장치(200)와 접속되거나 그 안에서 발견할 수 있다.

본 발명의 일 실시예에 따라, 음성 인식 시스템은 사용자가 컴파운드 에러 시나리오에 빠지는 것을 회피하는 것을 돕기 위해 유도성 피드팩을 사용자에게 제공한다. 일 실시예에서, 상기 시스템은 시스템이 올바른 동사를 청취하였지만 그 주제(subject)가 불확실하다는 지시를 사용자에게 제공함으로써 상기 사항을 실행한다. 다음에, 그것이 사용자가 하고 싶어하는 것이라면, 텍스트로서 어구를 삽입하는 선택을 사용자에게 제공할 수 있다.

도 3은 본 발명의 실시예에 따른 컴퓨터 구현 방법의 블록도이다. 도 3에 도시된 방법은 전술한 컴퓨팅 환경 뿐만 아니라 기타 적절한 컴퓨팅 환경에서 실행될 수 있다. 방법(300)은 블록(302)에서 시작하며, 이 블록에서 음성 인식 커맨드용으로 사용되는 동사의 세트가 식별된다. 이 세트에는 일반적으로 10 내지 20개의 동사(예를 들면, select(선택하다), delete(삭제하다), start(시작하다), click(클릭하다) 등)가 있고, 그 동사들은 음향 차이에 대하여 선택될 것이다. 이것은, 음성 인식 소프트웨어가 시간상 매우 높은 퍼센트로 정확하게 동사를 인식하는 것을 확실하게 한다.

블록(304)에서, 시스템은 음성을 경청하고 음성을 인식된 텍스트로 변환한다. 블록(304)은 오늘날 공지된 임의의 적절한 음석 인식 기술 또는 미래에 개발될 기술에 따라 동작할 수 있다. 블록(304)에서 음성이 텍스트로 변환된 후에, 블 록(306)으로 진행하여 시스템은 인식된 텍스트가 간단한 커맨드인지의 여부를 판정한다. 인식된 음성이 "File"과 같은 간단한 커맨드이면, 그 커맨드는 음성에 의해 파일 메뉴를 클릭킹하는 것과 같이 실행된 다음, 제어는 라인(308)을 경유하여 블록(304)로 리턴한다.

블록(310)에서, 상기 시스템은 인식된 텍스트가 동사 플럭스 적어도 하나의 유효 목적어인지 여부를 판정한다. 간단한 예로는, 인식된 텍스트가 "Start Calculator"와 같은 유효한 동사-플러스-목적어가 있고, 다음에 시스템은 계산기 애플리케이션을 론칭할 것이다. 그러나, 본 발명의 실시예는 유효 목적어에 이어 부가의 텍스트가 있는 상황에도 동일하게 적용가능하다. 예를 들면, "Select the word <text> 및 turn it <formatting style>"과 같은 커맨드는 동사 "select"에 이어 유효 목적어 "the word"가 이어지며 그 뒤에 텍스트가 "the word"로서 의미되는 시스템을 말하는 특정자 <텍스트>가 이어진다. 또한, 상기 커맨드는 제2 동사 "turn"에 이어 또 다른 유효 목적어 "it"을 포함하기 때문에 다수의 부분을 갖는다. 본 발명의 실시예는 동사에 이어 적어도 하나의 유효 목적어로 시작하는 임의의 음성 인식 커맨드를 포함한다. 따라서, 본 발명의 실시예는, 동사-목적어-동사-목적어(select fred and turn it bold); 동사-목적어-목적어(change fred into fried); 및 동사-목적어-형용사(turn that red)를 포함하는 커맨드 뿐만 아니라 동사에 이어 유효 목적어로 시작하는 임의의 기타 커맨드에도 적용가능하다. 시스템이 동사 플러스 적어도 하나의 목적어에서 동작하였다면, 제어는 라인(312)를 따라 블록(304)로 리턴한다.

블록(312)에서, 상기 시스템은 인식된 텍스트가 블록(302)에서 선택된 동사 세트로부터의 동사 플러스 비유효 목적어인지 여부를 판정한다. 그 경우, 제어는 블록(314)로 진행한다. 블록(314)에서, 상기 시스템은 인식된 동사가 비유효 목적어에 기인하여 어떻게 동작해야 하는지 불확실하다는 지시를 사용자에게 제공한다. 그러나, 상기 시스템은 또한 "What was that?"와 같은 표준 오인식 메시지를 사용자에게 간단히 제공할 수 있다. 일 실시예에서, 사용자가 "Start calculator" 대신 "Start adding"라고 말하고 "adding"이 동사 "Start"에 대하여 비유효 목적어이면, 시스템은 사용자에게 무엇이 "Started"될 것인지 불확실하다고 지시할 것이다. 그 다음, 상기 시스템은 사용자가 받아쓰기로서 텍스트를 삽입하기를 원하면, "Insert start..."라고 말해야 한다는 것을 지시할 수 있다. 피드백은 또한 사용자가 원한다면, 인식된 동사에 대한 유효 목적어의 리스트가 디스플레이될 수 있다는 것을 지시한다. 사용자 피드백이 주어지면, 상기 방법은 블록(316)으로 선택적으로 진행하고, 시스템은 피드백에 대한 사용자 응답을 대기한다. 일부 실시예에서, 상기 방법은, 사용자 입력 및 결과적인 시스템 액션이 필요하지 않으면 블록(314)으로부터 블록(304)로 직접 진행할 수 있다. 선택 블록(316)에서, 사용자 응답은 버튼을 누르거나, 커맨드를 말하거나, 또는 임의의 기타 적절한 인터랙션의 형태일 수 있다. 사용자가 피드백에 관련한 입력을 제공하면, 블록(318)으로 선택적으로 진행하고, 여기에서 사용자 입력에 기초하여 적절한 액션이 취해진다. 예를 들면, 사용자가 동사 플러스 비유효 목적어가 구술되었다는 것을 지시했다면, 텍스트가 구술로서 입력될 것이다. 사용자 입력이 블록(318)에서 동작된 후에, 라 인(320)을 따라 블록(304)으로 리턴한다. 마지막으로, 인식된 텍스트가 간단한 커맨드, 동사-플러스-목적어도 아니고 동사-플러스 비유효 목적어도 아니라면, 인식된 텍스트는 블록(322)에서 지시된 바와 같이 구술로서 현재 문서에 간단히 삽입된다.

단계(306, 310 및 312)를 연속적으로 설명하였지만, 그러한 설명은 명료성을 위해 간단히 제공된 것이다. 평가 순서는 본 발명의 실시예에 따라 변경될 수 있다.

따라서, 본 발명에 따르면, 무효 목적어와 결합하여 선택된 동사의 인식에 응답하여 사용자에게 유도성 피드백을 제공함으로써, 간단한 프로세스를 통해 컴파운드 에러가 있는 것에 대하여 사용자를 즐겁게 할 수 있다. 더욱이, 음성 인식 시스템과 익숙하지 않은 사용자를 과도하게 실망시키지 않으면서 쉽게 안내할 수 있게 된다. 이러한 향상된 사용자 경험을 통해 사용자를 음성 인식 기술에 용이하게 적응시킬 수 있을 뿐만 아니라 음성 인식 시스템과의 사용자 인터랙션의 효율을 향상시킬 수 있다.

본 발명이 특정 실시예를 참조하여 설명되었지만, 본 발명의 사상 및 범위를 벗어나지 않고 변경이 가해질 수 있다는 것을 당업자는 이해할 수 있을 것이다.

Claims

음성을 인식하는 컴퓨터 구현 방법으로서,

유효 동사(valid verb)와 상기 유효 동사에 대해 미리-지정된 복수의 상이한 유효 목적어(valid object) 중 하나의 쌍(paring)을 포함하는 유효 음성 인식 커맨드(valid speech recognition commands)를 식별하는 단계;

사용자로부터의 발음(utterance)을 수신하는 단계;

상기 발음이 상기 유효 동사와 함께 무효 목적어(invalid object)를 포함하고 있는지 판단하는 단계 - 상기 무효 목적어는 상기 유효 동사에 대해 미리 지정된 복수의 상이한 유효 목적어와 상기 무효 목적어의 비교에 적어도 부분적으로 기초하여 무효라고 판단됨 -;

상기 판단에 응답하여, 상기 사용자에게 추가 발음을 제출하도록 유도하는 유도성 피드백(inductive feedback)을 제공하는 단계 -상기 추가 발음은 상기 무효 목적어 및 이와 조합된 상기 유효 동사를 포함하되, 상기 유효 동사 이외의 유효 커맨드 워드(valid command word)가 선행하도록 구성됨-;

상기 추가 발음을 수신하는 단계;

상기 추가 발음이 상기 유효 커맨드 워드를 포함하는지 판단하는 단계; 및,

상기 추가 발음이 상기 유효 커맨드 워드를 포함한다는 판단에 대하여, 상기 유효 동사를 커맨드로 처리하지 않고 대신에 상기 사용자에게 두 개의 옵션 중 하나를 처리를 위하여 선택하라고 재촉(prompt)함으로써 응답하는 단계 - 상기 두 개의 옵션 중 첫 번째는 상기 유효 동사와 상기 무효 목적어를 상기 사용자로부터 수신된 다른 발음들에 기초하여 생성된 텍스트의 디스플레이된 집합(collection)에 받아쓰기(dictation)로서 삽입하는 것을 포함하고 상기 두 개의 옵션 중 두 번째는 상기 사용자에게 상기 상이한 유효 목적어의 리스트를 시각적으로 디스플레이하는 것을 포함함 -;

를 포함하는, 컴퓨터 구현 방법.
삭제
삭제
제1항에 있어서,

상기 유효 커맨드 워드는 제 2 유효 동사인, 컴퓨터 구현 방법.
제1항에 있어서,

상기 두 개의 옵션 중 하나의 선택을 상기 사용자가 버튼을 누르는 형식으로 수신하는 단계를 더 포함하는, 컴퓨터 구현 방법.
제4항에 있어서,

상기 제 2 유효 동사는 복수의 상이한 미리 지정된 유효 동사와 상기 제 2 유효 동사를 비교하는 것에 적어도 부분적으로 기초하여 유효라고 판단되는, 컴퓨터 구현 방법.
제1항에 있어서,

상기 유도성 피드백을 제공하는 단계는 상기 발음이 상기 유효 동사와 함께 무효 목적어를 포함한다는 판단에 응답하여 자동적으로 상기 유도성 피드백을 제공하는 단계를 더 포함하는, 컴퓨터 구현 방법.
제1항에 있어서,

상기 유도성 피드백을 제공하는 단계는, 상기 사용자로부터 상기 무효 목적어를 포함하는 제 1 발음이 수신되면 제공하는 단계를 더 포함하는, 컴퓨터 구현 방법.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
음성을 인식하는 컴퓨터 구현된 방법으로서,

사용자로부터 음성(speech)을 수신하는 단계;

상기 사용자로부터의 상기 음성이 복수의 상이한 음성 입력 클래스(speech input classes) 중 어느 것에 속하는지 판단하도록 컴퓨터 프로세서를 활용하는 단계 - 상기 복수의 상이한 음성 입력 클래스의 첫 번째는 단순한 커맨드(simple command)와 연관되어 있으며, 상기 클래스의 두 번째는 동사-플러스-목적어 커맨드(verb-plus-object command)와 연관되어 있으며, 상기 클래스의 세 번째는 동사-플러스-무효 목적어 커맨드(verb-plus-invalid object command)와 연관되어 있으며, 상기 클래스의 네 번째는 받아쓰기(dictation)와 연관되어 있음 -;

상기 사용자로부터의 상기 음성이, 유효 동사와 함께 무효 목적어를 포함하는 상기 사용자로부터의 상기 음성에 적어도 부분적으로 기초하여, 상기 동사-플러스-무효 목적어 클래스에 속한다는 것을 판단하는 단계 - 상기 무효 목적어는 상기 유효 동사에 대해 미리 지정된 복수의 상이한 유효 목적어에 상기 무효 목적어를 비교하는 것에 적어도 부분적으로 기초하여 무효라고 판단됨 -;

상기 음성이 상기 동사-플러스-무효 목적어 클래스에 속한다는 판단에 대하여, 상기 유효 동사를 상기 단순한 커맨드, 상기 동사-플러스-목적어 커맨드 또는 받아쓰기 중 하나로서 처리하지 않도록 결정(elect)함으로써 응답하는 단계; 및

상기 음성이 상기 동사-플러스-무효 목적어 클래스에 속한다는 판단에 대하여, 상기 사용자에게 원하는 응답을 선택하도록 재촉하는 유도성 피드백을 자동적으로 제시하는 것에 의해 또한 응답하는 단계 - 상기 원하는 응답은 상기 유효 동사와 연관된 커맨드를 실행시키는 인스트럭션이나 상기 유효 동사를 디스플레이된 받아적혀진 텍스트의 집합에 삽입시키는 인스트럭션을 포함함 -;

를 포함하는, 컴퓨터 구현된 방법.
음성을 인식하는 컴퓨터 구현된 방법으로서,

유효 동사와 상기 유효 동사에 대하여 미리 지정된 복수의 상이한 유효 목적어 중 하나의 쌍을 포함하는 유효 음성 인식 커맨드를 식별하는 단계;

사용자로부터 발음을 수신하는 단계;

상기 발음이 상기 유효 동사와 함께 무효 목적어를 포함하는지 판단하는 단계-상기 무효 목적어는 상기 유효 동사에 대해 미리 지정된 상기 복수의 상이한 유효 목적어에 상기 무효 목적어를 비교하는 것에 적어도 부분적으로 기초하여 무효라고 판단됨-;

상기 판단에 대한 응답으로, 상기 사용자에게 상기 유효 동사를 커맨드 워드로 취급할 것인지 또는 상기 유효 동사를 받아적혀진 텍스트로 취급할 것인지 사이에서 선택하도록 유도하는 유도성 피드백을 제공하는 단계 - 상기 유도성 피드백은 상기 유효 동사를 상기 받아적혀진 텍스트로 취급하도록 활용되는 제 2 유효 동사의 표시(indication)를 포함하고, 상기 유도성 피드백은 상기 유효 동사를 상기 커맨드 워드로 취급하도록 활용되는 상기 복수의 상이한 유효 목적어의 표시를 포함함 -;

를 포함하는, 컴퓨터 구현된 방법.
제17항에 있어서,

상기 유도성 피드백을 제공하는 단계에 대한 응답으로 버튼이 눌려졌다는 표시를 수신하는 단계를 더 포함하고,

상기 유도성 피드백을 제공하는 단계는, 상기 판단에 응답하여 상기 유효 동사에 대하여 미리 지정된 상기 복수의 상이한 유효 목적어의 디스플레이된 리스트로부터 목적어를 선택하도록 상기 사용자를 초대하는 유도성 피드백을 제공하는 단계를 포함하는,

컴퓨터 구현된 방법.
제17항에 있어서,

상기 발음이 단순한 커맨드 또는 유효 동사-플러스-목적어 커맨드에 해당하지 않는다고 판단하는 단계를 더 포함하고,

상기 유도성 피드백을 제공하는 단계는, 상기 판단에 응답하여 상기 커맨드 워드와 연관되나 상기 무효 목적어 이외의 목적어와 관련된 커맨드를 실행하도록 상기 사용자를 초대하는 유도성 피드백을 제공하는 단계를 포함하는,

컴퓨터 구현된 방법.
제17항에 있어서,

상기 발음이 동사-목적어-동사-목적어 커맨드, 동사-목적어-목적어 커맨드 또는 동사-목적어-형용사 커맨드에 해당하지 않는다는 것을 판단하는 단계를 더 포함하고,

상기 유도성 피드백을 제공하는 단계는, 상기 판단에 응답하여 상기 사용자에게 다시 상기 유효 동사와 함께 상기 무효 목적어를 포함하는, 그러나 상기 유효 동사 이외의 유효 커맨드 워드가 선행하는, 추가 발음을 제출하도록 초대하는 유도성 피드백을 제공하는 단계를 포함하는,

컴퓨터 구현된 방법.
제17항에 있어서,

상기 유도성 피드백을 제공하는 단계는 상기 발음이 상기 유효 동사와 함께 무효 목적어를 포함한다는 판단에 응답하여 즉시 상기 유도성 피드백을 제공하는 단계를 포함하는,

컴퓨터 구현된 방법.
제17항에 있어서,

상기 유도성 피드백을 제공하는 단계는 상기 사용자에게 추가 발음을 제공하라고 지시(instruct)하지 않으면서 상기 발음에 즉시 응답하여 상기 유도성 피드백을 제공하는 단계를 포함하는,

컴퓨터 구현된 방법.
제17항에 있어서,

상기 유도성 피드백을 제공하는 단계는, 상기 판단에 응답하여 상기 유효 동사를 커맨드 워드로 취급하는 것 대신에 텍스트로 취급하게 하는 옵션을 상기 사용자에게 제시하는 단계를 더 포함하는,

컴퓨터 구현된 방법.
삭제